본문 바로가기
AI 관련/ADsP, ADP

ADsP 3과목 공부 _2

by 팀장일기 2021. 5. 8.

■비모수 검정 

 

■모수적 검정과 비모수 검정의 차이점 

- 모수적 검정

①가정된 분포의 모수 

: (예를 들어 모평균 μ, 모비율 p, 모분산σ² 등)에 대해 가설을 설정  

②관측된 자료를 이용해 구한 표본 평균 x,  표본 분산 S² 등을 이용해 검정을 실시 

 

-비모수적 검정

①가정된 분포가 없으므로 가설을 단지' 분포의 형태가 동일하다' 또는 '분포의 형태가 동일하지 않다'와 같이 분포의 형태에 대해 설정 

②관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위 (rank)나  두 관측값 차이의 부호 등을 이용해 검정함. 

 

∴ 대표적인 비모수 검정방법으로는 쌍으로 관측된 표본에 대한 부호 검정, 윌콕슨의 순위함 검정, 윌콕슨의 부호 순위합 검정, 만-위트니의 U 검정, 런검정, 스피어만의 순위 상관계수 등. 

 

■SOM(Self-Organizing Maps)

- SOM(자기 조직화 지도) 알고리즘은 코호넨에 의해 제시, 개발되었으며 코호넨 맵이라고도 알려져 있음. 

- 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저 차원의 뉴런으로 정렬하여 지도의 형태로 형상화함. 

 (형상화 : 입력 변수의 위치 관계를 그대로 보존한다는 특징) 

- 실제 공간의 입력 변수가 가까이 있으면, 지도상에서도 가까운 위치에 있게 됨. 

SOM(Self-Organizing Maps)

SOM 모델은 두 개의 인공 신경망 층으로 구성되어 있음. 

입력층 (입력 벡터를 받는 층) 

: 입력 변수의 개수와 동일하게 뉴런의 수가 존재함. 

경쟁층 (2차원 격차로 구성됨. 입력 벡터의 특성에 따라 벡터가 한 점으로 클러스터링 되는 층)

: 사용자가 미리 정해 놓은 군집의 수만큼 뉴런 수가 존재함. 

지도 

: 입력층의 자료는 학습을 통하여 경쟁층에 정렬됨. 

④입력층에 있는 각각의 뉴런은 경쟁층에 있는 각각의 뉴런들과 연결되어 있음. 이때 완전 연결되어있음. 

 

특징

▷고차원의 데이터를 저차원의 지도형태로 형상화하기 때문에 시각적으로 이해가 쉬움.

▷입력 변수의 위치관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상에서 가깝게 표현됨. 이런 특징 때문에  패턴 발견, 이미지 분석 등에서 뛰어난 성능을 보임.

▷역전파 알고리즘 등을 이용하는 인공신경망과 달리 단 하나의 전방 패스를 사용함으로써 속도가 매우 빠름. 

▷잠재적으로 실시간 학습처리를 할수 있는 모델임. 

 

Q. 다음 군집분석 방법론 중 SOM에 대한 설명이다. 설명이 가장 알맞는 것은?

정답☞ SOM 알고리즘은 비지도 학습 방법인 신경망에서 저차원의 뉴런을 정렬하여 지도의 형태로 형상화함.

 

 

■가설검정

개념설명 

-가설

: 모집단의 미지의 모수에 대한 주장 

 

-가설검정

: 모집단에서 추출한 표본의 정보를 이용하여 미지의 모수에 대한 주장. 즉 가설의 옳고 그름을 판단하는 가정 

 

-회귀분석 

: 하나나 그 이상의 변수들이 또 다른 변수에 미치는 영향에 대해 추론할 수 있는 통계기법 

 

 

회귀분석에서 검토사항 

▶모형이 통계적으로 유의미한가 ?

: F 통계량을 확인한다. 유의수준 5%이하에서 F통계량의 P-값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유ㅣ의하다고 볼수 있음. 

 

▶회귀계수들이 유의미한가? 

: 해당 계수의 t 통계량과 p- 값 또는 이들의 신뢰구간을 확인한다.

 

▶모형이 얼마나 설명력을 갖는가? 

: 결정계수를 확인한다. 결정계수는 0~1 값을 가지며, 높은 값을 가질수록 추정된 회귀식의 설명력이 높다. 

 

▶모형이 데이터를 잘 적합하고 있는가? 

: 잔차를 그래프로 그리고 회귀 진단한다. 

 

Bias- variance trade off

Q. Bias- variance trade off 관계와 관련하여 유연성이 증가할 경우 분산과 편향은 어떻게 되는가? 

(분산은 높고 편향은 낮다)

 

개념설명 

 

-Bias[편향] :  기댓값과 실제값의 차이. 모델 구축에 있어서의 가정이 옳은가? 모델의 치우침 정도.

-Variance[분산] : 예측값이 평균으로부터 퍼져있는 정도 예측값이 그 평균과 얼마나 차이가 나는가? 

-과소적합 :편향이 크고 분산이 작아진 경우. (모델의 복잡도가 너무 낮아짐. 트레이닝 데이터를 잘 학습하지 못해 예측 성능이 떨어짐. )

-과대적합 : 편향이 작고 분산이 큰 경우. (모델의 복잡도가 너무 높아짐.트레이닝 데이터는 잘 학습해 다 설명 가능하지만 새로운 데이터에 대해서는 일반성이 떨어져 예측 성능이 떨어질 수있음.)

-trade-off : 두개의 목표 가운데 하나를 달성하려고 하면 다른 목표의 달성이 힘들어지거나 희생되는 경우의 양자 간의 관계 . 

 

∴편향과 분산의 관계에서는 Bias- variance trade off라고 함. 

Error= σ²+Bias²+variance[σ=데이터의기존분산(고정)]

Bias- variance trade off

기계학습의 목표 : 일반화 

트레이닝 데이터뿐만 아니라 테스트 데이터에도 좋은 성능을 내는 것. 과소적합과 과대적합 현상을 방지할 수 있어야함.

즉, 낮은 Bias(편차)와 낮은 Variance(분산) 을 구하는 것이 중요 

 

하지만 Bias(편차) 와 Variance(분산)은 Trade-off 관계이므로 Bias(편차)의 희생을 최소화하며 낮은 Variance(분산)을 유지하는것이 중요 

 

 

 

■랜덤포레스트 

Q. 보험사 고객 데이터를 갱신해서 예측하려고 할 때 적절한 분석기법으로 가장 적절한 것은?

(랜덤 포레스트)

 

랜덤포레스트 = 배깅 + 랜덤 과정 

▶원자료로 부터 붓스트랩 샘프를 추출하고. 각 붓스트랩 샘플에 대해 트리를 형성해 나가는 과정은 배깅과 유사하나. 각 노드마다 모든 예측변수 안에서 최적의 분할을 선택하는 방법 대신 예측변수들을 임의로 추출하고. 추출된 변수 내에서 최적의 분할을 만들어 나가는 방법을 사용함. 

 

▶새로운 자료에 대한 예측 분류의 경우는 다수결, 회귀의 경우에는 평균을 취하는 방법을 사용하며, 이는 다른 앙상블 모형과 동일함. 

 

 

랜덤 포레스트 특징

①의사결정 나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅 보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종학습기를 만드는 방법. 

②단점: 이론적 설명이나 해석이 어려움. 

③장점: 예측력이 매우 높음. 

④입력변수가 많은경우 더 좋은 예측력을 보임. 

 

■상관분석 

① 두 변수간의 상관 정도를 상관계수를 통해 확인할수 있음

② 상관계수-1에서 1사이의 값으로 양수는 양의 상관. 음수는 음의 상관을 표현

③ 상관계수가 0이면 데이터 간의 상관이 없음.

④ 피어슨 상관계수: 등간척도 이상으로 측정된 두 변수들 상관관계 측정

⑤ 스피어만 순서 상관계수 : 순서 또는 서열 척도인 두변수들 간의 상관관계를 측정. 

 

■인과관계 

① 종속변수 : 다른 변수의 영향을 받는 변수 

② 독립변수 : 영향을 주는 변수  

③ 산점도 : 좌표평면 위에 점들로 표현 

 

산점도에서 확인할 사항 

▶ 두변수 사이의 선형관계(직선관계)가 성립하는가? 

▶ 두 변수 사이의 함수관계 (직선관계 또는 곡선관계)가 성립하는가? 

▶ 이상값이 존재하는가? 

▶ 몇개의 집단으로 구분 (층별) 되는가? 

 

■ 회귀분석, 결정계수 

- 회귀분석이란 하나나 그 이상의 변수들이 또 다른 변수에 미치는 영향에 대해 추론할 수 있는 통계 기법.

- 결정계수 :

▶전체제곱합에서 회귀제곱합의 비. 

▶0≤R²≤1

▶전체 데이터를 회귀 모형이 설명할 수 있는 양. (단순 회귀분석에서는 상관계수 r 의 제곱과 같다) 

▶결정계수는 1에 가까울 수록 회귀모형이 전체 데이터를 잘 설명함을 의미함. 

 

 

회귀분석에서 검토사항 

▶모형이 통계적으로 유의미한가? 

: F통계량을 확인한다. 유의수준 5%이하에서 F 통계량의 P-값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의미하다고 볼수 있다. 

▶회귀계수들이 유의미한가? 

: 해당계수의 t통계량과 P-값 또는 이들의 신뢰구간을 확인한다. 

▶모형이 얼마나 설명력을 갖는가? 

: 결정계수를 확인한다. 결정계수는 0~1 값을가지며, 높은 값을 가질수록 추정된 회귀식의 설명력이 높다. 

▶모형이 데이터를 잘 적합하고 있는가? 

: 잔차를 그래프로 그리고 회귀진단한다. 

 

Q. 귀무가설이 사실인데 기각하는 1종오류시  우리가 내린 판정이 잘못되었을 실제 확률은 ? 

(P-value)

 

 

 

■가설검정 결과와 오류 

-귀무가설

: 입증하고자하는 가설을 의미함. 본인이 증명하고 싶은 가설 

▶통계학에서 처음부터 버릴 것을 예상하는 가설

▶ 차이가 없거나 의미있는 차이가 없는 경우의 가설. 이것이 맞거나 맞지 않다는 통계학적 증거를 통해 증명하려는 가설. 

 

-귀무가설이 사실일때. 관측된 검정통계량의 값보다 더 대립가설을 지지하는 검정통계량이 나올확률을  p- 값이라 고 함. 

 

 

-제 1종 오류

: 귀무가설 H0 이 옳은데도 H0을 기각하게되는 오류. 이러한 확률의 크기를 제 1종오류의 크기라고 함. 

 

-제 2종 오류 

: 귀무가설 H0이 옳지 않은데도 H0을  채택하게 되는 오류. 이러한 확률크기를 제 2종오류의 크기라고 함. 

 

 

가설검정결과 

H0 이 사실이라고 판정 H0 이 사실이 아니라고 판정
정확한 사실 
H0 이 사실임 옳은 결정 제 1종 오류
H0이 사실이 아님 제 2종 오류 옳은 결정 

 

 

Q. 제 1종의 오류와 제 2종의 오류에 대한 설명들 중 가장 적절한 것은? 

( 제 1종오류는 실제로 귀무가설이 참이지만, 검정결과 귀무가설을 기각하는 오류이다.)

 

 

 

 

이 글과 함께 읽으면 좋은글

 

ADsP 1과목 공부_1

■빅데이터 출현 배경 -개별기업의 고객 데이터 축적 및 활용 증가 -인터넷 확산 -저장 기술의 발전과 가격 하락 -모바일 시대의 도래와 스마트 단말의 보급 -클라우드 컴퓨팅 기술 발전 -비정형

chinggu2000.tistory.com

 

ADsP 1과목 공부 _2

■ 암묵지와 형식지 데이터는 지식경영의 핵심 이슈인 암묵지와 형식지의 상호작용에 있어 중요한 역할을 함. - 암묵지 : 개인에게 축적된 내면화된 지식 => 조직의 지식으로 공통화 - 형식지 :

chinggu2000.tistory.com

 

ADsP 2과목 공부 _1

■데이터 거버넌스 체계 ◇데이터 표준화 : 데이터 표준 용어 설명. 명명 규칙 수립. 메타데이터 구축 데이터 사전 구축 등의 업무로 구성됨 ◇데이터 관리 체계 : 데이터 정합성 및 활용의 효율

chinggu2000.tistory.com

 

ADsP 3과목 공부 _1

■변수 선택법 - 모든 가능한 독립변수들의 조합에 대한 회귀모형을 분석해 가장 적합한 모형 선택 ①전진 선택법 : 절편만 있는 상수 모형으로부터 시작해 중요하다고 생각되는 설명변수부터

chinggu2000.tistory.com

 

ADsP 3과목 공부 _3

■ 연관분석 Q. 교차 판매/ 물건 배치 등에 이용되는 기법은? (연관분석) "어느 고객이 어떤제품을 같이 구매할까?" ☞ 연관분석 실시 ☞ 교차판매 ■연관성분석 연관성분석 연관규칙 : 항목들 간

chinggu2000.tistory.com

 

 

'AI 관련 > ADsP, ADP' 카테고리의 다른 글

ADsP 1과목 공부 _2  (0) 2021.05.09
ADsP 3과목 공부 _3  (0) 2021.05.08
ADsP 1과목 공부_1  (0) 2021.05.07
ADsP 2과목 공부 _1  (0) 2021.05.06
ADsP 3과목 공부 _1  (0) 2021.05.04

댓글