■비모수 검정
■모수적 검정과 비모수 검정의 차이점
- 모수적 검정
①가정된 분포의 모수
: (예를 들어 모평균 μ, 모비율 p, 모분산σ² 등)에 대해 가설을 설정
②관측된 자료를 이용해 구한 표본 평균 x, 표본 분산 S² 등을 이용해 검정을 실시
-비모수적 검정
①가정된 분포가 없으므로 가설을 단지' 분포의 형태가 동일하다' 또는 '분포의 형태가 동일하지 않다'와 같이 분포의 형태에 대해 설정
②관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위 (rank)나 두 관측값 차이의 부호 등을 이용해 검정함.
∴ 대표적인 비모수 검정방법으로는 쌍으로 관측된 표본에 대한 부호 검정, 윌콕슨의 순위함 검정, 윌콕슨의 부호 순위합 검정, 만-위트니의 U 검정, 런검정, 스피어만의 순위 상관계수 등.
■SOM(Self-Organizing Maps)
- SOM(자기 조직화 지도) 알고리즘은 코호넨에 의해 제시, 개발되었으며 코호넨 맵이라고도 알려져 있음.
- 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저 차원의 뉴런으로 정렬하여 지도의 형태로 형상화함.
(형상화 : 입력 변수의 위치 관계를 그대로 보존한다는 특징)
- 실제 공간의 입력 변수가 가까이 있으면, 지도상에서도 가까운 위치에 있게 됨.
SOM 모델은 두 개의 인공 신경망 층으로 구성되어 있음.
①입력층 (입력 벡터를 받는 층)
: 입력 변수의 개수와 동일하게 뉴런의 수가 존재함.
②경쟁층 (2차원 격차로 구성됨. 입력 벡터의 특성에 따라 벡터가 한 점으로 클러스터링 되는 층)
: 사용자가 미리 정해 놓은 군집의 수만큼 뉴런 수가 존재함.
③지도
: 입력층의 자료는 학습을 통하여 경쟁층에 정렬됨.
④입력층에 있는 각각의 뉴런은 경쟁층에 있는 각각의 뉴런들과 연결되어 있음. 이때 완전 연결되어있음.
특징
▷고차원의 데이터를 저차원의 지도형태로 형상화하기 때문에 시각적으로 이해가 쉬움.
▷입력 변수의 위치관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상에서 가깝게 표현됨. 이런 특징 때문에 패턴 발견, 이미지 분석 등에서 뛰어난 성능을 보임.
▷역전파 알고리즘 등을 이용하는 인공신경망과 달리 단 하나의 전방 패스를 사용함으로써 속도가 매우 빠름.
▷잠재적으로 실시간 학습처리를 할수 있는 모델임.
Q. 다음 군집분석 방법론 중 SOM에 대한 설명이다. 설명이 가장 알맞는 것은?
정답☞ SOM 알고리즘은 비지도 학습 방법인 신경망에서 저차원의 뉴런을 정렬하여 지도의 형태로 형상화함.
■가설검정
개념설명
-가설
: 모집단의 미지의 모수에 대한 주장
-가설검정
: 모집단에서 추출한 표본의 정보를 이용하여 미지의 모수에 대한 주장. 즉 가설의 옳고 그름을 판단하는 가정
-회귀분석
: 하나나 그 이상의 변수들이 또 다른 변수에 미치는 영향에 대해 추론할 수 있는 통계기법
회귀분석에서 검토사항
▶모형이 통계적으로 유의미한가 ?
: F 통계량을 확인한다. 유의수준 5%이하에서 F통계량의 P-값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유ㅣ의하다고 볼수 있음.
▶회귀계수들이 유의미한가?
: 해당 계수의 t 통계량과 p- 값 또는 이들의 신뢰구간을 확인한다.
▶모형이 얼마나 설명력을 갖는가?
: 결정계수를 확인한다. 결정계수는 0~1 값을 가지며, 높은 값을 가질수록 추정된 회귀식의 설명력이 높다.
▶모형이 데이터를 잘 적합하고 있는가?
: 잔차를 그래프로 그리고 회귀 진단한다.
■Bias- variance trade off
Q. Bias- variance trade off 관계와 관련하여 유연성이 증가할 경우 분산과 편향은 어떻게 되는가?
(분산은 높고 편향은 낮다)
개념설명
-Bias[편향] : 기댓값과 실제값의 차이. 모델 구축에 있어서의 가정이 옳은가? 모델의 치우침 정도.
-Variance[분산] : 예측값이 평균으로부터 퍼져있는 정도 예측값이 그 평균과 얼마나 차이가 나는가?
-과소적합 :편향이 크고 분산이 작아진 경우. (모델의 복잡도가 너무 낮아짐. 트레이닝 데이터를 잘 학습하지 못해 예측 성능이 떨어짐. )
-과대적합 : 편향이 작고 분산이 큰 경우. (모델의 복잡도가 너무 높아짐.트레이닝 데이터는 잘 학습해 다 설명 가능하지만 새로운 데이터에 대해서는 일반성이 떨어져 예측 성능이 떨어질 수있음.)
-trade-off : 두개의 목표 가운데 하나를 달성하려고 하면 다른 목표의 달성이 힘들어지거나 희생되는 경우의 양자 간의 관계 .
∴편향과 분산의 관계에서는 Bias- variance trade off라고 함.
Error= σ²+Bias²+variance[σ=데이터의기존분산(고정)]
기계학습의 목표 : 일반화
트레이닝 데이터뿐만 아니라 테스트 데이터에도 좋은 성능을 내는 것. 과소적합과 과대적합 현상을 방지할 수 있어야함.
즉, 낮은 Bias(편차)와 낮은 Variance(분산) 을 구하는 것이 중요
하지만 Bias(편차) 와 Variance(분산)은 Trade-off 관계이므로 Bias(편차)의 희생을 최소화하며 낮은 Variance(분산)을 유지하는것이 중요
■랜덤포레스트
Q. 보험사 고객 데이터를 갱신해서 예측하려고 할 때 적절한 분석기법으로 가장 적절한 것은?
(랜덤 포레스트)
랜덤포레스트 = 배깅 + 랜덤 과정
▶원자료로 부터 붓스트랩 샘프를 추출하고. 각 붓스트랩 샘플에 대해 트리를 형성해 나가는 과정은 배깅과 유사하나. 각 노드마다 모든 예측변수 안에서 최적의 분할을 선택하는 방법 대신 예측변수들을 임의로 추출하고. 추출된 변수 내에서 최적의 분할을 만들어 나가는 방법을 사용함.
▶새로운 자료에 대한 예측 분류의 경우는 다수결, 회귀의 경우에는 평균을 취하는 방법을 사용하며, 이는 다른 앙상블 모형과 동일함.
랜덤 포레스트 특징
①의사결정 나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅 보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종학습기를 만드는 방법.
②단점: 이론적 설명이나 해석이 어려움.
③장점: 예측력이 매우 높음.
④입력변수가 많은경우 더 좋은 예측력을 보임.
■상관분석
① 두 변수간의 상관 정도를 상관계수를 통해 확인할수 있음
② 상관계수-1에서 1사이의 값으로 양수는 양의 상관. 음수는 음의 상관을 표현
③ 상관계수가 0이면 데이터 간의 상관이 없음.
④ 피어슨 상관계수: 등간척도 이상으로 측정된 두 변수들 상관관계 측정
⑤ 스피어만 순서 상관계수 : 순서 또는 서열 척도인 두변수들 간의 상관관계를 측정.
■인과관계
① 종속변수 : 다른 변수의 영향을 받는 변수
② 독립변수 : 영향을 주는 변수
③ 산점도 : 좌표평면 위에 점들로 표현
산점도에서 확인할 사항
▶ 두변수 사이의 선형관계(직선관계)가 성립하는가?
▶ 두 변수 사이의 함수관계 (직선관계 또는 곡선관계)가 성립하는가?
▶ 이상값이 존재하는가?
▶ 몇개의 집단으로 구분 (층별) 되는가?
■ 회귀분석, 결정계수
- 회귀분석이란 하나나 그 이상의 변수들이 또 다른 변수에 미치는 영향에 대해 추론할 수 있는 통계 기법.
- 결정계수 :
▶전체제곱합에서 회귀제곱합의 비.
▶0≤R²≤1
▶전체 데이터를 회귀 모형이 설명할 수 있는 양. (단순 회귀분석에서는 상관계수 r 의 제곱과 같다)
▶결정계수는 1에 가까울 수록 회귀모형이 전체 데이터를 잘 설명함을 의미함.
회귀분석에서 검토사항
▶모형이 통계적으로 유의미한가?
: F통계량을 확인한다. 유의수준 5%이하에서 F 통계량의 P-값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의미하다고 볼수 있다.
▶회귀계수들이 유의미한가?
: 해당계수의 t통계량과 P-값 또는 이들의 신뢰구간을 확인한다.
▶모형이 얼마나 설명력을 갖는가?
: 결정계수를 확인한다. 결정계수는 0~1 값을가지며, 높은 값을 가질수록 추정된 회귀식의 설명력이 높다.
▶모형이 데이터를 잘 적합하고 있는가?
: 잔차를 그래프로 그리고 회귀진단한다.
Q. 귀무가설이 사실인데 기각하는 1종오류시 우리가 내린 판정이 잘못되었을 실제 확률은 ?
(P-value)
■가설검정 결과와 오류
-귀무가설
: 입증하고자하는 가설을 의미함. 본인이 증명하고 싶은 가설
▶통계학에서 처음부터 버릴 것을 예상하는 가설
▶ 차이가 없거나 의미있는 차이가 없는 경우의 가설. 이것이 맞거나 맞지 않다는 통계학적 증거를 통해 증명하려는 가설.
-귀무가설이 사실일때. 관측된 검정통계량의 값보다 더 대립가설을 지지하는 검정통계량이 나올확률을 p- 값이라 고 함.
-제 1종 오류
: 귀무가설 H0 이 옳은데도 H0을 기각하게되는 오류. 이러한 확률의 크기를 제 1종오류의 크기라고 함.
-제 2종 오류
: 귀무가설 H0이 옳지 않은데도 H0을 채택하게 되는 오류. 이러한 확률크기를 제 2종오류의 크기라고 함.
가설검정결과 |
H0 이 사실이라고 판정 | H0 이 사실이 아니라고 판정 |
정확한 사실 | ||
H0 이 사실임 | 옳은 결정 | 제 1종 오류 |
H0이 사실이 아님 | 제 2종 오류 | 옳은 결정 |
Q. 제 1종의 오류와 제 2종의 오류에 대한 설명들 중 가장 적절한 것은?
( 제 1종오류는 실제로 귀무가설이 참이지만, 검정결과 귀무가설을 기각하는 오류이다.)
이 글과 함께 읽으면 좋은글
ADsP 1과목 공부_1
■빅데이터 출현 배경 -개별기업의 고객 데이터 축적 및 활용 증가 -인터넷 확산 -저장 기술의 발전과 가격 하락 -모바일 시대의 도래와 스마트 단말의 보급 -클라우드 컴퓨팅 기술 발전 -비정형
chinggu2000.tistory.com
ADsP 1과목 공부 _2
■ 암묵지와 형식지 데이터는 지식경영의 핵심 이슈인 암묵지와 형식지의 상호작용에 있어 중요한 역할을 함. - 암묵지 : 개인에게 축적된 내면화된 지식 => 조직의 지식으로 공통화 - 형식지 :
chinggu2000.tistory.com
ADsP 2과목 공부 _1
■데이터 거버넌스 체계 ◇데이터 표준화 : 데이터 표준 용어 설명. 명명 규칙 수립. 메타데이터 구축 데이터 사전 구축 등의 업무로 구성됨 ◇데이터 관리 체계 : 데이터 정합성 및 활용의 효율
chinggu2000.tistory.com
ADsP 3과목 공부 _1
■변수 선택법 - 모든 가능한 독립변수들의 조합에 대한 회귀모형을 분석해 가장 적합한 모형 선택 ①전진 선택법 : 절편만 있는 상수 모형으로부터 시작해 중요하다고 생각되는 설명변수부터
chinggu2000.tistory.com
ADsP 3과목 공부 _3
■ 연관분석 Q. 교차 판매/ 물건 배치 등에 이용되는 기법은? (연관분석) "어느 고객이 어떤제품을 같이 구매할까?" ☞ 연관분석 실시 ☞ 교차판매 ■연관성분석 연관성분석 연관규칙 : 항목들 간
chinggu2000.tistory.com
'AI 관련 > ADsP, ADP' 카테고리의 다른 글
ADsP 1과목 공부 _2 (0) | 2021.05.09 |
---|---|
ADsP 3과목 공부 _3 (0) | 2021.05.08 |
ADsP 1과목 공부_1 (0) | 2021.05.07 |
ADsP 2과목 공부 _1 (0) | 2021.05.06 |
ADsP 3과목 공부 _1 (0) | 2021.05.04 |
댓글