ADsP 3과목 요점 정리_3과목 2장 통계분석_03 회귀분석
03 회귀분석
1. 회귀분석 개요
(1) 회귀분석의 개념
1) 회귀분석 : 회귀분석이랑 하나 이상의 독립변수들이 종속변수에 얼마나 영향을 미치는지 추정하는 통계 기법이다.
2) 회귀분석의 종류 : 단순회귀, 다중회귀, 다항회귀, 비선형회귀
(2)회귀분석의 가정
- 선형성
- 독립변수와 종속변수가 선형적이여야 한다.
- 예외적으로 2차 함수 회귀선을 갖는 다항회귀붖ㄴ석의 경우에는 선형성을 갖지 않아도 된다.
- 산점도를 통해 분석하기 전에 변수 사이의 관계를 짐작할 수 있어 회귀분석하기전 상관분석은 거의 필수적으로 함께 따라온다.
- 독립성
- 단순회귀분석에서는 잔차와 독립변수의 값이 서로 독립이어야 한다.
- 독립변수가 여러개인 다중회귀 분석의 경우에는 독립변수들 간에 상관성이 없이 독립이어야 한다.
- 만약 독립변수들 간에 상관성이 존재하는 경우, 이를 다중공선성이라하며 , 이를 제거하고 회귀분석을 수행해야 한다.
- 등분산성
- 등분산성이란, 분산이 같다는 의미이며 다른 말로 잔차들이 고르게 분포하고 있다는 의미이다.
- 잔차의 중심에서 분산이 같아야 한다는 의미다. 등분산성을 만족하지 못하면 회귀선은 어떤 추세를 띠지 못하고 덩어리 (뭉친) 모양을 하게 된다.
- 정규성
- 잔차항이 정규분포 형태를 띠는 것을 정규성을 만족한다고 한다.
- Q-Q Plot에서 잔차가 오른쪽으로 상승하는 형태를 띠면 정규성을 만족한다고 판단한다.
2. 단순회귀분석
(1)회귀계수의 추정
1) 단순선형 회귀분석 : 독립변수와 종속변수가 1개 씩일때 둘 사이의 인과관계를 분석하는 것으로, 두 변수의 관계가 선형이다.
2) 최소제곱법으로 회귀계수 추정 : 최소제곱법을 통해 파라미터를 추정하고 추정된 파라미터를 통해 추세선을 그려 값을 예측하는 것이 회귀분석의 기본 알고리즘이다.
(2) 회귀분석모형의 적합성
1) 회귀분석의 분산 분석표 : 회귀분석의 결과에 대한 모형 적합성을 검정하기 위해서는 분산분석표를 사용해야한다. 독립변수가 1개라면 단순회귀분석, 2개 이상이라면 다중회귀분석을 시행한다.
2) 회귀모형의 통계적 유의성 검증 : 회귀모형의 통계적 유의성은 F-검정을 통해 확인한다.
3)회귀계수의 유의성 검증 : 회귀계수의 유의성은 t-검정을 통해 확인할 수 있다.
4) 모형의 설명력 : 설명력이 좋다는 의미는 데이터들의 분포가 회귀선에 밀접하게 분포하고 있다는 의미이다.
3. 다중선형 회귀분석
(1) 다중선형회귀분석
: 독립변수가 2개 이상이고 종속변수가 하나일 때 사용가능한 회귀분석
(2) 다중공선성
1)다중공선성의 개념 : 회귀분석에서 독립변수 간에 강한 상관관계가 나타나는 문제
2) 다중공선성의 진단 : 결정계수 R^2값이 커서 회귀식의 설명력은 높지만 각 독립변수의 P-value값이 커서 개별 인자가 유의하지 않은 경우 다중 공선성을 의심할 수 있다.
4, 최적회귀방정식
(1) 최적 회귀방정식
1) 최적회귀방정식의 개념 : 종속변수에 유의미한 영향을 미칠것으로 생각되는 독립변수를 선택하는 과정.
2)최적의 회귀방정식을 도출하기 위한 방법
: 부분집합법과 단계적 변수 선택법으로 나눌수 있다.
- 부분 집합법 : 모든 가능한 모델을 고려하여 가장 좋은 모델을 선정하는 방법
- 단계적 변수선택법 ; 말 그대로 일정한 단계를 거치면서 변수를 추가하거나 혹은 제거하는 방식으로 최적의 회귀방정식을 도출하는 방식 (전진선택법, 후진제거법, 단계선택법)
(2)변수 선택에 사용되는 성능지표
1)벌점화 방식의 AIC와 BIC : 변수의 수가 많아 복잡해진 모형이 벌점, 즉 일종의 패널티를 주어 최적 회귀방정식을 도출 (회귀모형의 설명력을 높이고자)하는 방법
2)AIC : 모델의 성능지표로서 MSE에 변수 수만큼 패널티를 주는 지표
3)BIC : AIC의 단점인 표본이 커질때 부정확하다는 단점을 보완한 지표가 BIC이다.
4)멜로우Cp : 멜로우가 제안한 통계량으로 Cp값은 최소자승법으로 사용하여 추정된 회귀모형의 적합성을 평가하는데 사용된다.
(3) 단계적 변수 선택법
1) 전진선택법 : 모든 독립변수 가운데 기준통계치에 가장 많은 영향을 줄 것으로 판단되는 변수부터 하나싹 추가하면서 모형을 선택한다.
2) 후진제거법 : 독립변수를 모두 포함하여 가장 적은 영향을 주는 변수부터 하나씩 제거하는 방법이다.
3) 단계별 방법 : 전진선택법에 의해 변수를 추가하면서 추가될 때 예상되는 벌점 값고 이미 추가된 변수가 제거될때 예상되는 벌점 값이 가장 작도록 만들어 나가는 방법이다.
5. 고급 회귀분석
(1) 정규화 선형회귀
1)과적합과 과소적합 : 과적합 또는 과대적합이란 모델이 학습데이터를 과하게 학습하는 것을 의미한다. 잔재로 모델이 너무 단순해서 학습 데이터 조차 제대로 예측하지 못하는 경우를 과소적합이라고 한다.
2) 정규화 선형회귀 : 과적합되면 계수의 크기도 과도하게 증가하는 경향이 있다. 이를 방지하기 위해 계수의 크기를 제한하는 바업을 사용하는데 이것을 정규화 선형회귀라 부른다.
3) 정규화 선형회귀의 종류
- 라쏘 : L1규제라고도 하며, 가중치들의 절댓값의 합을 최소화하는 것을 제약 조건으로 추가하는 방법
- 릿지 : L2규제라고도 하며, 가중치들의 제곱합을 최소화하는 것을 제약조건으로 추가하는 방법
-엘라스틱넷 : 라쏘와 릿지를 결합한 모델, 가중치의 절댓값의 합과 제곱합을 동시에 제약조건으로 가지는 모형이다.
(2) 일반화 선형회귀
3)일반화 선형회귀의 종류
- 로지스틱회귀
- 포아송회귀
(3)더빈왓슨 검정
2)더빈왓슨 검정 : 자기상관성이 존재하는지 (오차항이 독립성을 만족하는지 = 오차항이 서로 연관성이 없는지)검정하는 방법이 바로 '더빈 왓슨 검정'이다.
'AI 관련 > ADsP, ADP' 카테고리의 다른 글
ADsP 3과목 요점 정리_3과목 2장 통계분석_05 시계열분석 (0) | 2022.03.21 |
---|---|
ADsP 3과목 요점 정리_3과목 2장 통계분석_04 다변량 분석 (0) | 2022.03.19 |
ADsP 3과목 요점 정리_3과목 2장 통계분석_02 기초통계 (0) | 2022.03.17 |
ADsP 3과목 요점 정리_3과목 2장 통계분석_01 통계의 이해_추정과 가설검정 (0) | 2022.03.14 |
ADsP 3과목 요점 정리_3과목 2장 통계분석_01 통계의 이해_확률과 확률분포 (0) | 2022.03.13 |
댓글