본문 바로가기
AI 관련/ADsP, ADP

ADsP 3과목 요점 정리_3과목 2장 통계분석_03 회귀분석

by 팀장일기 2022. 3. 19.

ADsP 3과목 요점 정리_3과목 2장 통계분석_03 회귀분석

해돋이 - 회귀분석

 03 회귀분석

1. 회귀분석 개요

(1) 회귀분석의 개념

1) 회귀분석 : 회귀분석이랑 하나 이상의 독립변수들이 종속변수에 얼마나 영향을 미치는지 추정하는 통계 기법이다. 

2) 회귀분석의 종류 : 단순회귀, 다중회귀, 다항회귀, 비선형회귀

 

(2)회귀분석의 가정 

  • 선형성
    • 독립변수와 종속변수가 선형적이여야 한다. 
    • 예외적으로 2차 함수 회귀선을 갖는 다항회귀붖ㄴ석의 경우에는 선형성을 갖지 않아도 된다. 
    • 산점도를 통해 분석하기 전에 변수 사이의 관계를 짐작할 수 있어 회귀분석하기전 상관분석은 거의 필수적으로 함께 따라온다.
  • 독립성
    • 단순회귀분석에서는 잔차와 독립변수의 값이 서로 독립이어야 한다. 
    • 독립변수가 여러개인 다중회귀 분석의 경우에는 독립변수들 간에 상관성이 없이 독립이어야 한다.
    • 만약 독립변수들 간에 상관성이 존재하는 경우, 이를 다중공선성이라하며 , 이를 제거하고 회귀분석을 수행해야 한다. 
  • 등분산성
    • 등분산성이란, 분산이 같다는 의미이며 다른 말로 잔차들이 고르게 분포하고 있다는 의미이다. 
    • 잔차의 중심에서 분산이 같아야 한다는 의미다. 등분산성을 만족하지 못하면 회귀선은 어떤 추세를 띠지 못하고 덩어리 (뭉친) 모양을 하게 된다.
  • 정규성
    • 잔차항이 정규분포 형태를 띠는 것을 정규성을 만족한다고 한다.
    • Q-Q Plot에서 잔차가 오른쪽으로 상승하는 형태를 띠면 정규성을 만족한다고 판단한다. 

2. 단순회귀분석

(1)회귀계수의 추정

1) 단순선형 회귀분석 : 독립변수와 종속변수가 1개 씩일때 둘 사이의 인과관계를 분석하는 것으로, 두 변수의 관계가 선형이다. 

2) 최소제곱법으로 회귀계수 추정 : 최소제곱법을 통해 파라미터를 추정하고 추정된 파라미터를 통해 추세선을 그려 값을 예측하는 것이 회귀분석의 기본 알고리즘이다. 

 

(2) 회귀분석모형의 적합성

1) 회귀분석의 분산 분석표 : 회귀분석의 결과에 대한 모형 적합성을 검정하기 위해서는 분산분석표를 사용해야한다. 독립변수가 1개라면 단순회귀분석, 2개 이상이라면 다중회귀분석을 시행한다. 

2) 회귀모형의 통계적 유의성 검증 : 회귀모형의 통계적 유의성은 F-검정을 통해 확인한다. 

3)회귀계수의 유의성 검증 : 회귀계수의 유의성은 t-검정을 통해 확인할 수 있다. 

4) 모형의 설명력 : 설명력이 좋다는 의미는 데이터들의 분포가 회귀선에 밀접하게 분포하고 있다는 의미이다. 

3. 다중선형 회귀분석

(1) 다중선형회귀분석

: 독립변수가 2개 이상이고 종속변수가 하나일 때 사용가능한 회귀분석

 

(2) 다중공선성

1)다중공선성의 개념 : 회귀분석에서 독립변수 간에 강한 상관관계가 나타나는 문제 

2) 다중공선성의 진단 : 결정계수 R^2값이 커서 회귀식의 설명력은 높지만 각 독립변수의 P-value값이 커서 개별 인자가 유의하지 않은 경우 다중 공선성을 의심할 수 있다. 

 

4, 최적회귀방정식

(1) 최적 회귀방정식

1) 최적회귀방정식의 개념 : 종속변수에 유의미한 영향을 미칠것으로 생각되는 독립변수를 선택하는 과정. 

2)최적의 회귀방정식을 도출하기 위한 방법

 : 부분집합법과 단계적 변수 선택법으로 나눌수 있다. 

- 부분 집합법 : 모든 가능한 모델을 고려하여 가장 좋은 모델을 선정하는 방법

- 단계적 변수선택법 ; 말 그대로 일정한 단계를 거치면서 변수를 추가하거나 혹은 제거하는 방식으로 최적의 회귀방정식을 도출하는 방식 (전진선택법, 후진제거법, 단계선택법)

 

(2)변수 선택에 사용되는 성능지표 

1)벌점화 방식의 AIC와 BIC : 변수의 수가 많아 복잡해진 모형이 벌점, 즉 일종의 패널티를 주어 최적 회귀방정식을 도출 (회귀모형의 설명력을 높이고자)하는 방법

2)AIC : 모델의 성능지표로서 MSE에 변수 수만큼 패널티를 주는 지표

3)BIC : AIC의 단점인 표본이 커질때 부정확하다는 단점을 보완한 지표가 BIC이다. 

4)멜로우Cp : 멜로우가 제안한 통계량으로 Cp값은 최소자승법으로 사용하여 추정된 회귀모형의 적합성을 평가하는데 사용된다. 

 

(3) 단계적 변수 선택법 

1) 전진선택법 : 모든 독립변수 가운데 기준통계치에 가장 많은 영향을 줄 것으로 판단되는 변수부터 하나싹 추가하면서 모형을 선택한다. 

2) 후진제거법 : 독립변수를 모두 포함하여 가장 적은 영향을 주는 변수부터 하나씩 제거하는 방법이다. 

3) 단계별 방법 : 전진선택법에 의해 변수를 추가하면서 추가될 때 예상되는 벌점 값고 이미 추가된 변수가 제거될때 예상되는 벌점 값이 가장 작도록 만들어 나가는 방법이다. 

 

5. 고급 회귀분석 

(1) 정규화 선형회귀

1)과적합과 과소적합 : 과적합 또는 과대적합이란 모델이 학습데이터를 과하게 학습하는 것을 의미한다. 잔재로 모델이 너무 단순해서 학습 데이터 조차 제대로 예측하지 못하는 경우를 과소적합이라고 한다. 

2) 정규화 선형회귀 : 과적합되면 계수의 크기도 과도하게 증가하는 경향이 있다.  이를 방지하기 위해 계수의 크기를 제한하는 바업을 사용하는데 이것을 정규화 선형회귀라 부른다. 

3) 정규화 선형회귀의 종류

- 라쏘 : L1규제라고도 하며, 가중치들의 절댓값의 합을 최소화하는 것을 제약 조건으로 추가하는 방법

- 릿지 : L2규제라고도 하며, 가중치들의 제곱합을 최소화하는 것을 제약조건으로 추가하는 방법

-엘라스틱넷 : 라쏘와 릿지를 결합한 모델, 가중치의 절댓값의 합과 제곱합을 동시에 제약조건으로 가지는 모형이다. 

 

(2) 일반화 선형회귀

3)일반화 선형회귀의 종류

- 로지스틱회귀 

- 포아송회귀

 

(3)더빈왓슨 검정 

2)더빈왓슨 검정 : 자기상관성이 존재하는지 (오차항이 독립성을 만족하는지 = 오차항이 서로 연관성이 없는지)검정하는 방법이 바로 '더빈 왓슨 검정'이다.

 

 

 

 

 

댓글