본문 바로가기
AI 관련/ADsP, ADP

ADSP 요약정리 - 2장 통계분석 - 기초통계분석

by 팀장일기 2021. 10. 1.

제 2절 기초통계분석

 1. 기술통계 (Descriptive Statistics) 

   - 자료를 요약하는 기초적 통계 

   - 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계산해봄으로써 데이터에 대한 대략적 이해와 분석에 대한통찰력을 얻기에 유리

   - 데이터 마이닝에 앞서 데이터의 기술통계를 확인해보는 것이 좋음

    * head : 데이터의 컬럼에 대한 전반적인 기초 통계량 보여줌 

    * summary : 데이터의 컬럼에 대한 전반적인 기초 통계량을 보여줌 

    * 데이터의 특정 컬럼 선택 : 데이터네임 $column 명 

 

 2. 인과관계의 이해 

   - 용어

    * 종속변수(반응변수, y) : 다른변수의 영향을 받는 변수 

    * 독립변수 (설명변수, x) : 영향을 주는 변수 

    * 산점도 (scatter plot) : 좌표평면 위에 점들로 표현 

     - 두변수 사이의 선형관게 , 함수관계, 이상값 존재, 몇 개의 집다느로 구분 되는가 확인 

   - 공분산(covariance) : 두 확률변수 X, Y 의 방향의 조합 (선형성) 

   

공분산

 

 3. 상관분석 (Correlation Analysis) 

   - 데이터 안의 두 변수 간의 관계를 알아보기 위함. 

   - 두 변수의 상관관계를 알기위해 상관게수 (correlation coefficient) 이용

    * 피어슨 상관계수 : 등간척도 이상으로 측정되는 두 변수의 상관관계 측정 

    * 스피어만 상관계수 : 서열척도인 두 변수의 상관관계  측정

    * 1(-1)에 가까울수록 강한 양(음)의 상관관계를 나타내고 상관관계 없으면 r= 0 

 

  가. 피어슨의 표본상관계수 

피어슨의 표본상관계수

   나. 스피어만 상관계수 

스피어만 상관계수

  4. 회귀분석 

  가. 단순회귀분석과 중회귀분석(다중회귀분석)의 개념

   - 회귀분석 :하나나 그 이상의 독립변수들이 종속변숭 미치는 영향을 추정하는 통계기법

단순회귀분석, 다중회귀분석 개념

   -찾은 선이 적절한지 확인 

    * 모형이 통계적으로 유의미 한가? F통계량 (p값) 확인

    * 모형이 얼마나 설명력을 갖나? 결정계수 (R - square) 확인 

    * 모형이 데이터를 잘 적합하고 있나? 잔차 그래프 그리고 회귀진단. 

    * 데이터가 전제하는 가정을 만족시키나? 

     - 가정 

       선형성, 독립성( 잔차와 독립변인 값 독립), 등분산성( 오차 분산 일정) , 비상관성 ( 잔차끼리 상관x) ,

       정상성 (잔차가 정규분포) 

 

  나. 회귀분석의 종류

 

  다. 최적회귀방정식의 선택 : 설명변수의 선택 

   - 회귀모형 설정 변수 선택 원칙

    * y에 영향 미칠 수 있는 모든 설명변수 x들을 y값 예측에 참여시킨다. 

     * 설명변수가 x가 많아지면 관리하는데 노력이 많이 요구되므로 가능한 범위 내에서 적은 수의 설명변수를 포함 시켜야 한다. 

 

   1) 선택방법 

    ① 모든 가능한 조합의 회귀분석

   - 가능한 모든 독립변수 조합에 대한 회귀모형 분석해 가장 적합한 회귀모형 선택 

    ② 단계적 변수 선택 

    * 전진선택법 : 상수모형부터 시작해 중요하다고 생각되는 설명변수부터 차례로 추가 

    * 후진제거법 : 독립변수 후부 모두 포함한 모형에서 시작해 가장 적은 영향주는 변수부터 제거하면서 더 이상 제거 할 변수 없을 때 모형 선택 

    *  단계별방법 : 전진선택법에 의해 변수 추가하면서 새롭게 추가된 변수에 기인해 기존 변수가 그 중요도가 악화되면 그 변수 제거하는 등 단계별로 추가/ 제거되는 변수 여부 검토해 더 이상 없을 때 중단. 

    * step(lm( 종속변수~설명변수, 데이터세트), scope=list(lower=~1, upper=~설명변수), direction="변수선택방법") 함수로 변수 쉽게 선택 가능 

    * R에서 구체적 디렉터리 설정해 외부데이터세트 읽을 때 \를 2번 해줘야함 (C: \\~)

 

댓글