제 2절 기초통계분석
1. 기술통계 (Descriptive Statistics)
- 자료를 요약하는 기초적 통계
- 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계산해봄으로써 데이터에 대한 대략적 이해와 분석에 대한통찰력을 얻기에 유리
- 데이터 마이닝에 앞서 데이터의 기술통계를 확인해보는 것이 좋음
* head : 데이터의 컬럼에 대한 전반적인 기초 통계량 보여줌
* summary : 데이터의 컬럼에 대한 전반적인 기초 통계량을 보여줌
* 데이터의 특정 컬럼 선택 : 데이터네임 $column 명
2. 인과관계의 이해
- 용어
* 종속변수(반응변수, y) : 다른변수의 영향을 받는 변수
* 독립변수 (설명변수, x) : 영향을 주는 변수
* 산점도 (scatter plot) : 좌표평면 위에 점들로 표현
- 두변수 사이의 선형관게 , 함수관계, 이상값 존재, 몇 개의 집다느로 구분 되는가 확인
- 공분산(covariance) : 두 확률변수 X, Y 의 방향의 조합 (선형성)
3. 상관분석 (Correlation Analysis)
- 데이터 안의 두 변수 간의 관계를 알아보기 위함.
- 두 변수의 상관관계를 알기위해 상관게수 (correlation coefficient) 이용
* 피어슨 상관계수 : 등간척도 이상으로 측정되는 두 변수의 상관관계 측정
* 스피어만 상관계수 : 서열척도인 두 변수의 상관관계 측정
* 1(-1)에 가까울수록 강한 양(음)의 상관관계를 나타내고 상관관계 없으면 r= 0
가. 피어슨의 표본상관계수
나. 스피어만 상관계수
4. 회귀분석
가. 단순회귀분석과 중회귀분석(다중회귀분석)의 개념
- 회귀분석 :하나나 그 이상의 독립변수들이 종속변숭 미치는 영향을 추정하는 통계기법
-찾은 선이 적절한지 확인
* 모형이 통계적으로 유의미 한가? F통계량 (p값) 확인
* 모형이 얼마나 설명력을 갖나? 결정계수 (R - square) 확인
* 모형이 데이터를 잘 적합하고 있나? 잔차 그래프 그리고 회귀진단.
* 데이터가 전제하는 가정을 만족시키나?
- 가정
선형성, 독립성( 잔차와 독립변인 값 독립), 등분산성( 오차 분산 일정) , 비상관성 ( 잔차끼리 상관x) ,
정상성 (잔차가 정규분포)
나. 회귀분석의 종류
다. 최적회귀방정식의 선택 : 설명변수의 선택
- 회귀모형 설정 변수 선택 원칙
* y에 영향 미칠 수 있는 모든 설명변수 x들을 y값 예측에 참여시킨다.
* 설명변수가 x가 많아지면 관리하는데 노력이 많이 요구되므로 가능한 범위 내에서 적은 수의 설명변수를 포함 시켜야 한다.
1) 선택방법
① 모든 가능한 조합의 회귀분석
- 가능한 모든 독립변수 조합에 대한 회귀모형 분석해 가장 적합한 회귀모형 선택
② 단계적 변수 선택
* 전진선택법 : 상수모형부터 시작해 중요하다고 생각되는 설명변수부터 차례로 추가
* 후진제거법 : 독립변수 후부 모두 포함한 모형에서 시작해 가장 적은 영향주는 변수부터 제거하면서 더 이상 제거 할 변수 없을 때 모형 선택
* 단계별방법 : 전진선택법에 의해 변수 추가하면서 새롭게 추가된 변수에 기인해 기존 변수가 그 중요도가 악화되면 그 변수 제거하는 등 단계별로 추가/ 제거되는 변수 여부 검토해 더 이상 없을 때 중단.
* step(lm( 종속변수~설명변수, 데이터세트), scope=list(lower=~1, upper=~설명변수), direction="변수선택방법") 함수로 변수 쉽게 선택 가능
* R에서 구체적 디렉터리 설정해 외부데이터세트 읽을 때 \를 2번 해줘야함 (C: \\~)
'AI 관련 > ADsP, ADP' 카테고리의 다른 글
ADSP 요약정리 - 3장 데이터 마트 - 데이터 변경 및 요약 (0) | 2021.10.02 |
---|---|
ADSP 요약정리 - 2장 통계분석 - 시계열 분석 (0) | 2021.10.02 |
ADSP 요약정리 - 2장 통계분석 - 통계분석의 이해 (0) | 2021.10.01 |
ADSP 요약정리 - 1장 데이터 분석 개요 -분석환경 이해와 기본 사용법 (0) | 2021.09.30 |
ADSP 요약정리 - 1장 데이터 분석 개요 - 데이터 분석 기법의 이해 (0) | 2021.09.29 |
댓글