제 3절 기초분석 및 데이터 관리
1. 데이터 EDA
- 데이터 분석 전에 대략적 특성을 파악하고 데이터에 대한 통찰을 얻기 위해 다각도로 접근
가. 데이터 기초통계
* head(iris) : 데이터 앞 6줄 보여줌
- head(iris,10) : 숫자 넣어주면 원하는 개수만큼 볼 수 있음.
* str(iris) :데이터 구조 파악
* summary : 데이터 기초 통계량
* cor(x,y) : 상관계수
* cov(x,y) : 공분산
2. 결측값 처리
- 결측값 처리 시간 많이 쓰는 것은 비효율적
* 가능하면 결측값은 제외하고 처리하는 것이 적합 (결측값 자체가 의미 있는 경우 있음)
- 결측값 어떻게 처리하냐는 전체 작업 속도에 많은 영향
* 이 부분을 자동화하면 업무 효율성 매우 향상됨
- R 결측값 처리 관련 패키지 : Amelia 2, Mice , mistools 등
* 결측값 : NA(not available), 불가능한 값 : NaN(not a number)
* NA로 결측값 입력, is.na로 결측값 여부 확인
- 평균 산출 등 데이터 처리에서 결측값으로 인한 문제 해결 : 해당값 제외
* complete.cases() : 결측값 포함 레코드 삭제
* imputation : 많은 자료 삭제 방지차원에서 해당 변수의 대표값으로 대체
■이상값(outlier) 검색
- 분석에서 전처리를 어떻게 할지 결정할 때와 부정사용방지 시스템(Fraud Detection)에서 규칙을 발견하는데 사용
* 의도치 않게 잘못 입력한 경우 (bad data)
* 의도치 않게 입력됐으나 분석 목적에 부합되지 앟아 제거해야 하는 경우 (bad data)
* 의도치 않은 현상이나 분석에 포함해야 하는 경우 (이상값)
* 의도된 이상값 : Fraud (이상값)
- 관련 알고리즘 : ESD(extreme studentized deviation), MADM 등
- 이상값 찾는데 너무 많은 시간을 쓰는 것 비추
* 변수들에 대해 summary 정도록 mean과 median 값 파악해 Q1, Q3 보고 1차 판단 (분포)
* 좀 더 시간 되면 주요 dimension 별로 플롯 해보며 특성 파악 가능
- 부정사용 방지 프로젝트 ( Fraud Detection project)는 여기 많은 시간 할당
- 일정 기간을 할애해 분석 기준 수립해 해당 기준에 의해 안 드러나는 것은 무시하고 진행
* 그렇지 않으면 분석 데이터와 결과 자체가 엉망이 돼 관리 불가
'AI 관련 > ADsP, ADP' 카테고리의 다른 글
ADSP 요약정리 - 4장 정형데이터 마이닝 - 분류분석(Classification Analysis) (0) | 2021.10.05 |
---|---|
ADSP 요약정리 - 4장 정형데이터 마이닝 - 데이터 마이닝의 개요 (0) | 2021.10.04 |
ADSP 요약정리 - 3장 데이터 마트 - 데이터 가공 (0) | 2021.10.03 |
ADSP 요약정리 - 3장 데이터 마트 - 데이터 변경 및 요약 (0) | 2021.10.02 |
ADSP 요약정리 - 2장 통계분석 - 시계열 분석 (0) | 2021.10.02 |
댓글