ADSP 요약정리 - 3장 데이터 마트

제 3절 기초분석 및 데이터 관리

1. 데이터 EDA

- 데이터 분석 전에 대략적 특성을 파악하고 데이터에 대한 통찰을 얻기 위해 다각도로 접근

가. 데이터 기초통계

* head(iris) : 데이터 앞 6줄 보여줌

- head(iris,10) : 숫자 넣어주면 원하는 개수만큼 볼 수 있음.

* str(iris) :데이터 구조 파악

* summary : 데이터 기초 통계량

* cor(x,y) : 상관계수

* cov(x,y) : 공분산

2. 결측값 처리

- 결측값 처리 시간 많이 쓰는 것은 비효율적

* 가능하면 결측값은 제외하고 처리하는 것이 적합 (결측값 자체가 의미 있는 경우 있음)

- 결측값 어떻게 처리하냐는 전체 작업 속도에 많은 영향

* 이 부분을 자동화하면 업무 효율성 매우 향상됨

- R 결측값 처리 관련 패키지 : Amelia 2, Mice , mistools 등

* 결측값 : NA(not available), 불가능한 값 : NaN(not a number)

* NA로 결측값 입력, is.na로 결측값 여부 확인

- 평균 산출 등 데이터 처리에서 결측값으로 인한 문제 해결 : 해당값 제외

* complete.cases() : 결측값 포함 레코드 삭제

* imputation : 많은 자료 삭제 방지차원에서 해당 변수의 대표값으로 대체

■이상값(outlier) 검색

- 분석에서 전처리를 어떻게 할지 결정할 때와 부정사용방지 시스템(Fraud Detection)에서 규칙을 발견하는데 사용

* 의도치 않게 잘못 입력한 경우 (bad data)

* 의도치 않게 입력됐으나 분석 목적에 부합되지 앟아 제거해야 하는 경우 (bad data)

* 의도치 않은 현상이나 분석에 포함해야 하는 경우 (이상값)

* 의도된 이상값 : Fraud (이상값)

- 관련 알고리즘 : ESD(extreme studentized deviation), MADM 등

- 이상값 찾는데 너무 많은 시간을 쓰는 것 비추

* 변수들에 대해 summary 정도록 mean과 median 값 파악해 Q1, Q3 보고 1차 판단 (분포)

* 좀 더 시간 되면 주요 dimension 별로 플롯 해보며 특성 파악 가능

- 부정사용 방지 프로젝트 ( Fraud Detection project)는 여기 많은 시간 할당

- 일정 기간을 할애해 분석 기준 수립해 해당 기준에 의해 안 드러나는 것은 무시하고 진행

* 그렇지 않으면 분석 데이터와 결과 자체가 엉망이 돼 관리 불가

저작자표시 비영리 변경금지

'AI 관련 > ADsP, ADP' 카테고리의 다른 글

ADSP 요약정리 - 4장 정형데이터 마이닝 - 분류분석(Classification Analysis) (0)	2021.10.05
ADSP 요약정리 - 4장 정형데이터 마이닝 - 데이터 마이닝의 개요 (0)	2021.10.04
ADSP 요약정리 - 3장 데이터 마트 - 데이터 가공 (0)	2021.10.03
ADSP 요약정리 - 3장 데이터 마트 - 데이터 변경 및 요약 (0)	2021.10.02
ADSP 요약정리 - 2장 통계분석 - 시계열 분석 (0)	2021.10.02

업무스킬 이야기

ADSP 요약정리 - 3장 데이터 마트 - 데이터 가공

제 3절 기초분석 및 데이터 관리

1. 데이터 EDA

가. 데이터 기초통계

2. 결측값 처리

■이상값(outlier) 검색

'AI 관련 > ADsP, ADP' 카테고리의 다른 글

댓글

티스토리툴바

ADSP 요약정리 - 3장 데이터 마트 - 데이터 가공

제 3절 기초분석 및 데이터 관리

1. 데이터 EDA

가. 데이터 기초통계

2. 결측값 처리

■이상값(outlier) 검색

'AI 관련 > ADsP, ADP' 카테고리의 다른 글

관련글

댓글

티스토리툴바