본문 바로가기
AI 관련/ADsP, ADP

ADSP 요약정리 - 3장 데이터 마트 - 데이터 가공

by 팀장일기 2021. 10. 3.

제 3절 기초분석 및 데이터 관리 

 1. 데이터 EDA 

   - 데이터 분석 전에 대략적 특성을 파악하고 데이터에 대한 통찰을 얻기 위해 다각도로 접근 

 

  가. 데이터 기초통계 

    * head(iris) : 데이터 앞 6줄 보여줌

     - head(iris,10) : 숫자 넣어주면 원하는 개수만큼 볼 수 있음.

    * str(iris) :데이터 구조 파악 

    * summary : 데이터 기초 통계량 

    * cor(x,y) : 상관계수 

    * cov(x,y) : 공분산 

  

 2. 결측값 처리 

   - 결측값 처리 시간 많이 쓰는 것은 비효율적 

    * 가능하면 결측값은 제외하고 처리하는 것이 적합 (결측값 자체가 의미 있는 경우 있음) 

   - 결측값 어떻게 처리하냐는 전체 작업 속도에 많은 영향

    * 이 부분을 자동화하면 업무 효율성 매우 향상됨 

   - R 결측값 처리 관련 패키지 : Amelia 2, Mice , mistools 등

    * 결측값 : NA(not available), 불가능한 값 : NaN(not a number) 

    * NA로 결측값 입력, is.na로 결측값 여부 확인 

   - 평균 산출 등 데이터 처리에서 결측값으로 인한 문제 해결 : 해당값 제외 

    * complete.cases() : 결측값 포함 레코드 삭제 

    * imputation : 많은 자료 삭제 방지차원에서 해당 변수의 대표값으로 대체 

 

  ■이상값(outlier) 검색 

   - 분석에서 전처리를 어떻게 할지 결정할 때와 부정사용방지 시스템(Fraud Detection)에서 규칙을 발견하는데 사용 

    * 의도치 않게 잘못 입력한 경우 (bad data) 

    * 의도치 않게 입력됐으나 분석 목적에 부합되지 앟아 제거해야 하는 경우 (bad data) 

    * 의도치 않은 현상이나 분석에 포함해야 하는 경우 (이상값)

    * 의도된 이상값 : Fraud (이상값) 

   - 관련 알고리즘 : ESD(extreme studentized deviation), MADM 등 

   - 이상값 찾는데 너무 많은 시간을 쓰는 것 비추 

    * 변수들에 대해 summary 정도록 mean과 median 값 파악해 Q1, Q3 보고 1차 판단 (분포) 

    * 좀 더 시간 되면 주요 dimension 별로 플롯 해보며 특성 파악 가능 

     - 부정사용 방지 프로젝트 ( Fraud Detection project)는 여기 많은 시간 할당 

   - 일정 기간을 할애해 분석 기준 수립해 해당 기준에 의해 안 드러나는 것은 무시하고 진행 

    * 그렇지 않으면 분석 데이터와 결과 자체가 엉망이 돼 관리 불가 

 

 

댓글