본문 바로가기
AI 관련/ADsP, ADP

ADSP 요약정리 - 3장 데이터 마트 - 데이터 가공

by 팀장일기 2021. 10. 3.

제 2절 데이터 가공 

 1. Data Exploration

    * summary : 데이터가 어떻게 분포돼 있는지 보여줌 

     - 디멘젼 변수 : 각 멤버의 갯수, 결측치 개수 ( NA's) 

     - 메져변수 : 최소값(Min), 1st Q(1사분위값) , 중앙값(Median), 평균값(Mean), 3rd Q(3사분위값), 최대값(Max),  결측치 개수(NA's) 

    * plot : 차트 

 

 2. 변수중요도 

   - 개발중인 모델에 준비된 데이터를 기준으로 한버에 여러개의 변수를 평가 

    * 변수 중요도 평가 :패키지로 평가, 모델링 실행해 평가

    * 모델링 실행 결과 (Decision Tree)로 의미 있는 것들에 대해 변수 중요도 파악이 일반적 

    * 휴면고객 분류 모델개발: 특성 유사한 것 끼리 그룹 만들어 실행 후 모아 최종 모델 개발

    * 개발 모형 개선 위해 파생 변수 추가 : 기존 최종변수에 파생변수 1개 추가해 돌려보고 의미 없으면 버리고 다른 변수 개발해 둘러보고 의미 있으면 선택해 어느 정도 개선되는지 ㅂ고 결정하는 식으로 반복 작업

   - klaR패키지 

    * greedy. wilks : 모델링 목적에 따른 변수 선택 방법. 모델링 정의하고 이에 따라 변수를 stepwise 하게 투입해 의미 있는 변수 순서대로 보여줌  --> 효율적으로 정확도롤 최소한 희생하면서 초기 모델링 빨리 실행 가능 

   - 일반적으로 구간화 개수가 증가하면 정확도는 높아지나 속도가 느려지고 추정오차(overestimation)발생 가능 

    * 기본적으로 40개 정도를 구간화하고 이를 대상 ( target)과 비교해 유사한 성능 보이는 인접구간을 병합하는 것이 적합 

댓글