ADSP 요약정리 - 3장 데이터 마트

* summary : 데이터가 어떻게 분포돼 있는지 보여줌

- 디멘젼 변수 : 각 멤버의 갯수, 결측치 개수 ( NA's)

- 메져변수 : 최소값(Min), 1st Q(1사분위값) , 중앙값(Median), 평균값(Mean), 3rd Q(3사분위값), 최대값(Max), 결측치 개수(NA's)

* plot : 차트

- 개발중인 모델에 준비된 데이터를 기준으로 한버에 여러개의 변수를 평가

* 변수 중요도 평가 :패키지로 평가, 모델링 실행해 평가

* 모델링 실행 결과 (Decision Tree)로 의미 있는 것들에 대해 변수 중요도 파악이 일반적

* 휴면고객 분류 모델개발: 특성 유사한 것 끼리 그룹 만들어 실행 후 모아 최종 모델 개발

* 개발 모형 개선 위해 파생 변수 추가 : 기존 최종변수에 파생변수 1개 추가해 돌려보고 의미 없으면 버리고 다른 변수 개발해 둘러보고 의미 있으면 선택해 어느 정도 개선되는지 ㅂ고 결정하는 식으로 반복 작업

- klaR패키지

* greedy. wilks : 모델링 목적에 따른 변수 선택 방법. 모델링 정의하고 이에 따라 변수를 stepwise 하게 투입해 의미 있는 변수 순서대로 보여줌 --> 효율적으로 정확도롤 최소한 희생하면서 초기 모델링 빨리 실행 가능

- 일반적으로 구간화 개수가 증가하면 정확도는 높아지나 속도가 느려지고 추정오차(overestimation)발생 가능

* 기본적으로 40개 정도를 구간화하고 이를 대상 ( target)과 비교해 유사한 성능 보이는 인접구간을 병합하는 것이 적합

ADSP 요약정리 - 4장 정형데이터 마이닝 - 데이터 마이닝의 개요 (0)	2021.10.04
ADSP 요약정리 - 3장 데이터 마트 - 데이터 가공 (0)	2021.10.03
ADSP 요약정리 - 3장 데이터 마트 - 데이터 변경 및 요약 (0)	2021.10.02
ADSP 요약정리 - 2장 통계분석 - 시계열 분석 (0)	2021.10.02
ADSP 요약정리 - 2장 통계분석 - 기초통계분석 (0)	2021.10.01

업무스킬 이야기