ADSP 요약정리 - 4장 정형데이터 마이닝 - 분류분석(Classification Analysis)

제 2절 분류분석 (Classification Analysis)

1. 분류모델링

- 분류분석 : 데이터의 실체가 어떤 그룹에 속하는지 예측하는데 사용하는 데이터 마이닝 기법

* 특정 등급으로 나누는 점에서 군집분석과 유사하나 각 계급이 어떻게 정의 되는지 미리 알아야 함.

- 분류(Classification) : 객ㅊ를 정해놓은 범주로 분류하는데 목적

* CRM에서는 고객행동예측, 속성파악에 응용. 다양한 분야에서 활용 가능

- 많은 경우 분류모델 개발할 때는 train data/ test data 구분지어 모델링

* 전체 데이터를 7:3, 8:2 등으로 나눠 train 해서 최적모델 확정짓고 test로 검증

* train과 test간 편차 없어야 하며 성능은 test가 다소 낮게 나오는 경향

- 분류를 위해 사용되는 데이터 마이닝 기법

* 최근접이웃 (nearest neighborhood), 의사결저아무(decision tree), 베이지안 정리를 이용한 분류, 인공신경망(artifical neural network), 지지도 벡터기계 (support vector machine), CARET(classification and regression tree)등

- 상황판단, 속하는 분류 집단 특성, 예측에도 사용

가. 의사결정나무

- 분류함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법

* 나무의 구조에 기반한 예측모델을 갖는 데이터를 분류하기 위한 질문, 잎은 분류 결과에 따라 분리된 데이터 의미

* 연속적으로 발생하는 의사결정문제를 시각화해 의사결정이 이뤄지는 시점과 성과를 한눈에 볼 수 있게 하며 계산 결과가 의사결정나무에 직접 나타나 분석 간편

나. 의사결정나무의 활용

- 세분화(segmentation) : 데이터를 비슷한 특성을 가는 몇 개 그룹으로 분할해 그룹별 특성 발견, 각 고객이 어떤 집단에 속하는지 파악

- 분류(classification, stratification) : 관측개체를 여러 예측변수들에 근거해 목표변수의 범주를 몇 개 등급으로 분류하고자 하는 경우

- 예측 : 자료에서 규칙 찾고 이를 이용해 미래 사건 예측

- 차원축소 및 변수선택 : 매우 많은 예측변수 중 목표변수에 큰 영향 미치는 벼수 골라냄

- 교호작용효과의 파악 (interaction effect identification) :여러 예측변수들을 결합해 목표 변수에 작용하는 규칙 파악

- 범주의 병합 또는 연속형 변수의 이산화 : 범주형 목표번수의 범주를 소수 몇개로 병합하거나 연속형 목표변수를 몇 개 등급으로 이산화

다. 의사결정나무의 특성

- 의사결정나무 모형 결과는 누구에게나 설명이 용이

- 의사결정나무 알고리즘 모형 정확도는 다른 분류모형에 뒤지지 않음

- 만드는 방법은 계산적으로 복잡하지 않아 대용량 데이터에서도 빠르게 만들 수 있고 한번 모델링하면 소속집단을 모르는 데이터 분류 작업도 빠르게 할 수 있음.

- 의사결정나무 알고리즘은 비정상적인 잡은 데이터에 대해서도 민감함 없이 분류 가능

- 한변수와 매우 상관성 높은 다른 불필요한 변수가 있어도 의사결정나무는 크게 영향 안받음. 그러나 불필요변수 많아지면 나무크기가 커질 수 있으니 분류 전 불필요 변수 제거 작업 필요

- R에서 지원되는 분류 방법

* rpart, rpartOrdinal, randomForest, party, Tree, marginTree, MapTree 등 다양

2. 성과분석과 스코어링

가. party 패키지를 이용한 의사결정나무

-party 패키지 핵심 : 의사결정나무(사용편한 다양한 부류 패키지 중 하나)

* (문제) 분실값(missin value) 잘 처리 못함. tree에 투입된 데이터 표시 안되거나 predict실패, 명목변수의 테스트 데이터 train과 다르게 처리 등

나. rpart를 이용한 의사결정나무

- rpart는 Recursive Partitioning and Regressin Tree로 CART와 유사한 트리

* 예측오차 최소화 가능

다. 랜덤 포레스트

- random input에 따른 forest of tree를 이용한 분류방법, 랜덤한 forest에는 만은 tree생성

- 새로운 오브젝트를 분류하기 위해 forest에 있는 트리에 각각 투입해 각각이 트리들이 voting 함으로써 분류하는 방식

* 대용량 데이터에서 효율적으로 실행. 수천개의 변수를 통해 변수제거 없이 실행돼 정확도 측면에서 좋은 성과, 특히 unbalnced 된 클래스의 모집단 잘 지원

* (제약) 각 category variable의 value 종류가 32개 넘을 수 없음.

* (대안) party 패키지의 randomforest 사용

라. ROCR 패키지로 성과분석

- 성과분석 (performance analysis) : ROC analysis, Lift analysis 둥

* ROCR 패키지는 binary classification만 지원

마. CARET(classification and regression tree)

- 분류 관련 알고리즘 수 십 가지가 각각 형식이 달라 혼란스러움

- 전체적으로 동일한 형식 사용할 수 있게 한 CARET패키지가 나음.

저작자표시 비영리 변경금지 (새창열림)

'AI 관련 > ADsP, ADP' 카테고리의 다른 글

ADSP 요약정리 - 4장 정형데이터 마이닝 - 군집분석 (Clustering Analysis) (0)	2021.10.06
ADSP 요약정리 - 4장 정형데이터 마이닝 - 예측분석 (Prediction Analysis) (0)	2021.10.05
ADSP 요약정리 - 4장 정형데이터 마이닝 - 데이터 마이닝의 개요 (0)	2021.10.04
ADSP 요약정리 - 3장 데이터 마트 - 데이터 가공 (0)	2021.10.03
ADSP 요약정리 - 3장 데이터 마트 - 데이터 가공 (0)	2021.10.03

업무스킬 이야기

ADSP 요약정리 - 4장 정형데이터 마이닝 - 분류분석(Classification Analysis)

제 2절 분류분석 (Classification Analysis)

1. 분류모델링

가. 의사결정나무

나. 의사결정나무의 활용

다. 의사결정나무의 특성

2. 성과분석과 스코어링

가. party 패키지를 이용한 의사결정나무

나. rpart를 이용한 의사결정나무

다. 랜덤 포레스트

라. ROCR 패키지로 성과분석

마. CARET(classification and regression tree)

'AI 관련 > ADsP, ADP' 카테고리의 다른 글

댓글

티스토리툴바

ADSP 요약정리 - 4장 정형데이터 마이닝 - 분류분석(Classification Analysis)

제 2절 분류분석 (Classification Analysis)

1. 분류모델링

가. 의사결정나무

나. 의사결정나무의 활용

다. 의사결정나무의 특성

2. 성과분석과 스코어링

가. party 패키지를 이용한 의사결정나무

나. rpart를 이용한 의사결정나무

다. 랜덤 포레스트

라. ROCR 패키지로 성과분석

마. CARET(classification and regression tree)

'AI 관련 > ADsP, ADP' 카테고리의 다른 글

관련글

댓글

티스토리툴바