본문 바로가기
AI 관련/ADsP, ADP

ADsP 3과목 요점 정리_3과목 3장 정형데이터 마이닝_02 분류분석

by 팀장일기 2022. 3. 25.

ADsP 3과목 요점 정리_3과목 3장 정형 데이터 마이닝_02 분류 분석

분류분석-의사결정나무-로지스틱 회귀분석

 02 분류 분석

1. 로지스틱 회귀분석

(1) 로지스틱 회귀분석 개요

1) 로지스틱 회귀분석 : 회귀분석을 분류에 이용한 방법으로, 독립변수의 선형 결합을 이용해 사건의 발생 가능성을 예측하는 분석방법으로 종속변수가 범주형 변수일 때 사용 가능하다. 

2) 로지스틱스 회귀분석의 변수 : 책 참고 

 

(2) 로지스틱 회귀분석의 알고리즘 

1) 오즈 : 오즈란 성공할 확률이 실패할 확률의 몇 배인지를 나타내는 값이다. 

2) 로짓 : 오즈에 로그 값을 취한 것이 로짓이다. 

3) 시그모이드 함수 : 로직 스틱 회귀 부석과 인공 신경망 분석에서 사용된다. 시그모이드 함수는 로짓 함수와 역함수 관계이기 때문에 로짓 함수를 통해 시그모이드 함수가 도출된다. 

 

2. 의사결정 나무

(1)의사결정 나무 개요

1) 의사결정나무 : 자료를 학습하여 특정 분리 규칙을 찾아내고, 그에 따라 몇 개의 소집단으로 분류하는 방법이다. 

2) 의사결정나무 구성요소 

- 뿌리 마디

- 자식 마디

- 부모 마디

- 끝마디

- 중간 마디

- 가지

- 깊이

3) 의사결정 나무의 활용 

- 세분화

- 분류

- 예측

- 차원 축소 및 변수 선택

- 교호 작용

4) 의사결정 나무의 특징 : 책 참고 

(2) 의사결정 나무의 분석과정 

1) 성장

2) 가지치기

3) 타당성 평가

4) 해석 및 예측 

 

3. 앙상블 분석

(1) 앙상블 분석의 개요

: 데이터 마이닝에서는 여러 개의 모형을 생성 및 조합하여 예측력이 높은 모형을 만드는 것을 의미한다. 

 

(2) 앙상블 분석의 종류

1) 배경: Bootstrap Aggregating의 줄임말로 여러 개의 붓스트랩을 집 게하는 알고리즘이다. 

2) 부스팅 : 부스팅은 이전 모델을 구축한 뒤 다음 모델을 구축할 때 이전 분류기에 의해 잘못 분류된 데이터에 더 큰 가중치를 주어 붓스트랩을 구성한다. 따라서 약한 모델들을 결합하여 나감으로써 점차적으로 강한 분류기를 만들어 나가는 과정이다. 

3) 랜덤 포레스트 : 서로 상관성이 없는  나무들로 이루어진 숲을 의미한다. 

 

4. 인공신경망 분석 

(1) 인공신경망 개요 

: 인공신경망은 인간의 뇌를 모방하여 만들어진 학습 및 추론 모형이다. 

 

(2) 인공신경망의 알고리즘 

1) 활성 함수: 인공신경망은 노드에 입력되는 값을 바로 다음 노드로 전달하지 않고 비선형 함수에 통과시킨 후 전달한다. 이때 사용되는 비선형 함수를 활성 함수라고 한다. 

2) 인공신경망의 계층 구조: 책 참고

3) 인공신경망 학습 : 책 참고 

 

(3) 인공신경망의 종류

1) 단층 퍼셉트론 (단층 신경망)

2) 다층 퍼셉트론 (다층 신경망)

 

5. 나이브 베이즈 분류

(1) 베이즈 이론

1)베이즈 이론 (베이지안 확률) : 확률을 해석하는 이론이다. 빈도 확률은 객관적으로 확률을 해석하고 베이지안 확률은 주관적으로 확률을 해석한다.

- 빈도확률 : 사건이 발생한 횟수의 장기적인 비율을 의미 

- 베이지안 확률 : 사전 확률과 우도 확률을 통해 사후 확률을 추정하는 정리 

 

(2) 나이브 베이즈 분류 

1) 나이브 베이즈 개념 : 책 참고 

2) 나이브 베이즈 알고리즘 : 책 참고 

 

6.k-NN 알고리즘 : 책 참고 

 

7. 서포트 벡터 머신 : 책 참고 

 

8. 분류 모형 성과평가 : 책 참고 ☆☆☆

 

댓글