본문 바로가기
AI 관련/ADsP, ADP

ADsP 3과목 요점 정리_3과목 3장 정형데이터 마이닝_03 군집분석

by 팀장일기 2022. 3. 28.

ADsP 3과목 요점 정리_3과목 3장 정형 데이터 마이닝_03 군집분석

 

거리- 군집분석

 03군집분석

1. 군집분석

(1) 군집분석 개요

: 여러 변수로 표현된 자료들 사이의 유사성을 측정하고 유사한 자료들끼리 몇 개의 군집으로 묶고 다변량 분석(상관분석, 회귀분석, 주성분 분석 등)을 활용하여 각 군집에 대한 특징을 파악하는 기법

 

(2) 거리 측도 

1) 변수가 연속형인 경우 

- 유클리디안 거리 : 두 점 사이의 거리를 계산할 때 가장 널리 쓰이는 계산 방법으로 두 점 사이의 가장 짧은 거리를 계산한다. 

- 맨해튼 거리 : 두 점 사이를 가로지르지 않고 길을 따라갔을 때의 거리

- 체비 셰프 거리 : 변수 간 거리 차이 중 최댓값을 데이터 간의 거리로 정의한다. 

- 마할라노비스 거리 : 표준화 거리가 고려하지 못한 변수 간 상관성까지 고려한 거리다.

- 민코프스키 거리 : 유클리디안 거리와 맨 하트 거리를 한 번에 표현한 거리로, m=1일 때는 맨하튼 거리이며 m=2 일때는 유클리디안 거리가 된다.

2. 계층적 군집분석

(1) 계층적 군집분석 개요 

: 개별 관측치 간의 거리를 계산해서 가장 가까운 관측치부터 결합해나가면서 계층적 트리 구조를 형성하고, 이를 통해 군집화를 수행하는 방법이다. 

 

(2) 군집 간의 거리 

- 단일 연결법

- 완전 연결법 

- 평균 연결법

- 중심 연결법

- 와드 연결법

 

(3) 비계층적 군집분석 

: 계층적으로 군집을 형성하지 않고 구하고자 하는 군집의 수를 사전에 정의해 정해진 군집의 수만큼 형성하는 방법이다. 

1) k-means 군집 : 군집의 수(k개)를 사전에 정한 뒤 집단 내 동질성과 집단 간 이질성이 모두 높게 전체 데이터를 k개의 군집으로 분할하는 알고리즘이다. 

4) DBSCAN : DBSCAN알고리즘은 밀도 기반 군집분석의 한 방법으로 개체 간의 거리에 기반을 둔 다른 군집 방법 알고리즘과 다르게 개체들이 밀집한 정도에 기초해 군집을 형성한다. 

 

3. 혼합 분포 군집

(1) 혼합 분포 군집 개요 

: 모형 기반의 군집 방법으로 관측된 데이터 드은 여러 개의 확률분포 (흔히 정규분포)로부터 추출되었다는 가정하에 같은 확률분포에서 추출된 데이터들끼리 군집화하는 분석 방법이다. 

 

4. 자기 조직화 지도(SOM)

(1) 자기 조직화 지도 개요 

- SOM (자기 조직화 지도) 알고리즘은 코호넨 맵이라고도 불리며, 인공신경망 기반 차원축소와 군집화를 동시에  수행할 수 있는 알고리즘이다. 

 

(4) 자기조직화지도 특성 

: 인공신경망의 일종이지만 다층 신경망과 달리 은닉층을 보유하고 있지 않으며, 순 전파 방식만 사용하여 알고리즘을 수행하는 속도가 매우 빠르다. 

 

 

 

 

 

댓글