ADsP 3과목 요점 정리_3과목 3장 정형 데이터 마이닝_03 군집분석
03군집분석
1. 군집분석
(1) 군집분석 개요
: 여러 변수로 표현된 자료들 사이의 유사성을 측정하고 유사한 자료들끼리 몇 개의 군집으로 묶고 다변량 분석(상관분석, 회귀분석, 주성분 분석 등)을 활용하여 각 군집에 대한 특징을 파악하는 기법
(2) 거리 측도
1) 변수가 연속형인 경우
- 유클리디안 거리 : 두 점 사이의 거리를 계산할 때 가장 널리 쓰이는 계산 방법으로 두 점 사이의 가장 짧은 거리를 계산한다.
- 맨해튼 거리 : 두 점 사이를 가로지르지 않고 길을 따라갔을 때의 거리
- 체비 셰프 거리 : 변수 간 거리 차이 중 최댓값을 데이터 간의 거리로 정의한다.
- 마할라노비스 거리 : 표준화 거리가 고려하지 못한 변수 간 상관성까지 고려한 거리다.
- 민코프스키 거리 : 유클리디안 거리와 맨 하트 거리를 한 번에 표현한 거리로, m=1일 때는 맨하튼 거리이며 m=2 일때는 유클리디안 거리가 된다.
2. 계층적 군집분석
(1) 계층적 군집분석 개요
: 개별 관측치 간의 거리를 계산해서 가장 가까운 관측치부터 결합해나가면서 계층적 트리 구조를 형성하고, 이를 통해 군집화를 수행하는 방법이다.
(2) 군집 간의 거리
- 단일 연결법
- 완전 연결법
- 평균 연결법
- 중심 연결법
- 와드 연결법
(3) 비계층적 군집분석
: 계층적으로 군집을 형성하지 않고 구하고자 하는 군집의 수를 사전에 정의해 정해진 군집의 수만큼 형성하는 방법이다.
1) k-means 군집 : 군집의 수(k개)를 사전에 정한 뒤 집단 내 동질성과 집단 간 이질성이 모두 높게 전체 데이터를 k개의 군집으로 분할하는 알고리즘이다.
4) DBSCAN : DBSCAN알고리즘은 밀도 기반 군집분석의 한 방법으로 개체 간의 거리에 기반을 둔 다른 군집 방법 알고리즘과 다르게 개체들이 밀집한 정도에 기초해 군집을 형성한다.
3. 혼합 분포 군집
(1) 혼합 분포 군집 개요
: 모형 기반의 군집 방법으로 관측된 데이터 드은 여러 개의 확률분포 (흔히 정규분포)로부터 추출되었다는 가정하에 같은 확률분포에서 추출된 데이터들끼리 군집화하는 분석 방법이다.
4. 자기 조직화 지도(SOM)
(1) 자기 조직화 지도 개요
- SOM (자기 조직화 지도) 알고리즘은 코호넨 맵이라고도 불리며, 인공신경망 기반 차원축소와 군집화를 동시에 수행할 수 있는 알고리즘이다.
(4) 자기조직화지도 특성
: 인공신경망의 일종이지만 다층 신경망과 달리 은닉층을 보유하고 있지 않으며, 순 전파 방식만 사용하여 알고리즘을 수행하는 속도가 매우 빠르다.
'AI 관련 > ADsP, ADP' 카테고리의 다른 글
ADsP 3과목 요점 정리_3과목 3장 정형데이터 마이닝_02 분류분석 (0) | 2022.03.25 |
---|---|
ADsP 3과목 요점 정리_3과목 3장 정형데이터 마이닝_01 데이터마이닝 (0) | 2022.03.24 |
ADsP 3과목 요점 정리_3과목 2장 통계분석_05 시계열분석 (0) | 2022.03.21 |
ADsP 3과목 요점 정리_3과목 2장 통계분석_04 다변량 분석 (0) | 2022.03.19 |
ADsP 3과목 요점 정리_3과목 2장 통계분석_03 회귀분석 (0) | 2022.03.19 |
댓글