본문 바로가기
AI 관련/ADsP, ADP

ADsP 3과목 요점 정리_3과목 3장 정형데이터 마이닝_01 데이터마이닝

by 팀장일기 2022. 3. 24.

ADsP 3과목 요점 정리_3과목 3장 정형 데이터 마이닝_01 데이터 마이닝

볍씨 쌀  - 데이터마이닝

 01 데이터 마이닝 

1. 데이터 마이닝 개요

(1) 데이터 마이닝의 이해

1) 데이터 마이닝이란 : 방대한 양의 데이터 속에서 숨겨진 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용하는 것을 목적으로 한다. 

2) 통계분석과 데이터 마이닝의 차이

- 통계분석 : 표본을 통해 의미 있는 자료를 추출하고, 이를 기반으로 의사결정, 요약, 연관성 파악, 예측 등의 결과로 이어지도록 하는 일련의 과정을 말한다. 통계분석은 [수집→정제→추정→검정]의 과정을 통해 이루어진다. 통계학은 표본이 있어야 한다는 것과 그 표본을 통해 모집단의 어떤 특성을 추정하고 검정한다는 것이 중요하다 '가설과 검정'이라는 개념도 포함되어 있다.  

- 데이터 마이닝 : 상향식 접근법 생각하면 된다. 데이터들을 분석하여 숨겨진 규칙이나 패턴을 찾아내는 것이 중요. 데이터 들 속에 숨겨진 규칙이나 패턴을 찾아낸다면 데이터 마이닝을 통해 일종의 함수, 즉 모형을 만들 수 있고 그 모형을 토대로 예측이 가능하다. [목적 정의 단계→데이터 준비단계→ 데이터 가공단계→ 데이터 마이닝 기법 적용 단계→ 검증 단계]

 

(2) 데이터 마이닝의 종류

1) 데이터 마이닝 방법에 따른 분류 

-지도 학습 : 지도 학습이란 정답이 있는 데이터를 활용해 분석 모델을 학습시키는 것이다. 

-비지도 학습 : 비지도 학습이란 지도 학습과는 달리 정답을 알려주지 않고 학습하는 것이다. 

2) 데이터 마이닝 분석 목적에 따른 분류 

  • 분류 분석
  • 군집분석
  • 연관분석

(3) 데이터 마이닝의 프로세스 

1) 목적 정의 : 데이터 마이닝의 결과로 무엇을 알고자 하는지 분명한 목적을 설정하는 단계

2) 데이터 준비 : 고객정보, 고객 거래정보 등 데이터 마이닝에 필요한 데이터를 수집하는 단계

3) 데이터 가공 : 데이터 마이닝 목적에 따른 목적 변수를 정의하고 데이터 마이닝에 적용 가능한 형식으로 데이터를 변환하는 단계 

4) 데이터 마이닝 기법 적용 : 앞서 준비된 데이터를 활용하여 데이터 마이닝 기법을 적용하는 단계 

5) 검증 : 데이터 마이닝의 결과로 얻은 모델에 대한 평가 및 실제 업무에서 적용 가능한지 성능을 검증하는 단계 

 

2. 데이터 분할

(1) 데이터 분할의 이해 

1)데이터 분할 : 데이터를 훈련용, 검정용, 평가용 의 세 가지로 분할한다. 훈련용 데이터는 모델을 구축하기 위해 활용되며, 검정용 데이터는 구축된 모델이 적합한지 검증하고 , 모형의 과대추정 및 과소추정을 방지하기 위해 활용되며, 평가용 데이터는 최종적으로 구축된 모델의 성능을 평가하기 위함이다. 

2) 과적합과 과소 적합 : 과적 합의 경우 데이터가 훈련용 데이터에 대하여 너무 많이 설명하려고 하여 모델이 복잡해지고 해석의 어려움이 발생한다. 또한 실제 데이터에 대해 예측력이 떨어지는 문제가 발생한다. 반대로 과소 적합은 데이터 부족 문제로 발생할 수도 있지만 모델이 너무 단순하여 데이터를 충분히  설명하지 못하는 문제를 말한다. 

 

(2) 데이터 분할을 통한 검증 

1) 홀드 아웃 : 전체 데이터를 랜덤 하게 추출해 학습 데이터와 테스트 데이터로 분리하는 방식

2) k-Fold 교차검증 : 전체 데이터 셋을 k개의 집단으로 구분한 뒤 k-1개를 훈련용 데이터로 나머지 1개를 평가용 데이터로 사용하여 구축된 k개의 모델을 종합하여 최종 모델을 구축하는 방법이다. 과소 적합을 방지할 수 있다. 

3) 붓스트랩 : 표본을 다시 추출하는 방법의 일종. 랜덤 하게 반복 추출하여 머신러닝 모델의 성능 향상을 꾀할 수 있다. 항상 관측된 데이터로부터 복원 추출하며 추정의 신뢰성을 평가하는 데 사용한다. 과적합을 줄이는데 도움이 된다. 

4) 계층별 k-겹 교차검증 : 주로 불균형 데이터를 분류하는 문제에서 사용하는 방법으로 작동방식은 k-폴드 교차검증과 동일하다. 

댓글