제 1절 데이터 마이닝의 개요
- 데이터 마이닝 : 대용량 데이터에서 의미있는 데이터 패턴을 파악하거나 예측을 위해 데이터를 자동으로 분석해 의사결정에 활용하는 방법
- 통계분석과 비교해 데이터 마이닝의 큰 차이
* 가설이나 가정에 따른 분석이나 검증, 통게학 전문가가 사용하는 도구도 아님
* 다양한 수리 알고리즘을이용해 DB의 데이터로부터 의미있는 정보를 찾아내는 방법 통칭
- 정보 찾는 밥법론에 따라
* 인공지능, 의사결정나무, k-평균군집화, 연관분석, 회귀분석, 로짓분석, 최근접이웃 등
- 분석 대상이나 활용목적, 표현 방법에 따라
* 시각화 분석, 분류(classification), 군집화(clustering), 포케스팅(forecasting)
- 사용하는 분야 매우 다양
- 데이터마이닝 도구가 매우 다양하고 체계화돼 도입환경에 적합한 제품을 선택- 활용 가능
* 데이터 마이닝을 통한 분석 결과의 품질은 분석가의 경험과 역량에 따라 차이
* 분석대상의 복잡성이나 중요도가 높으면 풍부한 경험을 가진 전문가에게 의뢰할 필요
- 통계학 전문가와 대기업 위주시장, 쓰기힘들과 단순 반복 작업이 많아 실무에서 적극 이용되기 어려움, 데이터 준비위한 추출- 가공 부담, 경영진과 어려운 소통, 데이터 핸들링에만 사용, 신뢰 부족
1. 데이터 마이닝 추진 단계
- 데이터 마이닝은 일반적으로 목적 정의 데이터 준비, 데이터 가공, 데이터 마이닝 기법 적용, 검증 단계로 추진
■1.단계 : 목적 설정
- 도입 목적을 분명히. 데이터 마이닝을 ㅌㅇ해 무엇을 왜 하는지 명확한 목적 설정
* 목적 정의 단계부터 시작, 목적은 이해 관계자 모두가 동의하고 이해가능
* 가능하면 1단계부터 전문가가 참여해 목적에 따라 사용할 데이터 마이닝 모델과 필요 데이터를 정의하는 것이 바람직
■2 단계 : 데이터 준비
- 데이터 정제를 통해 데이터의 품질을 보장하고 필요하다면 보강해 데이터의 양을 충분히 확보해 데이터 마이닝 기법을 적용하는데 문제 없도록 해야 함.
* 고객정보, 거래정보, 상품 마스터 정보 등 필요. 웹로그 데이터, SNS데이터도 활용 가능
* 대부분 용량이 크므로 IT 부서와 사전 협의해 데이터 접근 부하가 시한 일을 해도 문제 없도록 일정 조율하ㅗ 도움 요청
* 필요하면 데이터를 다른 서버에 저장 운영
■3 단계 : 가공
- 모델링 목적에 따라 목적변수를 정의하고 필요한 데이터를 데이터 마이닝 SW에 적용할 수 있도록 적합한 형식으로 가공
* 모델 개발단계에서 데이터 읽기, 데이터 마이닝에 부하 걸림 -> 모델링 일정계획을 팀원간 잘 조정
■4 단계 : 기법 적용
- 앞 단계를 거처 준비한 데이터와 데이터 마이닝 SW를 활용해 목적하는 정보 추출
* 적용할 데이터 마이닝 기법은 1단계에서 이미 결정했어야 바람직
- 데이터 마이닝 모델을 목적에 맞게 선택하고 SW 사용하는데 필요한 값 지정
* 어떤 기법을 활용하고 어떤 값을 입력하느냔 등은 데이터 분석가의 전문성에 따라 다름
* 데이터 마이닝 적용 목적, 보유 데이터, 산출되는 정보 등에 따라 적절한 SW와 기법 선정
■5 단계 : 검증
- 마이닝으로 추출한 정보를 검증 하는 단계
* 테스트 마케팅이나 과거 데이터 활용 가능
- 검증됐으면 자동화 방안을 IT 부서와 협의해 상시 데이터 마이닝 결과를 업무에 적용할 수 있게 해야 하며 보고서를 작성해 경영진에게 기대효과를 알릴 수 있어야 함.
2. 데이터 마이닝을 위한 데이터 분할
- 결과 신빙성 검증을 위해 일반 적으로 데이터를 구축용 (training), 검정용 (validation), 시험용( test) 으로 분리
* 구축용 : 초기의 데이터 마이닝 모델 만드는데 사용 추정용. 훈련용 (50%)
* 검정용 : 구축된 모델의 과잉 또는 과소 맞춤 등에 미세조정 절차 위해 사용 (30%)
* 시험용 : 데이터 마이닝 추진 5단계에서 검증용으로 사용 (20%)
- 데이터 양이 충분치 않거나 사용 sw입력 변수에 대한 설명이 충분할 경우 구축용과. 시험용으로만 사용하기도 함.
- 필요에 따라 구축용과 시험용을 번갈아가며 사용 (교차확인 : cross- validation) 을 통해 모형평가
* 최근에는 구축용과 시험용으로만 분리해 사용하는 추세
3. 데이터 마이닝 모형 평가
- 데이터 마이닝 프로젝트의 목적과 내용에 따라 적합 모형 다름
* 몇가지 모형 대안 놓고 어느 것이 적합한지 판단하는 가장 보편적 기준 : 손익비교
- 모델링은 변경 주기가 있으며 근본적으로 정확도의 편차가 급증하는 시점에 실행
* classification : 최소 1년 2번 , 연관성규칙: 비즈니스 특성에 따라 1주 / 1개월
forecasting : 일-주-월 단위 등 모델링 기준에 따라 다름
- 성공적 데이터 마이닝 핵심 : 전반적인 비즈니스 프로세스에 대한 이해
* 각 프로세스에서 어떤 형태로 데이터가 발생돼 변형-축적되는지 이해하고 필요한 데이터 선별가능 해야함.
* 데이터에 대한 전반적 파악, 팩트와 특이사항 파악해 브레인 스토밍, 마트 잘 만들기 (자동화), 모델링 처음부터 전체 데이터 접근 x, 샘플링 최대한 활용)
'AI 관련 > ADsP, ADP' 카테고리의 다른 글
ADSP 요약정리 - 4장 정형데이터 마이닝 - 예측분석 (Prediction Analysis) (0) | 2021.10.05 |
---|---|
ADSP 요약정리 - 4장 정형데이터 마이닝 - 분류분석(Classification Analysis) (0) | 2021.10.05 |
ADSP 요약정리 - 3장 데이터 마트 - 데이터 가공 (0) | 2021.10.03 |
ADSP 요약정리 - 3장 데이터 마트 - 데이터 가공 (0) | 2021.10.03 |
ADSP 요약정리 - 3장 데이터 마트 - 데이터 변경 및 요약 (0) | 2021.10.02 |
댓글