ADSP 요약정리 - 4장 정형데이터 마이닝

제 1절 데이터 마이닝의 개요

- 데이터 마이닝 : 대용량 데이터에서 의미있는 데이터 패턴을 파악하거나 예측을 위해 데이터를 자동으로 분석해 의사결정에 활용하는 방법

- 통계분석과 비교해 데이터 마이닝의 큰 차이

* 가설이나 가정에 따른 분석이나 검증, 통게학 전문가가 사용하는 도구도 아님

* 다양한 수리 알고리즘을이용해 DB의 데이터로부터 의미있는 정보를 찾아내는 방법 통칭

- 정보 찾는 밥법론에 따라

* 인공지능, 의사결정나무, k-평균군집화, 연관분석, 회귀분석, 로짓분석, 최근접이웃 등

- 분석 대상이나 활용목적, 표현 방법에 따라

* 시각화 분석, 분류(classification), 군집화(clustering), 포케스팅(forecasting)

- 사용하는 분야 매우 다양

- 데이터마이닝 도구가 매우 다양하고 체계화돼 도입환경에 적합한 제품을 선택- 활용 가능

* 데이터 마이닝을 통한 분석 결과의 품질은 분석가의 경험과 역량에 따라 차이

* 분석대상의 복잡성이나 중요도가 높으면 풍부한 경험을 가진 전문가에게 의뢰할 필요

- 통계학 전문가와 대기업 위주시장, 쓰기힘들과 단순 반복 작업이 많아 실무에서 적극 이용되기 어려움, 데이터 준비위한 추출- 가공 부담, 경영진과 어려운 소통, 데이터 핸들링에만 사용, 신뢰 부족

1. 데이터 마이닝 추진 단계

- 데이터 마이닝은 일반적으로 목적 정의 데이터 준비, 데이터 가공, 데이터 마이닝 기법 적용, 검증 단계로 추진

■1.단계 : 목적 설정

- 도입 목적을 분명히. 데이터 마이닝을 ㅌㅇ해 무엇을 왜 하는지 명확한 목적 설정

* 목적 정의 단계부터 시작, 목적은 이해 관계자 모두가 동의하고 이해가능

* 가능하면 1단계부터 전문가가 참여해 목적에 따라 사용할 데이터 마이닝 모델과 필요 데이터를 정의하는 것이 바람직

■2 단계 : 데이터 준비

- 데이터 정제를 통해 데이터의 품질을 보장하고 필요하다면 보강해 데이터의 양을 충분히 확보해 데이터 마이닝 기법을 적용하는데 문제 없도록 해야 함.

* 고객정보, 거래정보, 상품 마스터 정보 등 필요. 웹로그 데이터, SNS데이터도 활용 가능

* 대부분 용량이 크므로 IT 부서와 사전 협의해 데이터 접근 부하가 시한 일을 해도 문제 없도록 일정 조율하ㅗ 도움 요청

* 필요하면 데이터를 다른 서버에 저장 운영

■3 단계 : 가공

- 모델링 목적에 따라 목적변수를 정의하고 필요한 데이터를 데이터 마이닝 SW에 적용할 수 있도록 적합한 형식으로 가공

* 모델 개발단계에서 데이터 읽기, 데이터 마이닝에 부하 걸림 -> 모델링 일정계획을 팀원간 잘 조정

■4 단계 : 기법 적용

- 앞 단계를 거처 준비한 데이터와 데이터 마이닝 SW를 활용해 목적하는 정보 추출

* 적용할 데이터 마이닝 기법은 1단계에서 이미 결정했어야 바람직

- 데이터 마이닝 모델을 목적에 맞게 선택하고 SW 사용하는데 필요한 값 지정

* 어떤 기법을 활용하고 어떤 값을 입력하느냔 등은 데이터 분석가의 전문성에 따라 다름

* 데이터 마이닝 적용 목적, 보유 데이터, 산출되는 정보 등에 따라 적절한 SW와 기법 선정

■5 단계 : 검증

- 마이닝으로 추출한 정보를 검증 하는 단계

* 테스트 마케팅이나 과거 데이터 활용 가능

- 검증됐으면 자동화 방안을 IT 부서와 협의해 상시 데이터 마이닝 결과를 업무에 적용할 수 있게 해야 하며 보고서를 작성해 경영진에게 기대효과를 알릴 수 있어야 함.

2. 데이터 마이닝을 위한 데이터 분할

- 결과 신빙성 검증을 위해 일반 적으로 데이터를 구축용 (training), 검정용 (validation), 시험용( test) 으로 분리

* 구축용 : 초기의 데이터 마이닝 모델 만드는데 사용 추정용. 훈련용 (50%)

* 검정용 : 구축된 모델의 과잉 또는 과소 맞춤 등에 미세조정 절차 위해 사용 (30%)

* 시험용 : 데이터 마이닝 추진 5단계에서 검증용으로 사용 (20%)

- 데이터 양이 충분치 않거나 사용 sw입력 변수에 대한 설명이 충분할 경우 구축용과. 시험용으로만 사용하기도 함.

- 필요에 따라 구축용과 시험용을 번갈아가며 사용 (교차확인 : cross- validation) 을 통해 모형평가

* 최근에는 구축용과 시험용으로만 분리해 사용하는 추세

3. 데이터 마이닝 모형 평가

- 데이터 마이닝 프로젝트의 목적과 내용에 따라 적합 모형 다름

* 몇가지 모형 대안 놓고 어느 것이 적합한지 판단하는 가장 보편적 기준 : 손익비교

- 모델링은 변경 주기가 있으며 근본적으로 정확도의 편차가 급증하는 시점에 실행

* classification : 최소 1년 2번 , 연관성규칙: 비즈니스 특성에 따라 1주 / 1개월

forecasting : 일-주-월 단위 등 모델링 기준에 따라 다름

- 성공적 데이터 마이닝 핵심 : 전반적인 비즈니스 프로세스에 대한 이해

* 각 프로세스에서 어떤 형태로 데이터가 발생돼 변형-축적되는지 이해하고 필요한 데이터 선별가능 해야함.

* 데이터에 대한 전반적 파악, 팩트와 특이사항 파악해 브레인 스토밍, 마트 잘 만들기 (자동화), 모델링 처음부터 전체 데이터 접근 x, 샘플링 최대한 활용)

저작자표시 비영리 변경금지

'AI 관련 > ADsP, ADP' 카테고리의 다른 글

ADSP 요약정리 - 4장 정형데이터 마이닝 - 예측분석 (Prediction Analysis) (0)	2021.10.05
ADSP 요약정리 - 4장 정형데이터 마이닝 - 분류분석(Classification Analysis) (0)	2021.10.05
ADSP 요약정리 - 3장 데이터 마트 - 데이터 가공 (0)	2021.10.03
ADSP 요약정리 - 3장 데이터 마트 - 데이터 가공 (0)	2021.10.03
ADSP 요약정리 - 3장 데이터 마트 - 데이터 변경 및 요약 (0)	2021.10.02

업무스킬 이야기

ADSP 요약정리 - 4장 정형데이터 마이닝 - 데이터 마이닝의 개요

제 1절 데이터 마이닝의 개요

1. 데이터 마이닝 추진 단계

■1.단계 : 목적 설정

■2 단계 : 데이터 준비

■3 단계 : 가공

■4 단계 : 기법 적용

■5 단계 : 검증

2. 데이터 마이닝을 위한 데이터 분할

3. 데이터 마이닝 모형 평가

'AI 관련 > ADsP, ADP' 카테고리의 다른 글

댓글

티스토리툴바

ADSP 요약정리 - 4장 정형데이터 마이닝 - 데이터 마이닝의 개요

제 1절 데이터 마이닝의 개요

1. 데이터 마이닝 추진 단계

■1.단계 : 목적 설정

■2 단계 : 데이터 준비

■3 단계 : 가공

■4 단계 : 기법 적용

■5 단계 : 검증

2. 데이터 마이닝을 위한 데이터 분할

3. 데이터 마이닝 모형 평가

'AI 관련 > ADsP, ADP' 카테고리의 다른 글

관련글

댓글

티스토리툴바