본문 바로가기
AI 관련/ADsP, ADP

ADSP 요약정리 - 4장 정형데이터 마이닝 - 데이터 마이닝의 개요

by 팀장일기 2021. 10. 4.

제 1절 데이터 마이닝의 개요 

   - 데이터 마이닝 : 대용량 데이터에서 의미있는 데이터 패턴을 파악하거나 예측을 위해 데이터를 자동으로 분석해 의사결정에 활용하는 방법

   - 통계분석과 비교해 데이터 마이닝의 큰 차이 

    * 가설이나 가정에 따른 분석이나 검증, 통게학 전문가가 사용하는 도구도 아님

    * 다양한 수리 알고리즘을이용해 DB의 데이터로부터 의미있는 정보를 찾아내는 방법 통칭 

   - 정보 찾는 밥법론에 따라 

    * 인공지능, 의사결정나무, k-평균군집화, 연관분석, 회귀분석, 로짓분석, 최근접이웃 등 

   - 분석 대상이나 활용목적, 표현 방법에 따라 

    * 시각화 분석, 분류(classification), 군집화(clustering), 포케스팅(forecasting) 

   - 사용하는 분야 매우 다양 

   - 데이터마이닝 도구가 매우 다양하고 체계화돼 도입환경에 적합한 제품을 선택- 활용 가능 

    * 데이터 마이닝을 통한 분석 결과의 품질은 분석가의 경험과 역량에 따라 차이

    * 분석대상의 복잡성이나 중요도가 높으면 풍부한 경험을 가진 전문가에게 의뢰할 필요 

   - 통계학 전문가와 대기업 위주시장, 쓰기힘들과 단순 반복 작업이 많아 실무에서 적극 이용되기 어려움, 데이터 준비위한 추출- 가공 부담, 경영진과 어려운 소통, 데이터 핸들링에만 사용, 신뢰 부족 

 

 1. 데이터 마이닝 추진 단계 

   - 데이터 마이닝은 일반적으로 목적 정의 데이터 준비, 데이터 가공, 데이터 마이닝 기법 적용, 검증 단계로 추진 

 

   ■1.단계 : 목적 설정 

   - 도입 목적을 분명히. 데이터 마이닝을 ㅌㅇ해 무엇을 왜 하는지 명확한 목적 설정 

    * 목적 정의 단계부터 시작, 목적은 이해 관계자 모두가 동의하고 이해가능 

    * 가능하면 1단계부터 전문가가 참여해 목적에 따라 사용할 데이터 마이닝 모델과 필요 데이터를 정의하는 것이 바람직 

   ■2 단계 : 데이터 준비  

   - 데이터 정제를 통해 데이터의 품질을 보장하고 필요하다면 보강해 데이터의 양을 충분히 확보해 데이터 마이닝 기법을 적용하는데 문제 없도록 해야 함. 

    * 고객정보, 거래정보, 상품 마스터 정보 등 필요. 웹로그 데이터, SNS데이터도 활용 가능

    * 대부분 용량이 크므로 IT 부서와 사전 협의해 데이터 접근 부하가 시한 일을 해도 문제 없도록 일정 조율하ㅗ 도움 요청 

    * 필요하면 데이터를 다른 서버에 저장 운영 

   

   ■3 단계 : 가공 

   - 모델링 목적에 따라 목적변수를 정의하고 필요한 데이터를 데이터 마이닝 SW에 적용할 수 있도록 적합한 형식으로 가공 

    * 모델 개발단계에서 데이터 읽기, 데이터 마이닝에 부하 걸림 -> 모델링 일정계획을 팀원간 잘 조정 

   

   ■4 단계 : 기법 적용 

   - 앞 단계를 거처 준비한 데이터와 데이터 마이닝 SW를 활용해 목적하는 정보 추출 

    * 적용할 데이터 마이닝 기법은 1단계에서 이미 결정했어야 바람직 

   - 데이터 마이닝 모델을 목적에 맞게 선택하고 SW 사용하는데 필요한 값 지정 

    * 어떤 기법을 활용하고 어떤 값을 입력하느냔 등은 데이터 분석가의 전문성에 따라 다름 

    * 데이터 마이닝 적용 목적, 보유 데이터, 산출되는 정보 등에 따라 적절한 SW와 기법 선정 

 

    ■5 단계 : 검증 

   - 마이닝으로 추출한 정보를 검증 하는 단계 

    * 테스트 마케팅이나 과거 데이터 활용 가능

   - 검증됐으면  자동화 방안을 IT 부서와 협의해 상시 데이터 마이닝 결과를 업무에 적용할 수 있게 해야 하며 보고서를 작성해 경영진에게 기대효과를 알릴 수 있어야 함. 

 

 2. 데이터 마이닝을 위한 데이터 분할 

   - 결과 신빙성 검증을 위해 일반 적으로 데이터를 구축용 (training), 검정용 (validation), 시험용( test) 으로 분리 

    * 구축용 : 초기의 데이터 마이닝 모델 만드는데 사용 추정용. 훈련용 (50%) 

    * 검정용 : 구축된 모델의 과잉 또는 과소 맞춤 등에 미세조정 절차 위해 사용 (30%) 

    * 시험용 : 데이터 마이닝 추진 5단계에서 검증용으로 사용 (20%) 

   - 데이터 양이 충분치 않거나 사용 sw입력 변수에 대한 설명이 충분할 경우 구축용과. 시험용으로만 사용하기도 함. 

   - 필요에 따라 구축용과 시험용을 번갈아가며 사용 (교차확인 : cross- validation) 을 통해 모형평가 

    * 최근에는 구축용과 시험용으로만 분리해 사용하는 추세 

 

 3. 데이터 마이닝 모형 평가 

   - 데이터 마이닝 프로젝트의 목적과 내용에 따라 적합 모형 다름 

    *  몇가지 모형 대안 놓고 어느 것이 적합한지 판단하는 가장 보편적 기준 : 손익비교 

   - 모델링은 변경 주기가 있으며 근본적으로 정확도의 편차가 급증하는 시점에 실행 

    * classification : 최소 1년 2번 , 연관성규칙: 비즈니스 특성에 따라 1주 / 1개월 

      forecasting : 일-주-월 단위 등 모델링 기준에 따라 다름 

   - 성공적 데이터 마이닝 핵심 : 전반적인 비즈니스 프로세스에 대한 이해 

    * 각 프로세스에서 어떤 형태로 데이터가 발생돼 변형-축적되는지 이해하고 필요한 데이터 선별가능 해야함. 

    * 데이터에 대한 전반적 파악, 팩트와 특이사항 파악해 브레인 스토밍, 마트 잘 만들기 (자동화), 모델링 처음부터 전체 데이터 접근 x, 샘플링 최대한 활용) 

 

 

 

 

댓글