ADSP 요약정리 - 1장 데이터 분석 개요

제 1절 데이터 분석 프로세스

1. 요건정의

- 분석요건을 구체적으로 도출-선별-결정하고, 분석과정을 설계하고, 구체적인 내용을 실무담당자와 협의하는 업무

- 광범위하고 다양한 정보를 다루고 문서화 작업의 비중이 높음

- 전체 프로세스 중에서 가장 중요한 부분으로, 빅데이터 분석업무의 성패 좌우

가. 분석 요건 도출

- 요건은 비즈니스 이슈로부터 도출

* 이슈 :업무를 수행하는 데 있어 수익 증가, 비용증가, 상황변화, 처리속도 지연 등을 발생시키는 항목 --> 전사적 측면에서 개선돼야할 사항

* 단순 불편 사항이나 불만사항을 요건으로 정의하면 비즈니스적 의미가 낮아지고 분석경과 보고나 실행의 타당성 잃을 가능성 높음

- 다양한 이슈에서 진정한 요건이 될 수 있는 항목 선정하는 것 매우 중요

- 분석요건 도출 단계는 기획단계와 유사하지만 상세하게 접근하고 실무 측면으로 진행해야함.

- 분석요건의 조건은 문제를 해결했을 때 투자수익(ROI)을 증명 가능해야 함.

- 요건정의 단계

* 상세한 분석보다 문헌조사 및 이해와 간단한 기초분석 수행

- 요건으로 제시된 내용에 대한사실 확인 및 통찰 도출로 방향성 설정에 필요한 수준

- 요건정의에 많은 시간 할당하면 전체 업무진행에 차질

- 전문가의 방향성 제시와 이해관계자들 간의 합의가 중요

- 기획단계 요건정의

* 캠페인 반응율을 개선해야한다. 수준이나 재구매 유도 캠페인을 개선-강화해야한다.

- 데이터마이닝 단계 요건정의

* 캠페인 반응을 개선을 통한 CRM업무 효율성 증대, 캠페인 채널 비용 절감, 캠페인 대상 20% 증대 방안 정도

- 분석단계 요건 정의

* 재구매 유도 캠페인의 대상 고객 20%확대 방안에 대해 전체 고객구성 상황, 현재 재구매 캠페인 대상, 캠페인별 대상이 어떻게 정의되고 변경되는지, 성과는 어떤지, 미흡한점, 어디서 재구매 대상 늘리고 이에 대한 비용은 어디서 보충할 것인지 등 정의

- 요건

* 데이터마이닝의 요건 : 캠페인 반응을 개선을 통한 업무 효율성 또는 비용절감

* 시뮬레이션 요건 : 의약품 분리장비 추가도입에 따른 업무시간 및 재무효과의 변화 검토

* 최적화 : 병원의 간호사 배치에 대한 진료과별 최적 할당. 근무 시간표 최적할당 등

- 요건에 대한 현재의 이슈와 실상은 무엇인지, 어떻게 개선할지, 어느 정도 개선가능한지 등을 보완자료로 추가

수행준거

고려사항

- 데이터 분석 업무의 배경, 주요이슈, 기대효과, 제약사항 파악 가능
-이해관계자들과 의사소통을 통해 데이터 분석요건 식별 가능
-식별된 데이터 분석요건을 현업의 문서를 수집해 일부 수행함으로써 기획단계에서 간과할 수 있는 사항을 상세화 구체화 가능
-상세화 구체화한 데이터 분석요건 명세화 가능
-종합적으로 분석 요건의 적합성 평가가 가능해야함.

-IEEE에서 정의한 요구공학 프로세스를 고려
-요구사항 추출, 분석,명세,검증,유지보수 등
-IIBA에서 식별한 일반적으로 인정된 욕사항 도출 테크닉 고려
-브레인스토밍, 기존문서검토, 외부 인터페이스 분석, 집중 집단 인터뷰, 관찰 또는 직무체험, 요구사항 도출 워크숍, 인터뷰, 설문 등
- 개별 분석 요건에 대한 지나친 상세화 보다 기존 분석 자료와 정보를 기반으로 분석요건 항목들을 누락 없이 식별하는 것에 집중
- 분석요건 분석과정에서 더 구체화되고 수정되는 것이 타당
- 데이터 분석 업무 이해 당사자들과의 긴밀한 커뮤니케이션이 필수적
- 데이터 분석 기대 효과에 대한 명확한 사전 정의와 협의가 필수적
- 개인정보 보호, 접근 통제 등 정보 보안정책과 충돌 할 수도 있기 때문에 이에 대한 사전 확인- 협의가 필수적

나. 수행방안 설계

- 정의한 분석요건에 따라 구체적인 수행방안 설계

- 분석을 구체적으로 수행하기 위해서 간단한 탐색적 분석을 수행하며 미리 가설을 수립해 어떤 분석을 수행할지 틀을 잡아야 함.

* 분석요건이 정해졌다고 수행방안이 확정되는것은 아님

* 절차와 방안을 수립해야 하는 이유

- 탐색적 분석을 하며 분석자체가 의미없다는 것을 미리 파악할수 있는기회를 얻을수 있음 => 자원과 비용, 시간낭비 방지 가능

- 미리 가설을 수립해 수행방안을 설계하지 않고 진행하면 분석 필수항목과 선택항목, 일정, 필요한 자원의 양 등 계획수립이 어려워짐 => 품직이나 납기 준수 어려워짐

* 반드시 선험적 지식을 통해 수행방안을 구체적으로 설계해야함.

- 반드시 분석기법을 정의하고 진행해야 하며 결정시 해당 분석기법에 대한 전문지식을 갖춘 인력이 참가해 검토해야함.

* 다양한 분석기법을 이해한 전문가가 적합한 분석기법을 다양한 측면에서 검토해 가장 적합한 방법 제시할 수 있어야 함.

- 빅데이터 기획단계에서는 전체 로드맵과 선행 및 후행 과제만 정의됨

* 수행방안의 최종 산출물 : 분석계획서와 WBS(Work Nrekdown Stucture)

-일(Day) 단위 ,상위 기획단계에서 미처 고려못한 구체적 업무와 자원, 선행관계 등의 충돌로 일정이 부족할 수 있음.

- 분석계획서 : 핵심적 분석항목과 구체적 분석범위를 지정해 분석범위를 명확히 하고 관련 업무와의 선-후행 관계를 검토하기 위해 이에 대한 WBS를 일단위로 작성

<분석수행 관리를 위한 WBS 예시>

-WBS 작성시 우선 Forward 방식으로 전개를 해보고 납기를 만족시킬수 있는지 확인

* 납기 초과할 경우 납기기준으로 Backward 전개해 언제 특정업무를 시작해야하는지 파악

-자원추가, 일정조절 등 요건 조절로 일정상 충돌 해결

- 인력이 인프라 기술과 분석기술 양 업무를 동시에 수행하는 것은 피해야 하며 기술인력은 특정기간에 제한적으로 필요한 경우가 많으므로 해당 시점에만 투입할 수도 있음.

- 동일업무에 대해 기술 담당자와 분석 담당자 누가 해야 할지에 대해서는 처리속도 및 IT 자원의 효율적 활용이라는 기준에서 결정해야 함.

* 수백 TB데이터는 Hive 등에서 처리 요약해 1TB이하로 만든 다음 R에서 처리가 적합.

수행준거

고려사항

- 권한 및 계정을 확보해 DB 접근 환경 구축 가능
- 분석 대상 데이터의 존재 여부와 품질 확인 가능
- 간단한 기초분석을 통해 분석수행 타당성 확인
- 분석기법, 수행단계 및 절차, 인도 산출물, 주요일정, 수행 인력을 식별하고 구성해 분석방법론 구축 가능
- 구축된 분석 방법론을 기반으로 분석 프로젝트 수행계획 수립가능

- 분석수행 방법론 구축 시 프로젝트 관련 지식 체계를 참조 및 활용
- 프로젝트 통합관리, 범위관리, 시간관리, 비용관리, 품질관리, 인력관리,의사소통관리, 위험관리, 조달관리, 이해당사자 관리
- 분석 프로젝트에는 일정계획, 수행 조직 및 역할 책임, 표준인도 산출물, 품질 관리 계획 , 위험관리계획, 의사소통 계획 등이 포함될 수 있음.
- 필수 분석 항목과 선택 분석 항목을 사전에 구분해 우선순위를 부여하고 우선순위가 높은 필수 분석항목들이 작업 대상에서 누락되지않도록 함.
- 예상 결과가 나오지 않을 경우 대안적 접근 방안으로 분석 항목ㄷㄹ 추가식별 간ㅇ
- 데이터 오류 또는 분석 수행 오류등으로 인한 재작 업 시간을 분석 일정에 반영
- 데이터 오류 및 시스템성능 부족 현상 발생 등 관련 위험들 사전 식별하고 대응 방안 수립

다. 요건 확정

- 요건도출과 분석계획을 수립하면 어떻게 요건에 접근하고 어떤 정량-정성적 효과 나올지 기획안이 나옴

* 이를 통해 분석 요청 부서와 IT 부서, 기타 연관 부서와 공유해 최종 요건 확정

-대론 기획단계에서 나온 분석 과제가 기각 될수도 있음.

* 자세한 현황과 내용을 정의하는 과정에서 대론 기획 단계의 오류 발견 가능

* 사전에 충분히 소통하지 않을 경우 요건 확정이 어려우므로 사전에 지속적으로 대화-조율하며 요건 확정

- 분석은 복잡성과 전문성이 필요해 짧은 시간안에 상대방으로부터 이해 구하기 어려움

* 한번 확정된 요건을 종료(Closing)해 이후 변경하는 일이 없도록 해야 함.

-확정된 요건이 바뀌기 시작하면 다시 반복 작업으로 시간 보낼 수 있으므로 요건을 명확히 처리 - 결정

* 실무에서 모델링 과정 중 요건이 변경되는 일은 빈번히 발생.프로젝트 완료일을 준수할 수 있는 범위에서 조율

수행준거

고려사항

-상세화 구체화 명세화한 데이터 분석요건 항목을 기준으로 추진 의미가 있는지 최종 결정
- 이해 관계자들에게 설명할 수 있음
- 공식 변경 관리를 통해 데이터 분석요건 항목들 변경 가능
- 분석 요건에 대한 적합성 -타당성-일정계획에서의 제약을 종합해 업무범위 조정 가능
- 확정 데잍터 분석요건 항목들을 변경 이력 및 추적성을 확보해 현행화 가능
- 데이터 분석요건을 문서화해 이해 관계자들 간 공식적으로 확정 가능

- ㄷ이터 분석요건 변경은 반드시 공식 변경관리 절차에 따라 이뤄져야함.
- 데이터 분석요건은 특정 이해관계자의 의견위주로 확정하기보다 참여자들의 다양한 시각과 의견이 폭 넓게 수집-수렴 고려해 확장
- 이해관계자들 간의 의견 불일치를 최소화하고 만약 의견 대립시 이를 적극 조율
- 요건 확정 이후에 데이터 분석요건 변경은 전체 프로젝트에 큰 영향(대부분 부정적)을 미치므로 모든 이해관계자들의 공감대 아래 진행

2. 모델링

- 요건정의에 따라 상세 분석기법을 적용해 모델을 개발하는 과정

* 모델링을 거치면 필요한 입력데이터에 대한 처리가 매우 용이해짐

* 시뮬레이션이나 최적화에서 필요한 자료가 빅데이터 분석 시스템에 이미 존재할 가능성이 높음

* 최적화에서도 제약조건에 해당하는 값이 실제 어떠했는지 시스템에 존재

- 가정이나 인터뷰해 값을 구할 일이 없어져 모델링 시 데이터 획득 및 검증에 소요되는 시간 크게 감소

- 모델링은 해당기법에 대한 전문 지식이 필요

가. 모델링 마트 설계와 구축

- 어떤 모델링 기법을 사용하든 모델링을 위한 데이터를 준비해 시스템에 체계적으로 준비해 놓으면 모델링 용이해짐

* 모델링 도구에 따라 DBMS 에서 직접 값을 가져와 반영할 수 잇는 기능도 제공

-모델링 진행 전에 필요한 데이터의 마트를 설계해 비정규화(De-normalized) 상태로 처리하면 사용이 편리

* 데이터마이닝에서 지도학습 (Supervised Learning)은 모델링 마트를 직접 이용해 모델 개발 가능

수행준거

고려사항

- 다양한 원천 데이터로부터 분석 대상 데이터 획득 가능
- 분석대상 데이터를 담색- 정제-요약 등 전처리해 변수들 식별 가능
- 분석 대상 데이터를 구조화하는 모델 마트 설계 가능
- 전처리한 분석 대상 데이터를 적재해 모델 마트 구축 가능

- 데이터 원천은 관게형 DB, 데이터 웨어하우스, 시스템 로그, 비정형 데이터 등 다양한 형태로 존재 가능
- 분석 대상 데이터(변수)는 연속형과 범주형으로 구분 가능
- 연속형 : 주어진 범위 내 연속되는 실수로 구성
- 범주형 : 수치형과 텍스트형으로 구분, 명목형과 순위형 변수로 구분
- 재활용성이 높은 모델 마트 설계- 구축을 위해 원천 데이터에 대한 명확한 이해가 선행되어야 함.
- 기존 정보시스템 내의 데이터를 최대한 활용-확장하는 접근을 하며 신중히 채택된 가설 기반으로 마트를 설계해 작업 효율성 최대화.
- 데이터 획득 ㅜ정 확정이 지연될 우려가 크므로 계획된 시간 내에 데이터 획득과 확정을 강제해 현실적인 작업 수행 유도
- 데이터 정제 시 1단계(데이터요약), 2단계(파생변수 도출), 3단계(변수확대)의 단계별 접근 기법 권고

나. 탐색적 분석과 유의변수 도출

- 데이터 마이닝에 해당하는 업무로 해당 비즈니스 이해와 분석요건에 대한 구체적 팩트를 발견해 통찰을 얻기 위해 수행하는 업무, EDA(탐구 데이터분석, Exploratory data analysis)

* EDA는 시간이 많이 필요한 일로 최근에는 EDA를 자동으로 신속하게 수행해 유의미한 값만 파악해 데이터 마트로 만든 후 모델링 업무로 진행하는게 일반적

- 유의미한 변수를 파악하는 방안

* 목표값 (target value)별로 해당 변수가 분포된 값을 보고 해당 변수의 구간에서 차이가 큰지 파악 --> 구간 존재하면 유의미한 변수임을 시각적으로 알아볼 수 있음.

- 이 단계와 최종 분석결과를 산출해 결과를 공유하는 단계는 시각화가 매우 중요한 역할 -->전문적 지식이 없는 사람들의 이해를 도울 수 있음 (효율적 정보 제시, 전문적 시각화x)

- 시각화로 정보 제시 시 유의할 점

* 모양보다 팩트와 통찰을 전달할 수 있는 것에 중점 --> 단순 그래프 출력 지양

* 시각화와 제시하고자 하는 정보의 차이 존재

- 추세변화, 비교에 적합한 그래프 형식 선택은 필수적, 불필요한 스케일 조절은 지양

수행준거

고려사항

- 분석 목적과 요건, 데이터 특성을 기반으로 적합한 데이터 분석기법 선정 가능
- 선정된 데이터 분석기법을 기준으로 분석모형 설계 가능
- 설계한 분석모형을 기준으로 유의성을 분석해 높은유의성을 보유한 변수들 식별가능
-높은 유의성을 보유한 최소한의 변수들로 모형 구축 가능

-분석모형 설계구축 시에는 해당 모형의 학습 ,평가, 검증을 통해 최적 모형을 선정 및 적용하기 위해 하나 이상의 모형을 준비하는것이 타당
-탐색적 분석을 통해 준비된 데이터의 가설 적합성과 충분성을 사전 검증해야함.
-변수의 유의성 검증 후 유의성이 높은 최소한의 변수들로 분석모형을 검증할 것을 권장
-시뮬레이션을 통해 기 수립된 분석 모형의 타당성과 적합성을 판단해 반복적으로 보정
-최소한 시간에 탐색적 분석을 완료하는 것이 성공적 분석의 관건으로 단위 분석에 대한 예상 소요 시간을 추정해 필요시 샘플링 권고
-탐색적 분석과 유의변수 도출 과정에서 정보의 부족함 식별 시 신속하게 추가변수를 개발해 데이터마트에 반영

다. 모델링

-개념적인 모델링도 있지만 결국 이를 구현해 적용 가능해야 함.

* 전체 내용을 제대로 제시하려면 특정 도구를 사용해야 함.

*SQL은 차이가 거의없고 표준이라 할 수 있는 ANSI SQL이 있으나 주요 DBMS 공급사들은 자사 특성에 따라 다양한 기능을 추가-제시해 ANSI SQL로 활용 및 적용에 대한 정보를 제시할 수 있는 것은 매우 제한적

--> SQL의 경우도 특정 공급사의 SQL을 이용해 제시함으로써 이해 및 실습과 적용에 도움을 줄 수 있음.

* 가장 광범위하게 사용되고 학습을 위해 획득이 용이한 DBMS를 선택해야 함.

-데이터 마이닝, 시뮬레이션, 최적화별로 산업에서 시장 점유율이 높은 분석도구들이 다양하게 있고 일부는 데이터 마이닝 도구에서 시뮬레이션이나 최적화를 지원하기도 함. ex) R

* R : 오픈소스, 데이터 입수 및 변화, 분석용 마트 생성, 기초통계 및 다양한 분야의 시각화, 시뮬레이션, 최적화 지원

* 시뮬레이션은 매우 전문적인 불연속(discete) 시뮬레이션 모델이 가장 많이 사용됨

수행 준거

고려사항

-다양한 모델링 기법을 능숙하게 다뤄 업무 특성에 적합한 기법을 선택하거나 모델링 기법을 결합해 적용할 수 있어야 함.
-선택된 모델링 기법을 이용해 모델링
-미래값을 예측하는데 프로세스적인 측면이 없으면 데이터 마이닝 모델링을 수행
-프로세스 및 자원에 대한 제약이 있고 입력값이 확률분포를 갖는 경우 시뮬레이션 기법 선택
- 프로세스 및 자원에 대한 제약이 있고 입력값이 확률분포를 갖는 경우 시뮬레이션 기법 선택
- 프로세스 및 자원에 대한 제약이 있ㄱ 상수값을 가질 때는 최적화 기법 사용
- 경우에 따라 시뮬레이션과 최적화를 결합해 접근 가능

-데이터마이닝 모델링은 통계적 모델링이 아니므로 지나친 통계적 가설이나 유의성에 집착하지 말아야 함.
- 충분한 시간이 있으면 다양한 옵션을 줘서 시도하며 일정 성과가 나오면 해석과 활용 단계로 진행 할 수 있도록 의사결정해야함.
- 분석 데이터를 훈련 및 테스트 데이털 6:4, 7:3, 8:2 비율로 상황에 맞게 실시
-훈련 및 테스트 성능에 큰 편차가 없고 에상 성능을 만족하면 중단.
-과도한 성능에 대한 집착으로 분석 모델링의 주목적이 실무 적용에 있음을 간과하고 시간을 낭비하면 후속 검증 및 적용에 지연발생 가능

라. 모델링 성능 평가

- 모델링 성능을 평가하는 기준은 분석 기법별로 다양

- 데이터마이닝은 정확도, 정밀도, 디텍트 레이트(detect rate), 리프트(lift) 등 값으로 판단

- 시뮬레이션에서는 Throughput, Average Waiting Time, Average Queue Length, Time in System 등의 지표 활용

- 최적화에서는 최적화 이전 Object Function Value와 최적화 이후의 값의 차이를 구해 평가

수행준거

고려사항

- 분석 모형 적합성 판단 기준 수립 가능
- 분석 모형별 합습용 데이터 집합 구축 가능
- 구축된 학습용 데이터로 분석모형 조정가능
- 학습용 데이터를 활용해 조정한 분석 모형에 검증 데이터를 적용해 학습용 데이터 기반 결과와 검증용 데이터 기반 결과를 비교-분석 가능
- 검증 결과에 따라 필요시 분석 모형과 데이터 (항목, 건수)를 조정해 최적화 가능
- 선정된 기법(방법)으로 분석 모형을 실제 운영환경에 적용할 수 있으며 오픈 소스 R을 이용할 때는 샤이니(Shiny)를 이용해 배포 가능

- 업무 특성에 따라 다양한 모델링 기법을 선택하거나 결합해 적용 가능해야 함.
- 미래 값을 예측하는 데프로세스적 측면이 없으면 데이터 마이닝 모델링 수행
- 프로세스 및 자원에 대한 제약이 있고 입력 값이 확률 분포를 가지면 시뮬레이션 기법 선택
- 프로세스 및 자원에 대한 제약이 있고 상수값을 갖는 경우는 최적화 기법 사용
- 경우에 따라 시뮬레이션과 최적화를 결합해 접근 가능
- 데이터마이닝 모델링은 통계적 모델링이 아니므로 지나친 통계적 가설이나 유의성에 집착하지 말아야 함.
- 다양한 옵션에 대한 시도는 충분한 시간이 있으면 실시하며 일정 성과가 나오면 해석 및 활용적 측면 단계로 옮겨가야 함.
- 훈련 및 테스트 데이터의 비중은 6:4, 7:3, 8:2 비율로 프로젝트 수행 경험에 비춰 최적의 조합으로 구성해 수행할 것 권고
- 훈련 및 테스트 성능에 큰 편차가 없고 예상 성능을 만족하는 시점ㅇ 작업 완료 가능
- 성능에 대한 과도한 집착으로 인해 분석 모델링의 실무 적용이라는 핵심 목적이 간과되고 후속 검증 및 적용에 지연이 발생 가능함을 염두

3. 검증 및 테스트

가. 운영상황에서 실제 테스트

- 업무 프로세스에 가상으로 적용해 검증, 분석과 운영 간연계 검증 및 전체적인 흐름을 통합적으로 시험 하는 과정

수행준거

고려사항

- 구축 및 조정된 분석 모형을 테스트 하기 위한 유사 운영환경 구축
- 분석 모형을 테스트하기 위한 절차설계
- 설계된 절차에 따라 테스트하고, 결과 분석
- 테스트 결과를 기반으로 분석 모형을 조정해 반복 테스트
- 최종 테스트 결과를 기분으로 실제 운영환경 적용 여부를 판단 가능

- 모형의 유형에 따라 과적합화(overfitting)가 발생할 수 있음
- 실제 운영환경 성능 테스트는 사전 시나리오를 따라 1주일 정도 실시
- 일 단위 측정이 가능한 경우, 1주간의 성능이 일관됨을 확인 할 것.
- 결과는 일 단위로 공유해 실무적용의 객관성 유지
- 조직변화관리와 병행
- 성능 테스트는 최소 3회 이상, 테스트 기간은 최소 1주이상
- 외부 이해관계의 개입을 최소화 또는 차단해, 결과 왜곡 방지

나. 비즈니스 영향도 평가

- 분석 결과의 정확성을 높여 만족도 개선 -추가 수익 창출 등 비즈니스 영향도와 효과를 산출 할 수 있어야 함. 테스트를 통해 나온 최종 결과를 기반으로 정량적 효과 도출 가능

수행준거

고려사항

- 모델링 성과에서의 검출률(Detection rate)이 증가하거나 Lift가 개선 돼 발생하는 정량적 효과 제시
- 타 모델링과의 중복에 따른 효과를 통제 - 제시 할 수 있어야 함.
- 기대효과는 수익과 투자대비효과 (ROI, Return on Investment)로 제시

-투자대비 효과 정량화 기법 : 총 소유비용 (TCO, Total Cost of Ownership), 투자대비효과 (ROI), 순 현재가치 (NPV, Net Present Value), 내부수익률 (IRR, Internal Rate of Return), 투자회수기간 (PP, Payback Period)

- 데이터 마이닝 모델링에서는 Detection rate 이 증가하거나 Lift 개선되 발생되는 정량적 효과 제시
- 시뮬레이션에서는 처리량, 대기시간, 대기행렬의 감소를 통한 정량적 효과 제시
- 최적화에서는 목적함수가 증가한 만큼의 정량적 효과 제시

4. 적용

- 분석결과를 업무 프로세스에 완전히 통합해 실제 일-주-월 단위로 운영하는 것

- 분석 시스템과 연계돼 사용될 수 있고 별도 코드로 분리돼 기존 시스템 (legacy system)에 별도 개발해 운영 가능

가. 운영시스템에 적용과 자동화

- 운영 시스템에 적용해 운영하면 실시간 또는 배치 스케줄러(Batch Scheduler) 실행하고 주기별로 분석 모델의 성과가 예상했던 수준으로 나오고 있는지 모니터링 할 수 있도록 DBMS에 성과자료 누적하고 이상현상이 발생하면 자동으로 경고(Alert)하도록 함.

- 분석모델은 개발된 내용이 많아질수록 상시 파악이 자동으로 이뤄지고 이상 시에만 확인하도록 프로세스를 수립해놔야 분석업무를 다양한 분야에 적용하고 정교화를 계속해 지속적인 성과를 거둘 수 있음.

- R을 이용해 이 단계를 단순화 할 수 있으며 R studio에서 제공하는 샤이니 (Shiny)를 이용해 모델링 결과를 사용자 작업파일과 서버상의 파일을 이용해 간단히 배포할 수 있음.

수행준거

고려사항

- 분석 모형 적용에 따른 기존 업무 프로세스 영향도와 개선 기회 분석 가능
- 식별된 기존 업무( 비즈니스)프로세스 영향도와 개선 기회를 바탕으로 목표업무(비즈니스) 프로세스 설계와 문서화 가능
- 분석 모형의 운영환경 적용을 위한 다양한 방법들의 특징 - 장단점 비교 분석 가능
- 비교 -분석 결과를 기준으로 분석모형 적용 기법(방법)선정가능
- 선정된 기법(방법)으로 분석모형을 실제 운영환경에 적용가능

- 최종 모델링 결과를실제 운영 정보 시스템에 적용하는 단게로 상용 또는 오픈소스 도구의 활용 또는 자체 개발 고려 가능
- 모델 적용 자동화 및 모델 갱신 자동화를 고려할 수 있으나 전용 (상용 또는 오픈소스) 도구에서 해당기능 제공시에만 적용하는 것이 타당-적용하는 것으로 결정할 경우 적용 대상 데이터 의 볼륨과 처리속도를 고려해야함.
-시뮬레이션은 모델 적용을 위한 프로세스와 업무규칙이 문서화되고 이해관계자 간 공유돼야함.
-최적화는 최적화 솔루션의 결과를 시스템과 인터페이스 할 수 있도록 데이터베이스 연동프로그램을 개발해야함.

나. 주기적 리모델링

- 비즈니스 상황 변화나 분석결과 적용에 따른 주변 요인들, 분석결과 적용 시 고객의 행동패턴 변화 등은 자연스러운 성과 (부정적x)로 이런 변화에 시스템이 대응 가능해야함.

- 성과 모니터링이 지속적이어야 하고 일정수준 이상의 편차가 지속적으로 하락하는 경우 리모델링을 주기적으로 수해야 함.

- 일번적으로 주기적 리모델링은 분기, 반기, 연 단위로 수행

* 데이터 마이닝 : 평균 분기별로 수행하는 것이 적합

* 시뮬레이션 :주요 변경이 이뤄지는 시점과 반기 정도가 적합

* 최적화 : 1년에 1번 정도가 적합

-리모델링시 수행하는 업무

* 데이터 마이닝 : 동일 데이터를 이용해 다시 학습하는 방법 변수 추가로 학습하는 방법

* 시뮬레이션 : 이벤트 발생 패턴 변화, 시간지연(delay) 변화, 이벤트 처리하는 리소스 증가, Queuing Priority, Resource Allocation Rule 변화 등 처리

* 최적화 : Object Fuction 의 계수 변경, Constraint에 사용하는 제약값 변화와 추가

수행 준거

고려 사항

- 분기-반기-연 단위로 정기적인 분석 모형 재평가 실시 성능 편차 발생을 분석-식별 할 수 있어야함.
- 업무 IT 환경에 주요 변화 발생 시, 분석 모형 재평가 실시하고 성능 편차 발생을 분석-식별할 수 있어야함.
- 정기-비정기 분석 모형 재평가 결과에 기반해 모형 조정 및 개선 작업 수행, 분석모형 전면 재구축 위한 독립 프로젝트 계획 수립해 추진 가능

-데이터마이닝, 최적화 모델링 결과를 정기적으로 (분기, 반기, 연) 재평가해 결과에 따라 필요시 분석 모형 재조정
- 데이터 마이닝은 최신데이터 적용이나 변수 추가방식으로 분석모형 재조정 가능
-시뮬레이션은 업무 프로세스 KPI의 변경, 주요시스템 원칙 변경, 발생 이벤트 건수 증가에 따라 성능 평가 및 필요시 재조정
- 최적화는 조건 변화나 가중치 변화시 계수 값 조정 또는 제약 조건 추가로 재조정 가능
- 업무특성에 따라 차이가 있으나 일반적으로 초기에는 모형 재조정을 자주 수행, 점진적으로 그 주기 길게 설정 가능
- 관리 대상 모델이 월 20개 이상이거나 기타 업무와 병행해서 수행해야하는 경우 도구를 통한 업무 자동화 권고

저작자표시 비영리 변경금지

'AI 관련 > ADsP, ADP' 카테고리의 다른 글

ADSP 요약정리 - 1장 데이터 분석 개요 -분석환경 이해와 기본 사용법 (0)	2021.09.30
ADSP 요약정리 - 1장 데이터 분석 개요 - 데이터 분석 기법의 이해 (0)	2021.09.29
ADSP 요약정리 - 2장 분석 마스터 플랜 - 분석 거버넌스 체계 (0)	2021.09.28
ADSP 요약정리 - 2장 분석 마스터 플랜 - 마스터 플랜 수집 (0)	2021.09.27
ADSP 요약정리 - 1장 분석과제 정의 - 분석활용 시나리오정의-정의서 작성-분석적용 시 고려요소 (0)	2021.09.27

업무스킬 이야기

ADSP 요약정리 - 1장 데이터 분석 개요 - 데이터 분석 프로세스

제 1절 데이터 분석 프로세스

1. 요건정의

가. 분석 요건 도출

나. 수행방안 설계

다. 요건 확정

2. 모델링

가. 모델링 마트 설계와 구축

나. 탐색적 분석과 유의변수 도출

다. 모델링

라. 모델링 성능 평가

3. 검증 및 테스트

가. 운영상황에서 실제 테스트

나. 비즈니스 영향도 평가

4. 적용

가. 운영시스템에 적용과 자동화

나. 주기적 리모델링

'AI 관련 > ADsP, ADP' 카테고리의 다른 글

댓글

티스토리툴바

ADSP 요약정리 - 1장 데이터 분석 개요 - 데이터 분석 프로세스

제 1절 데이터 분석 프로세스

1. 요건정의

가. 분석 요건 도출

나. 수행방안 설계

다. 요건 확정

2. 모델링

가. 모델링 마트 설계와 구축

나. 탐색적 분석과 유의변수 도출

다. 모델링

라. 모델링 성능 평가

3. 검증 및 테스트

가. 운영상황에서 실제 테스트

나. 비즈니스 영향도 평가

4. 적용

가. 운영시스템에 적용과 자동화

나. 주기적 리모델링

'AI 관련 > ADsP, ADP' 카테고리의 다른 글

관련글

댓글

티스토리툴바