본문 바로가기
AI 관련/ADsP, ADP

ADSP 요약정리 - 1장 데이터 분석 개요 - 데이터 분석 프로세스

by 팀장일기 2021. 9. 29.

제 1절 데이터 분석 프로세스 

 1. 요건정의

   - 분석요건을 구체적으로 도출-선별-결정하고, 분석과정을 설계하고, 구체적인 내용을 실무담당자와 협의하는 업무

   - 광범위하고 다양한 정보를 다루고 문서화 작업의 비중이 높음

   - 전체 프로세스 중에서 가장 중요한 부분으로, 빅데이터 분석업무의 성패 좌우 

 

  가. 분석 요건 도출

   - 요건은 비즈니스 이슈로부터 도출

    * 이슈 :업무를 수행하는 데 있어 수익 증가, 비용증가, 상황변화, 처리속도 지연 등을 발생시키는 항목 --> 전사적 측면에서 개선돼야할 사항 

    * 단순 불편 사항이나 불만사항을 요건으로 정의하면 비즈니스적 의미가 낮아지고 분석경과 보고나 실행의 타당성 잃을 가능성 높음 

   - 다양한 이슈에서 진정한 요건이 될 수 있는 항목 선정하는 것 매우 중요 

   - 분석요건 도출 단계는 기획단계와 유사하지만 상세하게 접근하고 실무 측면으로 진행해야함. 

   - 분석요건의 조건은 문제를 해결했을 때 투자수익(ROI)을 증명 가능해야 함. 

   - 요건정의 단계

    * 상세한 분석보다 문헌조사 및 이해와 간단한 기초분석 수행 

     - 요건으로 제시된 내용에 대한사실 확인 및 통찰 도출로 방향성 설정에 필요한 수준 

     - 요건정의에 많은 시간 할당하면 전체 업무진행에 차질

     - 전문가의 방향성 제시와 이해관계자들 간의 합의가 중요 

 

   - 기획단계 요건정의

    * 캠페인 반응율을 개선해야한다. 수준이나 재구매 유도 캠페인을 개선-강화해야한다. 

 

   - 데이터마이닝 단계 요건정의

    * 캠페인 반응을 개선을 통한 CRM업무 효율성 증대, 캠페인 채널 비용 절감, 캠페인 대상 20% 증대 방안 정도 

   - 분석단계 요건 정의 

    * 재구매 유도 캠페인의 대상 고객 20%확대 방안에 대해 전체 고객구성 상황, 현재 재구매 캠페인 대상, 캠페인별 대상이 어떻게 정의되고 변경되는지, 성과는 어떤지, 미흡한점, 어디서 재구매 대상 늘리고 이에 대한 비용은 어디서 보충할 것인지 등 정의

   - 요건 

    * 데이터마이닝의 요건 : 캠페인 반응을 개선을 통한 업무 효율성 또는 비용절감 

    * 시뮬레이션 요건 : 의약품 분리장비 추가도입에 따른 업무시간 및 재무효과의 변화 검토 

    * 최적화 : 병원의 간호사 배치에 대한 진료과별 최적 할당. 근무 시간표 최적할당 등 

   - 요건에 대한 현재의 이슈와 실상은 무엇인지, 어떻게 개선할지, 어느 정도 개선가능한지 등을 보완자료로 추가 

수행준거 고려사항
- 데이터 분석 업무의 배경, 주요이슈, 기대효과, 제약사항 파악 가능 
-이해관계자들과 의사소통을 통해 데이터 분석요건 식별 가능 
-식별된 데이터 분석요건을 현업의 문서를 수집해 일부 수행함으로써 기획단계에서 간과할 수 있는 사항을 상세화 구체화 가능 
-상세화 구체화한 데이터 분석요건 명세화 가능 
-종합적으로 분석 요건의 적합성 평가가 가능해야함. 
-IEEE에서 정의한 요구공학 프로세스를 고려
 -요구사항 추출, 분석,명세,검증,유지보수 등
-IIBA에서 식별한 일반적으로 인정된 욕사항 도출 테크닉 고려 
 -브레인스토밍, 기존문서검토, 외부 인터페이스 분석, 집중 집단 인터뷰, 관찰 또는 직무체험, 요구사항 도출 워크숍, 인터뷰, 설문 등 
- 개별 분석 요건에 대한 지나친 상세화 보다 기존 분석 자료와 정보를 기반으로 분석요건 항목들을 누락 없이 식별하는 것에 집중
- 분석요건 분석과정에서 더 구체화되고 수정되는 것이 타당
- 데이터 분석 업무 이해 당사자들과의 긴밀한 커뮤니케이션이 필수적
- 데이터 분석 기대 효과에 대한 명확한 사전 정의와 협의가 필수적
- 개인정보 보호, 접근 통제 등 정보 보안정책과 충돌 할 수도 있기 때문에 이에 대한 사전 확인- 협의가 필수적 

 

  나. 수행방안 설계 

   - 정의한 분석요건에 따라 구체적인 수행방안 설계 

   - 분석을 구체적으로 수행하기 위해서 간단한 탐색적 분석을 수행하며 미리 가설을 수립해 어떤 분석을 수행할지 틀을 잡아야 함. 

    * 분석요건이 정해졌다고 수행방안이 확정되는것은 아님

    * 절차와 방안을 수립해야 하는 이유 

     - 탐색적 분석을 하며 분석자체가 의미없다는 것을 미리 파악할수 있는기회를 얻을수 있음 => 자원과 비용, 시간낭비 방지 가능 

     - 미리 가설을 수립해 수행방안을 설계하지 않고 진행하면 분석 필수항목과 선택항목, 일정, 필요한 자원의 양 등 계획수립이 어려워짐 => 품직이나 납기 준수 어려워짐

    * 반드시 선험적 지식을 통해 수행방안을 구체적으로 설계해야함. 

   - 반드시 분석기법을 정의하고 진행해야 하며 결정시 해당 분석기법에 대한 전문지식을 갖춘 인력이 참가해 검토해야함. 

    * 다양한 분석기법을 이해한 전문가가 적합한 분석기법을 다양한 측면에서 검토해 가장 적합한 방법 제시할 수 있어야 함.

   - 빅데이터 기획단계에서는 전체 로드맵과 선행 및 후행 과제만 정의됨 

    * 수행방안의 최종 산출물 : 분석계획서와 WBS(Work Nrekdown Stucture)

     -일(Day) 단위 ,상위 기획단계에서 미처 고려못한 구체적 업무와 자원, 선행관계 등의 충돌로 일정이 부족할 수 있음. 

     - 분석계획서 : 핵심적 분석항목과 구체적 분석범위를 지정해 분석범위를 명확히 하고 관련 업무와의 선-후행 관계를 검토하기 위해 이에 대한 WBS를 일단위로 작성 

 

<분석수행 관리를 위한 WBS 예시> 

WBS 예시

   -WBS 작성시 우선 Forward 방식으로 전개를 해보고 납기를 만족시킬수 있는지 확인 

    * 납기 초과할 경우 납기기준으로 Backward 전개해 언제 특정업무를 시작해야하는지 파악

     -자원추가, 일정조절 등 요건 조절로 일정상 충돌 해결 

   - 인력이 인프라 기술과 분석기술 양 업무를 동시에 수행하는 것은 피해야 하며 기술인력은 특정기간에 제한적으로 필요한 경우가 많으므로 해당 시점에만 투입할 수도 있음. 

   - 동일업무에 대해 기술 담당자와 분석 담당자 누가 해야 할지에 대해서는 처리속도 및 IT 자원의 효율적 활용이라는 기준에서 결정해야 함. 

     * 수백 TB데이터는 Hive 등에서 처리 요약해 1TB이하로 만든 다음 R에서 처리가 적합. 

수행준거 고려사항
- 권한 및 계정을 확보해 DB 접근 환경 구축 가능 
- 분석 대상 데이터의 존재 여부와 품질 확인 가능 
- 간단한 기초분석을 통해 분석수행 타당성 확인 
- 분석기법, 수행단계 및 절차, 인도 산출물, 주요일정, 수행 인력을 식별하고 구성해 분석방법론 구축 가능
- 구축된 분석 방법론을 기반으로 분석 프로젝트 수행계획 수립가능 
- 분석수행 방법론 구축 시 프로젝트 관련 지식 체계를 참조 및 활용 
 - 프로젝트 통합관리, 범위관리, 시간관리, 비용관리, 품질관리, 인력관리,의사소통관리, 위험관리, 조달관리, 이해당사자 관리
- 분석 프로젝트에는 일정계획, 수행 조직 및 역할 책임, 표준인도 산출물, 품질 관리 계획 , 위험관리계획, 의사소통 계획 등이 포함될 수 있음. 
- 필수 분석 항목과 선택 분석 항목을 사전에 구분해 우선순위를 부여하고 우선순위가 높은 필수 분석항목들이 작업 대상에서 누락되지않도록 함. 
- 예상 결과가 나오지 않을 경우 대안적 접근 방안으로 분석 항목ㄷㄹ 추가식별 간ㅇ 
- 데이터 오류 또는 분석 수행 오류등으로 인한 재작 업 시간을 분석 일정에 반영 
- 데이터 오류 및 시스템성능 부족 현상 발생 등 관련 위험들 사전 식별하고 대응 방안 수립

 

  다. 요건 확정

   - 요건도출과 분석계획을 수립하면 어떻게 요건에 접근하고 어떤 정량-정성적 효과 나올지 기획안이 나옴

     * 이를 통해 분석 요청 부서와 IT 부서, 기타 연관 부서와 공유해 최종 요건 확정

   -대론 기획단계에서 나온 분석 과제가 기각 될수도 있음. 

    * 자세한 현황과 내용을 정의하는 과정에서 대론 기획 단계의 오류 발견 가능 

    * 사전에 충분히 소통하지 않을 경우 요건 확정이 어려우므로 사전에 지속적으로 대화-조율하며 요건 확정

     - 분석은 복잡성과 전문성이 필요해 짧은 시간안에 상대방으로부터 이해 구하기 어려움

    * 한번 확정된 요건을 종료(Closing)해 이후 변경하는 일이 없도록 해야 함. 

     -확정된 요건이 바뀌기 시작하면 다시 반복 작업으로 시간 보낼 수 있으므로 요건을 명확히 처리 - 결정 

    * 실무에서 모델링 과정 중 요건이 변경되는 일은 빈번히 발생.프로젝트 완료일을 준수할 수 있는 범위에서 조율 

수행준거 고려사항
-상세화 구체화 명세화한 데이터 분석요건 항목을 기준으로 추진 의미가 있는지 최종 결정 
- 이해 관계자들에게 설명할 수 있음 
- 공식 변경 관리를 통해 데이터 분석요건 항목들 변경 가능 
- 분석 요건에 대한 적합성 -타당성-일정계획에서의 제약을 종합해 업무범위 조정 가능
- 확정 데잍터 분석요건 항목들을 변경 이력 및 추적성을 확보해 현행화 가능 
- 데이터 분석요건을 문서화해 이해 관계자들 간 공식적으로 확정 가능 
- ㄷ이터 분석요건 변경은 반드시 공식 변경관리 절차에 따라 이뤄져야함. 
- 데이터 분석요건은 특정 이해관계자의 의견위주로 확정하기보다 참여자들의 다양한 시각과 의견이 폭 넓게 수집-수렴 고려해 확장
- 이해관계자들 간의 의견 불일치를 최소화하고 만약 의견 대립시 이를 적극 조율
- 요건 확정 이후에 데이터 분석요건 변경은 전체 프로젝트에 큰 영향(대부분 부정적)을 미치므로 모든 이해관계자들의 공감대 아래 진행 

 2. 모델링

   - 요건정의에 따라 상세 분석기법을 적용해 모델을 개발하는 과정 

    * 모델링을 거치면 필요한 입력데이터에 대한 처리가 매우 용이해짐

    * 시뮬레이션이나 최적화에서 필요한 자료가 빅데이터 분석 시스템에 이미 존재할 가능성이 높음

    * 최적화에서도 제약조건에 해당하는 값이 실제 어떠했는지 시스템에 존재

   - 가정이나 인터뷰해 값을 구할 일이 없어져 모델링 시 데이터 획득 및 검증에 소요되는 시간 크게 감소 

   - 모델링은 해당기법에 대한 전문 지식이 필요 

 

  가. 모델링 마트 설계와 구축 

   - 어떤 모델링 기법을 사용하든 모델링을 위한 데이터를 준비해 시스템에 체계적으로 준비해 놓으면 모델링 용이해짐 

    * 모델링 도구에 따라 DBMS 에서 직접 값을 가져와 반영할 수 잇는 기능도 제공 

   -모델링 진행 전에 필요한 데이터의 마트를 설계해 비정규화(De-normalized) 상태로 처리하면 사용이 편리

    * 데이터마이닝에서 지도학습 (Supervised Learning)은 모델링 마트를 직접 이용해 모델 개발 가능 

수행준거 고려사항
- 다양한 원천 데이터로부터 분석 대상 데이터 획득 가능
- 분석대상 데이터를 담색- 정제-요약 등 전처리해 변수들 식별 가능 
- 분석 대상 데이터를 구조화하는 모델 마트 설계 가능 
- 전처리한 분석 대상 데이터를 적재해 모델 마트 구축 가능 
- 데이터 원천은 관게형 DB, 데이터 웨어하우스, 시스템 로그, 비정형 데이터 등 다양한 형태로 존재 가능
- 분석 대상 데이터(변수)는 연속형과 범주형으로 구분 가능
- 연속형 : 주어진 범위 내 연속되는 실수로 구성 
- 범주형 : 수치형과 텍스트형으로 구분, 명목형과 순위형 변수로 구분 
- 재활용성이 높은 모델 마트 설계- 구축을 위해 원천 데이터에 대한 명확한 이해가 선행되어야 함.
- 기존 정보시스템 내의 데이터를 최대한 활용-확장하는 접근을 하며 신중히 채택된 가설 기반으로 마트를 설계해 작업 효율성 최대화.
- 데이터 획득 ㅜ정 확정이 지연될 우려가 크므로 계획된 시간 내에 데이터 획득과 확정을 강제해 현실적인 작업 수행 유도 
- 데이터 정제 시 1단계(데이터요약), 2단계(파생변수 도출), 3단계(변수확대)의 단계별 접근 기법 권고 

 

 나. 탐색적 분석과 유의변수 도출 

   - 데이터 마이닝에 해당하는 업무로 해당 비즈니스 이해와 분석요건에 대한 구체적 팩트를 발견해 통찰을 얻기 위해 수행하는 업무, EDA(탐구 데이터분석, Exploratory data analysis)

    * EDA는 시간이 많이 필요한 일로 최근에는 EDA를 자동으로 신속하게 수행해 유의미한 값만 파악해 데이터 마트로 만든 후 모델링 업무로 진행하는게 일반적 

   - 유의미한 변수를 파악하는 방안

    * 목표값 (target value)별로 해당 변수가 분포된 값을 보고 해당 변수의 구간에서 차이가  큰지 파악 --> 구간 존재하면 유의미한 변수임을 시각적으로 알아볼 수 있음. 

     - 이 단계와 최종 분석결과를 산출해 결과를 공유하는 단계는 시각화가 매우 중요한 역할 -->전문적 지식이 없는 사람들의 이해를 도울 수 있음 (효율적 정보 제시, 전문적 시각화x) 

   - 시각화로 정보 제시 시 유의할 점 

    * 모양보다 팩트와 통찰을 전달할 수 있는 것에 중점 --> 단순 그래프 출력 지양 

    * 시각화와 제시하고자 하는 정보의 차이 존재 

     - 추세변화, 비교에 적합한 그래프 형식 선택은 필수적, 불필요한 스케일 조절은 지양 

수행준거 고려사항
- 분석 목적과 요건, 데이터 특성을 기반으로 적합한 데이터 분석기법 선정 가능 
- 선정된 데이터 분석기법을 기준으로 분석모형 설계 가능 
- 설계한 분석모형을 기준으로 유의성을 분석해 높은유의성을 보유한 변수들 식별가능 
-높은 유의성을 보유한 최소한의 변수들로 모형 구축 가능
-분석모형 설계구축 시에는 해당 모형의 학습 ,평가, 검증을 통해 최적 모형을 선정 및 적용하기 위해 하나 이상의 모형을 준비하는것이 타당
-탐색적 분석을 통해 준비된 데이터의 가설 적합성과 충분성을 사전 검증해야함. 
-변수의 유의성 검증 후 유의성이 높은 최소한의 변수들로 분석모형을 검증할 것을 권장
-시뮬레이션을 통해 기 수립된 분석 모형의 타당성과 적합성을 판단해 반복적으로 보정
-최소한 시간에 탐색적 분석을 완료하는 것이 성공적 분석의 관건으로 단위 분석에 대한 예상 소요 시간을 추정해 필요시 샘플링 권고
-탐색적 분석과 유의변수 도출 과정에서 정보의 부족함 식별 시 신속하게 추가변수를 개발해 데이터마트에 반영

 

  다. 모델링

   -개념적인 모델링도 있지만 결국 이를 구현해 적용 가능해야 함. 

    * 전체 내용을 제대로 제시하려면 특정 도구를 사용해야 함. 

    *SQL은 차이가 거의없고 표준이라 할 수 있는 ANSI SQL이 있으나 주요 DBMS  공급사들은 자사 특성에 따라 다양한 기능을 추가-제시해 ANSI SQL로 활용 및 적용에 대한 정보를 제시할 수 있는 것은 매우 제한적 

   --> SQL의 경우도 특정 공급사의 SQL을 이용해 제시함으로써 이해 및 실습과 적용에 도움을 줄 수 있음. 

   * 가장 광범위하게 사용되고 학습을 위해 획득이 용이한 DBMS를 선택해야 함. 

   -데이터 마이닝, 시뮬레이션, 최적화별로 산업에서 시장 점유율이 높은 분석도구들이 다양하게 있고 일부는 데이터 마이닝 도구에서 시뮬레이션이나 최적화를 지원하기도 함. ex) R

    * R : 오픈소스, 데이터 입수 및 변화, 분석용 마트 생성, 기초통계 및 다양한 분야의 시각화, 시뮬레이션, 최적화 지원 

    * 시뮬레이션은 매우 전문적인 불연속(discete) 시뮬레이션 모델이 가장 많이 사용됨 

수행 준거 고려사항
-다양한 모델링 기법을 능숙하게 다뤄 업무 특성에 적합한 기법을 선택하거나 모델링 기법을 결합해 적용할 수 있어야 함. 
-선택된 모델링 기법을 이용해 모델링
-미래값을 예측하는데 프로세스적인 측면이 없으면 데이터 마이닝 모델링을 수행
-프로세스 및 자원에 대한 제약이 있고 입력값이 확률분포를 갖는 경우 시뮬레이션 기법 선택
- 프로세스 및 자원에 대한 제약이 있고 입력값이 확률분포를 갖는 경우 시뮬레이션 기법 선택 
- 프로세스 및 자원에 대한 제약이 있ㄱ 상수값을 가질 때는 최적화 기법 사용 
- 경우에 따라 시뮬레이션과 최적화를 결합해 접근 가능 
-데이터마이닝 모델링은 통계적 모델링이 아니므로 지나친 통계적 가설이나 유의성에 집착하지 말아야 함. 
- 충분한 시간이 있으면 다양한 옵션을 줘서 시도하며 일정 성과가 나오면 해석과 활용 단계로 진행 할 수 있도록 의사결정해야함. 
- 분석 데이터를 훈련 및 테스트 데이털 6:4, 7:3, 8:2 비율로 상황에 맞게 실시
-훈련 및 테스트 성능에 큰 편차가 없고 에상 성능을 만족하면 중단. 
-과도한 성능에 대한 집착으로 분석 모델링의 주목적이 실무 적용에 있음을 간과하고 시간을 낭비하면 후속 검증 및 적용에 지연발생 가능 

 

   라. 모델링 성능 평가 

   - 모델링 성능을 평가하는 기준은 분석 기법별로 다양 

   - 데이터마이닝은 정확도, 정밀도, 디텍트 레이트(detect rate), 리프트(lift) 등 값으로 판단

   - 시뮬레이션에서는 Throughput, Average Waiting Time, Average Queue Length, Time in System 등의 지표 활용

   - 최적화에서는 최적화 이전 Object Function Value와 최적화 이후의 값의 차이를 구해 평가  

수행준거 고려사항
- 분석 모형 적합성 판단 기준 수립 가능 
- 분석 모형별 합습용 데이터 집합 구축 가능 
- 구축된 학습용 데이터로 분석모형 조정가능 
- 학습용 데이터를 활용해 조정한 분석 모형에 검증 데이터를 적용해  학습용 데이터 기반 결과와 검증용 데이터 기반 결과를 비교-분석 가능 
- 검증 결과에 따라 필요시 분석 모형과 데이터 (항목, 건수)를 조정해 최적화 가능 
- 선정된 기법(방법)으로 분석 모형을 실제 운영환경에 적용할 수 있으며 오픈 소스 R을 이용할 때는 샤이니(Shiny)를 이용해 배포 가능 
- 업무 특성에 따라 다양한 모델링  기법을 선택하거나 결합해 적용 가능해야 함. 
- 미래 값을 예측하는 데프로세스적 측면이 없으면 데이터 마이닝 모델링 수행 
- 프로세스 및 자원에 대한 제약이 있고 입력 값이 확률 분포를 가지면 시뮬레이션 기법 선택 
- 프로세스 및 자원에 대한 제약이 있고 상수값을  갖는 경우는 최적화 기법 사용 
- 경우에 따라 시뮬레이션과 최적화를 결합해 접근 가능
- 데이터마이닝 모델링은 통계적 모델링이 아니므로 지나친 통계적 가설이나 유의성에 집착하지 말아야 함. 
- 다양한 옵션에 대한 시도는 충분한 시간이 있으면 실시하며 일정 성과가 나오면 해석 및 활용적 측면 단계로 옮겨가야 함.
- 훈련 및 테스트 데이터의 비중은 6:4, 7:3, 8:2 비율로 프로젝트 수행 경험에 비춰 최적의 조합으로 구성해 수행할 것 권고
- 훈련 및 테스트 성능에 큰 편차가 없고 예상 성능을 만족하는 시점ㅇ 작업 완료 가능 
- 성능에 대한 과도한 집착으로 인해 분석 모델링의 실무 적용이라는 핵심 목적이 간과되고 후속 검증 및 적용에 지연이 발생 가능함을 염두 

 

 3. 검증 및 테스트 

  가. 운영상황에서 실제 테스트 

   - 업무 프로세스에 가상으로 적용해 검증, 분석과 운영 간연계 검증 및 전체적인 흐름을 통합적으로 시험 하는 과정 

수행준거 고려사항
- 구축 및 조정된 분석 모형을 테스트 하기 위한 유사 운영환경 구축
- 분석 모형을 테스트하기 위한 절차설계 
- 설계된 절차에 따라 테스트하고, 결과 분석
- 테스트 결과를 기반으로 분석 모형을 조정해 반복 테스트 
- 최종 테스트 결과를 기분으로 실제 운영환경 적용 여부를 판단 가능 
- 모형의 유형에 따라 과적합화(overfitting)가 발생할 수 있음
- 실제 운영환경 성능 테스트는 사전 시나리오를 따라 1주일 정도 실시 
- 일 단위 측정이 가능한 경우, 1주간의 성능이 일관됨을 확인 할 것.
- 결과는 일 단위로 공유해 실무적용의 객관성 유지
- 조직변화관리와 병행
- 성능 테스트는 최소 3회 이상, 테스트 기간은 최소 1주이상 
- 외부 이해관계의 개입을 최소화 또는 차단해, 결과 왜곡 방지

  나. 비즈니스 영향도 평가 

   - 분석 결과의 정확성을 높여 만족도 개선 -추가 수익 창출 등 비즈니스 영향도와 효과를 산출 할 수 있어야 함. 테스트를 통해 나온 최종 결과를 기반으로 정량적 효과 도출 가능

수행준거 고려사항
- 모델링 성과에서의 검출률(Detection rate)이 증가하거나 Lift가 개선 돼 발생하는 정량적 효과 제시
- 타 모델링과의 중복에 따른 효과를 통제 - 제시 할 수 있어야 함. 
- 기대효과는 수익과 투자대비효과 (ROI, Return on Investment)로 제시 
-투자대비 효과 정량화 기법 : 총 소유비용 (TCO, Total Cost of Ownership), 투자대비효과 (ROI), 순 현재가치 (NPV, Net Present Value), 내부수익률 (IRR, Internal Rate of Return), 투자회수기간 (PP, Payback Period)

- 데이터 마이닝 모델링에서는 Detection rate 이 증가하거나 Lift 개선되 발생되는 정량적 효과 제시 
- 시뮬레이션에서는 처리량, 대기시간, 대기행렬의 감소를 통한 정량적 효과 제시 
- 최적화에서는 목적함수가 증가한 만큼의 정량적 효과 제시 

 

 4. 적용 

   - 분석결과를 업무 프로세스에 완전히 통합해 실제 일-주-월 단위로 운영하는 것 

   - 분석 시스템과 연계돼 사용될 수 있고 별도 코드로 분리돼 기존 시스템 (legacy system)에 별도 개발해 운영 가능 

  가. 운영시스템에 적용과 자동화 

   - 운영 시스템에 적용해 운영하면 실시간 또는 배치 스케줄러(Batch Scheduler) 실행하고 주기별로 분석 모델의 성과가 예상했던 수준으로 나오고 있는지 모니터링 할 수 있도록 DBMS에 성과자료 누적하고 이상현상이 발생하면 자동으로 경고(Alert)하도록 함. 

   - 분석모델은 개발된 내용이 많아질수록 상시 파악이 자동으로 이뤄지고 이상 시에만 확인하도록 프로세스를 수립해놔야 분석업무를 다양한 분야에 적용하고 정교화를 계속해 지속적인 성과를 거둘 수 있음. 

 - R을 이용해 이 단계를 단순화 할 수 있으며 R studio에서 제공하는 샤이니 (Shiny)를 이용해 모델링 결과를 사용자 작업파일과 서버상의 파일을 이용해 간단히 배포할 수 있음.

수행준거 고려사항 
- 분석 모형 적용에 따른 기존 업무 프로세스 영향도와 개선 기회 분석 가능 
- 식별된 기존 업무( 비즈니스)프로세스 영향도와 개선 기회를 바탕으로 목표업무(비즈니스) 프로세스 설계와 문서화 가능 
- 분석 모형의 운영환경 적용을 위한 다양한 방법들의 특징 - 장단점  비교 분석 가능 
- 비교 -분석 결과를 기준으로 분석모형 적용 기법(방법)선정가능 
- 선정된 기법(방법)으로 분석모형을 실제 운영환경에 적용가능 
- 최종 모델링 결과를실제 운영 정보 시스템에 적용하는 단게로 상용 또는 오픈소스 도구의 활용 또는 자체 개발 고려 가능
- 모델 적용 자동화 및 모델 갱신 자동화를 고려할 수 있으나 전용 (상용 또는 오픈소스) 도구에서 해당기능 제공시에만 적용하는 것이 타당-적용하는 것으로 결정할 경우 적용 대상 데이터 의 볼륨과 처리속도를 고려해야함. 
-시뮬레이션은 모델 적용을 위한 프로세스와 업무규칙이 문서화되고 이해관계자 간 공유돼야함. 
-최적화는 최적화 솔루션의 결과를 시스템과 인터페이스 할 수 있도록 데이터베이스 연동프로그램을 개발해야함. 

 

  나. 주기적 리모델링

   - 비즈니스 상황 변화나 분석결과 적용에 따른 주변 요인들, 분석결과 적용 시 고객의 행동패턴 변화 등은 자연스러운 성과 (부정적x)로 이런 변화에 시스템이 대응 가능해야함. 

   - 성과 모니터링이 지속적이어야 하고 일정수준 이상의 편차가 지속적으로 하락하는 경우 리모델링을 주기적으로 수해야 함. 

   - 일번적으로 주기적 리모델링은 분기, 반기, 연 단위로 수행 

    * 데이터 마이닝 : 평균 분기별로 수행하는 것이 적합

    * 시뮬레이션 :주요 변경이 이뤄지는 시점과 반기 정도가 적합

    * 최적화 : 1년에 1번 정도가 적합

   -리모델링시 수행하는 업무

    * 데이터 마이닝 : 동일 데이터를 이용해 다시 학습하는 방법 변수 추가로 학습하는 방법

    * 시뮬레이션 : 이벤트 발생 패턴 변화, 시간지연(delay) 변화, 이벤트 처리하는 리소스 증가, Queuing Priority, Resource Allocation Rule 변화 등 처리 

    * 최적화 : Object Fuction 의 계수 변경, Constraint에 사용하는 제약값 변화와 추가

 

수행 준거 고려 사항
- 분기-반기-연 단위로 정기적인 분석 모형 재평가 실시 성능 편차 발생을 분석-식별 할 수 있어야함. 
- 업무 IT 환경에 주요 변화 발생 시, 분석 모형 재평가 실시하고 성능 편차 발생을 분석-식별할 수 있어야함. 
- 정기-비정기 분석 모형 재평가 결과에 기반해 모형 조정 및 개선 작업 수행, 분석모형 전면 재구축 위한 독립 프로젝트 계획 수립해 추진 가능 
-데이터마이닝, 최적화 모델링 결과를 정기적으로 (분기, 반기, 연) 재평가해 결과에 따라 필요시 분석 모형 재조정 
- 데이터 마이닝은 최신데이터 적용이나  변수 추가방식으로 분석모형 재조정 가능
-시뮬레이션은 업무 프로세스 KPI의 변경, 주요시스템 원칙 변경, 발생 이벤트 건수 증가에 따라 성능 평가 및 필요시 재조정
- 최적화는 조건 변화나 가중치 변화시 계수 값 조정 또는 제약 조건 추가로 재조정 가능
- 업무특성에 따라 차이가 있으나 일반적으로 초기에는 모형 재조정을 자주 수행, 점진적으로 그 주기 길게 설정 가능 
- 관리 대상 모델이 월 20개 이상이거나 기타 업무와 병행해서 수행해야하는 경우 도구를 통한 업무 자동화 권고

 

댓글