본문 바로가기
AI 관련/ADsP, ADP

ADSP 요약정리 - 1장 데이터 분석 개요 - 데이터 분석 기법의 이해

by 팀장일기 2021. 9. 29.

제 2절데이터 분석 기법의 이해

 1. 개요

   - 데이터 분석에 대한 정의는 매우 다양하고 수준과 복잡성, 목적도 다름

   - 분석은 일반적으로 조회와 고급분석으로 양분되며 고급분석은 20개 이상의 변수와 수천건 이상의 데이터를 이용해 인사이트를 얻거나 의사결정을 하는데 직접 사용됨

 

 2. 기초 지식과 소양

   - 평균과 분산에 대한 이해를 토대로 집단 간 평균과 분산의 차이, 상관관계, 독립/종속 변수를 이용한 회귀분석 이해, R Square와 p값에 대한 이해, 클러스터링 (clustering) 

   - 진정 필요한 추가 지식은 다양한 산업에 대한 이해 

    * 상식수준에서 벗어난 해당 업계신입사원 수준의 산업분야 이해가 필요 

   - 평상시 관심을 갖고 업무와 관련지어 조금씩 늘 학습할 것 추천 

 

 3. 데이터 처리 

   - 분석을 위해 분석방법에 맞게 데이터를 수집-변형하는 과정이 필요하고 때론 잘 정리된 데이터 마트(data mart)가 필요 

   - 신규 시스템이나 DW(data warehouse)에 포함되지 못한 자료가 있으면 기존 운영시스템 (Legacy) 에서 직접 가져오거나 ODS(Operational Data Sare)에서 운영 시스템과 거의 유사한 정제된 데이터를가져와 DW에서 가져온 내용과 결합(데이터 수집과정)

- 문서를 받고 데이터를 처리하는 과정에 분석자가 충분히 관여해야함. 

- 데이터 입수과정이 완료되면 최종 데이터 구조로 가공하는 과정을 거치며 이는 분석기법에 의존 

    * 원하는 데이터 형태로 가공하는 과정은 분석결과의 품질과 성능에 크게 영향을 미쳐 분석가가 많은 노력을 해야하는 단계

   - 비정형 데이터는 적합한 DBMS에 저장됐다가 텍스트 마이닝을 거쳐 데이터 마트와 통합

   - 관계형 데이터는 DBMS에 저장돼 사회 신경망 분석을 거쳐 분석결과 통계값이 마트와 통합되 다른 분석기법과 연계 활용됨

   - 데이터 처리과정에 가장 좋은 방법은 원시모형(prototype)을 만드는 것이며 분석의 질이 중요해도 데이터 처리를 제대로  거치지 않으면 분석 자체의 의미가 사라짐 

    * 데이터 처리와 분석은 트레이드오프 관계

   - 데이터를 분석도구보다 DBMS에 메모리와 CPU를 더 많이 할당한 경우가 많으므로 DBMS에서 1차처리해 분석도구로 가져오는 것이 현실적 

   - 데이터 처리에서 성능 튜닝은 주기적이어야지 매번 시도하면 끝이없음 (분석이 우선) 

 

 4. 시각화 

   - 가장 낮은 수준의 분석이지만 잘 사용하면 복잡한 분석보다도 더 효율적 

    * 대용량 데이터를 다루는 빅데이터 분석에서는 시각화의 활용률이 높음 

    * 탐색적 분석을 할 때 시각화는 거의 필수적 

 

 5. 공간분석 

   - 낮은 수준의 분석

   - 공간적 자원과 관련된 속성들을 시각화해 추가한 것 

     * 지도 위에 관련 속성 생성, 크기, 모양, 선 굵기 등으로 구분하면 노출도 향상되고 이를 통해 인사이트 얻을 수 있음. 

 

 6. 탐색적 분석 

   - 하나하나 탐색하면서 분석하는 방식 

    * 다양한 차원과 값을 조합해가며 특이한 점이나 의미있는 사실을 도출하고 분석의 최종 목적을 달성해 가는 과정 

    * 매우 많은 시간과 자원이 필요하다고 해결하려는 분야에 대한 지식, 사실을 확보하는 단계 

   - 일정 가설과 시나리오를 갖고 제한적인 범위에서 주어진 목적을 달성 가능하도록 조절

   - 효율적인 탐색적 분석을 위해 의미 있을 것 같은 변수 집단과 아닌 집단을 1차 구분하고 그래도 변수가 많으면 우선순위 2단계로 의미있을 1차 집단 우선수행, 의미없을 것 같은 변수 5개 정도 선별해 확인

   - 선별된 차원과 값들에 대해 자동으로 탐색적 분석 결과를 테이블과 그래프로 산출하는 스크립트를 실행해 의미 있는 내용을 걸러줄 수 이쓴 자동화 방법 필요 

   - 탐색적 분석 마친 후 분석 시나리오 만들어야 함. 

    * 무슨 기법으로 어떤 것을 분석해 목적을 달성할 것인지 결정하는 단계 

    * 상세하고 현실적인 WBS(Work Breakdown Structure) 나옴 

 

 7. 통계 분석 

   - 샘플이 충분히크기 때문에 빅데이터 분석하는데 모집단과 샘플은 고려대상 아님 

    * 모집단의 속성과 샘플링 결과가 일치하는지 주요변수에 대해 반드시 확인

 

  8. 데이터 마이닝

   - 대표적 고급분석, 데이터에 있는 패턴을 파악해 예측하는 분석 

    * 상황분류, 집단간 차이를 갖고 클러스터링해 구분, 이전값들의 패턴으로 미래 값 예측, 입력변수와 종속변수 관계 이용해  미래 값 에측, 동시 발생 이벤트와 시차 갖고 발생하는 이벤트 이용해 어떤 이벤트 발생할지 파악 등 

   - 데이터가 크고 정보가 다양할수록 보다 활용하기 유리한 최신 기법

 

 9. 시뮬레이션 

   - 복잡한 실제상황을 단순화해 컴퓨터상의 모델로 만들어 재현하거나 변경함으로 현상을 보다 잘 이해하고 미래의 변화에 따른 결과를 예측하는데 사용하는 고급분석 기법

   - 시뮬레이션 기법과 최적화 기법이 결합되면서 규칙이나 조건을 정교화해 효과 높임

 

 10. 최적화 

   - 오랜 역사 가진 고급 분석기법으로 목적함수 감ㅅ의 최대화/최소화를 목표로 함. 

    * 제약조건 하에서 목표값을 개선하는 방식으로 목적함수와 제약조건을 정의해 문제 해결 

 

 11. 배포 및 운영

   - 사용자가 개발된 데이터와 모델을 이용해 활용하는 환경도 구축해야함. 

    * 분석 및 마이닝 모델에 직접 접근해 데이터를 조회하고 마이닝 결과를 적용해 결과를 조회할 수 있는 인터랙티브한 환경개발 (R Studio shiny)

 

 

댓글