본문 바로가기
AI 관련/ADsP, ADP

ADsP 2과목 공부 _1

by 팀장일기 2021. 5. 6.

■데이터 거버넌스 체계

데이터 거버넌스 체계

◇데이터 표준화 

: 데이터 표준 용어 설명. 명명 규칙 수립. 메타데이터 구축 데이터 사전 구축 등의 업무로 구성됨 

 

◇데이터 관리 체계 

: 데이터 정합성 및 활용의 효율성을 위하여 표준 데이터를 포함한 메타 데이터와 데이터 사전의 관리 원칙을 수립함. 수립된 원칙에 근거하여 항목별 상세한 프로세스 만들고 관리와 운영을 위한 담당자 및 조직별 역할과 책임을 상세하게 준비함. 

 

◇데이터 저장소 관리

: 메타데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소를 구성함. 저장소는 데이터 관리 체계 지원을 위한 워크플로우 및 관리용 응용 소프트웨어를 지원하고 관리 대상 시스템과 인터페이스를 통한 통제가 이루어져야 함. 

 

◇표준화 활동

: 데이터 거버넌스 체계를 구축한 후 표준 준수 여부를 주기적으로 점검하고 모니터링을 실시함. 거버넌스의 조직 내 안정적 정착을 위한 계소적인 변화관리 및 주기적인 교육을 진행함. 

 

 

■데이터 거버넌스 체계 수립

-전차 차원의 모든 데이터에 대하여 정책 및 지침. 표준화. 운영조직 및 책임 등의 표준화된 관리 체계를 수립하고 운영을 위한 프레임워크  및 저장소를 구축하는 것. 

 

-중요 관리대상 : 마스터 데이터, 메타데이터, 데이터 사전 

 

■데이터 거버넌스 구성요소 

 

①원칙 

- 데이터를 유지  관리하기 위한 지침과 가이드

- 보안, 품질 기준, 변경관리 

 

②조직 

-데이터를 관리할 조직의 역할과 책임

-데이터 관리자. 데이터베이스 관리자. 데이터 아키텍트 

 

③프로세스

-데이터 관리를 위한 활동과 체계

-작업절차. 모니터링 활동. 측정 활동 

 

■하향식 접근법

문제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 방식. 

◇문제 탐색 단계 : 

①비즈니스 모델 기반 문제 탐색 

 : 과제 발굴을 위한 기본 틀로써 기업 내·외부 환경을 포괄하는 비즈니스 모델이라는 틀을 활용하여 가치가 창출될 문제를 누락 없이 도출할 수 있다

②외부 참조 모델 기반 문제 탐색

 : 잘 알려진 문제를 푸는 것뿐만 아니라 새로운 문제를 발굴하기 위해서는 ㅁ(문제와 과제를 도출해 내는 기준 모델로서  유사 동종의 환경에서 기존에 수행한 분석 과제를 살펴보는 것도 주요한 시사점을 도출해 준다. 

③분석 유즈 케이스 정의 

 : 분석 유즈 케이스는 풀어야 할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는  효과를 명시함을 써 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용하도록 한다.

 

 

상향식 접근법

기업이 보유하고 있는 다양한 원천 데이터로부터 분석을 통하여 통찰력과 지식을 얻는 접근 방법. 

 

■분석기획 

실제 분석을 수행하기 앞서 어떤 목표(what)를 달성하기 위하여 (Why) 어떤 데이터를 가지고 어떤 방식으로 (How) 수행할 지에 대한 일련의 계획 수립과정 

 

 

■분석 기획 시 고려사항 

①가용한 데이터 

▷분석을 위한 데이터의 확보가 우선. 

데이터의 유형에 따라서 적용 가능한 솔루션 및 분석이 다르기 때문에 유형에 대한 분석이 선행적으로 이루어져야 함. 

정형 데이터. 비정형 데이터. 반정형 데이터 

 

②적절한 유스케이스

"바퀴를 재발명하지 마라"라는 격언처럼 기존에 잘 구현되어 활용되고 있는 유사 분석 시나리오 및 솔루션을 최대한 활용하는 것이 중요

 

③분석 과제 수행을 위한 장애요소 

좋은 분석 결과를 도출하여도 분석가만 이해할 수 있는 형태의 결과가 아닌 사용자가 쉽게 이해하고 활용할 수 있도록 방안을 수립해야 함.

▷일회성 분석으로 그치지 않고 조직의 역량으로 내재화하기 위해서는 충분하고 계속적인 교육 및 활용방안 등의 변화 관리가 고려되어야 함. 

 

 

■분석 주제 유형

■분석 대상과 분석방법의 4가지 유형 

① 분석 대상이 무엇인지를 인지하고 있는 경우

▷최적화

▷솔루션

② 분석의 대상이 명확하게 무엇인지 모르는 경우

▷통찰

▷발견

 

 

■ 분석 과제의 주요 5가지 특성 주요 관리 영역

① 데이터 크기 

: 분석하고자 하는 데이터의 양을 고려한 관리 방안 수립이 필요 

 

② 데이터 복잡성 

: 원천 데이터 확보 및 통합 + 잘 적용되는 분석 모델 선정에 대한 사전 고려 필요.

 

③ 속도

: 프로젝트 수행 시 분석모델의 성능 및 속도를 고려한 개발 및 테스트가 수행되어야 함. 

 

④ 분석 복잡성 

: 분석 모델의 정확도와 복잡도는 트레이드오프(Trade off) 관계가 존재함. 분석 모델이 복잡할수록 정확도는 올라가지만 해석이 어려워지는 단점이 존재하므로 이에 대한 기준점을 사전에 정의해 두어야 함. 

 

⑤ 정확도 & 정밀성

: 정확도는 모델과 실제 값 사이의 차이가 적음. 정밀성은 모델을 지속적으로 반복했을 때의 편차의 수준으로써 일관적으로 동일한 결과를 제시한다는 것을 의미.

 

■ 정형 데이터 (Structured Data) 

- 고정된 필드에 저장된 데이터 

- 데이터베이스를 설계한 기술자에 의해 수집되는 정보의 형태가 정해짐. 

- 한정된 정보들 속에서 고객의 정보와 상품 분석. 인기 품목에 대한 정보 분석

- 예) DB로 정제된 데이터. 관계형 데이터 베이스. 스프레드시트 

 

■반정형 데이터 (Semi- Structured Data) 

- 고정된 필드에 저장된 데이터는 아니지만 xml. HTML 텍스트 등 메타데이터 및 스키마를 포함하는 데이터 

- 예) 센서 중심으로 스트리밍 되는 머신 데이터 

- HTML

: 인터넷의 확산으로 HTML자료들이 방대하여 정보 탐색을 위한 요구사항들이 늘어남. ☞ 웹문서를 보다 쉽게 탐색 및 정확하게 해석하여 의미 있는 정보를 추출.

-HTML5 

: 태그들은 문서의 구조와 영역, 범위를 명확히 함으로써 웹페이지의 전체 또는 일부분에 의미를 부여할 수 있게 됨. 검색 시 보다 더 정확한 정보를 추출할 수 있도록 도와줌. 

 

■비정형 데이터 (Unstructured Data) 

-고정된 필드에 저장되어 있지 않은 데이터를 의미. 

-형태가 정해지지 않은 정보 속에서 분석 방향에 따라  다양한 정보를 수집할 수 있는 것. 

-예) 페이스북, 유튜브 영상, 워드 문서, 음원파일, 소셜미디어 데이터, email 등 

-포털사이트에서 생성되는 실시간 정보들을 통해서 더 많은 정보들이 수집하고 분석할 수 있음. 

 

 

■프로토타이핑 방법론

비록 완전하지는 못하다 해도 신속하게 해결책이나 모형을 제시함. 

☞ 문제를 좀 더 명확하게 인식하고 필요한 데이터를 식별하여 구체화할 수 있게 함. 

☞ 유용한 상향식 접근방식 

 

■ 프로토타이핑의 필요성 

① 문제에 대한 인식 수준 

: 문제를 이해 및 구체화하는데 도움

②필요데이터 존재 여부의 불확실성

: 대체 불가능한 데이터가 존재하는지 사전에 확인한다면 불가능한 프로젝트를 수행하는 리스크를 사전에 방지할 수 있음. 

③데이터의 사용 목적의 가변성

: 조직에서 보유 중인 데이터라 하더라도 기존의 데이터 정의를 재검토하여 데이터의 사용 목적과 범위를 확대할 수 있음. 

 

■ 하향식 접근방식 

- 문제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 방식. 

- 논리적 단계별 접근법으로 최근 복잡하고 다양한 환경에서 발생하는 문제를 해결하기 어려움 

 

■상향식 접근방식 

- 기업이 보유하고 있는 다양한 원천 데이터로부터 분석을 통하여 통찰력과 지식을 얻는 접근방법. 

- 다양한 원천 데이터를 대상으로 분석을 수행하여 가치 있는 모든 문제를 도출하는 일련의 과정. 

- 디자인적 사고 접근법을 통해 Why 관점을 강조했지만 객관적으로 존재하는 데이터 그 자체를 관찰하여 문제를 해결하려는 What관점으로의 접근. 

 

■ 모델링

분석용 데이터를 이용한 가설 설정을 통하여 통계 모델을 만들거나 기계 학습을 이용한 데이터의 분류, 예측, 군집 등의 기능을 수행하는 모델을 만드는 과정. 

 

■모델링 태스크

①데이터 분할

모델의 과적합과 일반화를 위하여 분석용 데이터셋을 모델 개발을 위한 훈련용 데이터와 모델의 검증력을 테스트하기 위한 데이터로 분할 

입력자료 : 분석용 데이터셋

▷처리 및 도구 : 데이터 분할 패키지

▷출력자료 : 훈련용 데이터, 테스트용 데이터 

 

②데이터 모델링 

기계학습 등을 이용한 데이터 모델링은 훈련용 데이터를 활용하여 분류, 예측, 군집 등의 모델을 만들어 가동 중인 운영시스템에 적용함. 필요시 비정형 데이터 분석 결과를 통합적으로 활용하여 프로젝트 목적에 맞는 통합 모델링을 수행 

▷입력자료 : 분석용 데이터셋

▷처리 및 도구 : 통계 모델링 기법, 기계학습., 모델 테스트 

▷출력자료: 모델링 결과 보고서

 

③모델 제공 및 운영 방안. 

모델을 가동 중인 운영 시스템에 적용하기 위해서는 모델에 대한 상세한 알고리즘 설명서 작성이 필요. 알고리즘 설명서는 시스템 구현 단계에서 중요한 입력자료로 활용되므로 필요시 의사 코드 수준의 상세한 작성이 필요할 수 있음. 모델의 안정적 운영을 모니터링하는 방안도 수립함.

▷입력자료 : 모델링 결과보고서

▷프로세스 및 도구 : 모니터링 방안 수립, 알고리즘 설명서 작성 

▷출력자료 : 알고리즘 설명서, 모니터링 방안 

 

이 글과 함께 읽으면 좋은글

 

ADsP 1과목 공부_1

■빅데이터 출현 배경 -개별기업의 고객 데이터 축적 및 활용 증가 -인터넷 확산 -저장 기술의 발전과 가격 하락 -모바일 시대의 도래와 스마트 단말의 보급 -클라우드 컴퓨팅 기술 발전 -비정형

chinggu2000.tistory.com

 

ADsP 1과목 공부 _2

■ 암묵지와 형식지 데이터는 지식경영의 핵심 이슈인 암묵지와 형식지의 상호작용에 있어 중요한 역할을 함. - 암묵지 : 개인에게 축적된 내면화된 지식 => 조직의 지식으로 공통화 - 형식지 :

chinggu2000.tistory.com

 

ADsP 3과목 공부 _1

■변수 선택법 - 모든 가능한 독립변수들의 조합에 대한 회귀모형을 분석해 가장 적합한 모형 선택 ①전진 선택법 : 절편만 있는 상수 모형으로부터 시작해 중요하다고 생각되는 설명변수부터

chinggu2000.tistory.com

 

ADsP 3과목 공부 _2

■비모수 검정 ■모수적 검정과 비모수 검정의 차이점 - 모수적 검정 ①가정된 분포의 모수 : (예를 들어 모평균 μ, 모비율 p, 모분산σ² 등)에 대해 가설을 설정  ②관측된 자료를 이용해 구한

chinggu2000.tistory.com

 

ADsP 3과목 공부 _3

■ 연관분석 Q. 교차 판매/ 물건 배치 등에 이용되는 기법은? (연관분석) "어느 고객이 어떤제품을 같이 구매할까?" ☞ 연관분석 실시 ☞ 교차판매 ■연관성분석 연관성분석 연관규칙 : 항목들 간

chinggu2000.tistory.com

 

'AI 관련 > ADsP, ADP' 카테고리의 다른 글

ADsP 3과목 공부 _2  (0) 2021.05.08
ADsP 1과목 공부_1  (0) 2021.05.07
ADsP 3과목 공부 _1  (0) 2021.05.04
R 기초 함수와 문법 - 3  (0) 2021.04.24
R 기초 함수와 문법 - 2  (0) 2021.04.24

댓글