본문 바로가기

AI 관련78

ADSP 요약정리 - 3장 데이터 마트 - 데이터 가공 제 2절 데이터 가공 1. Data Exploration * summary : 데이터가 어떻게 분포돼 있는지 보여줌 - 디멘젼 변수 : 각 멤버의 갯수, 결측치 개수 ( NA's) - 메져변수 : 최소값(Min), 1st Q(1사분위값) , 중앙값(Median), 평균값(Mean), 3rd Q(3사분위값), 최대값(Max), 결측치 개수(NA's) * plot : 차트 2. 변수중요도 - 개발중인 모델에 준비된 데이터를 기준으로 한버에 여러개의 변수를 평가 * 변수 중요도 평가 :패키지로 평가, 모델링 실행해 평가 * 모델링 실행 결과 (Decision Tree)로 의미 있는 것들에 대해 변수 중요도 파악이 일반적 * 휴면고객 분류 모델개발: 특성 유사한 것 끼리 그룹 만들어 실행 후 모아 최종 모델 개.. 2021. 10. 3.
ADSP 요약정리 - 3장 데이터 마트 - 데이터 변경 및 요약 제 1절 데이터 변경 및 요약 1. R reshape를 활용한 데이터 마트 개발 - 고객 데이터 맡 생성하는 일은 CRM(Customer Relationship Management) 관련 업무 중 핵심 - 마트 만드는 일 접근법 * 작게 시작해 크게 만들어 나가는 노력 필요 - 요약변수 -> 파생변수 -> 모델링 * 빠르고 간편한(quick and dirty) 방법 - 미리 검증해보고 변수를 더 만들어 나가는 것이 효율적 - 마트는 담당자의 역량에 따라 수준 차이가 큼 가. 요약변수(summary variables) - 가장 기본적인 변수로 고객 - 상품 - 채널을 종합(aggregation)한 변수 * 단순한 구조이므로 자동화하기 쉬워 조금만 고민하면 상황이 맞게 또는 일반적인 자동화 프로그램 만들 수.. 2021. 10. 2.
ADSP 요약정리 - 2장 통계분석 - 시계열 분석 제 3절 시계열 분석 1. 정상성 (stationarity) - 시계열 자료 ; 시간의 흐름에 따라 관찰된 값들 * 비정상성 시계열 : 시계열 분석하는데 다루기 어려운 시계열 자료, 정상시계열로 만들어 분석 * 정상성 시계열 : - 약한의미의 정상성 : 모든 시점에 평균일정, 시점과 분산 독립, 공분산은 시차에만 의존 - 비정상-> 정상 : 변환 (transformation), 차분 ( difference) * 변환 : 부산이 일정하지 않은 비정상 시계열 * 차분 (t1-t0): 평균이 일정하지 않은 비정상 시계열 2.시계열 모형 가. 자기회귀모형(AR모형) - p 시점 전의 자료가 현재 자료에 영향을 주는 자기회귀모형을 AR(p)모형이라 함. - 자기회귀모형 판단 조건 *자기상관함수 (ACF) 빠르게 .. 2021. 10. 2.
ADSP 요약정리 - 2장 통계분석 - 기초통계분석 제 2절 기초통계분석 1. 기술통계 (Descriptive Statistics) - 자료를 요약하는 기초적 통계 - 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계산해봄으로써 데이터에 대한 대략적 이해와 분석에 대한통찰력을 얻기에 유리 - 데이터 마이닝에 앞서 데이터의 기술통계를 확인해보는 것이 좋음 * head : 데이터의 컬럼에 대한 전반적인 기초 통계량 보여줌 * summary : 데이터의 컬럼에 대한 전반적인 기초 통계량을 보여줌 * 데이터의 특정 컬럼 선택 : 데이터네임 $column 명 2. 인과관계의 이해 - 용어 * 종속변수(반응변수, y) : 다른변수의 영향을 받는 변수 * 독립변수 (설명변수, x) : 영향을 주는 변수 * 산점도 (scatter plot) : 좌표평면 위에 점들.. 2021. 10. 1.
ADSP 요약정리 - 2장 통계분석 - 통계분석의 이해 제 1절 통계분석의 이해 1. 통계 - 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현 - 표본조사 : 대상 집단의 일부를 추출해 어떤 현상을 관측/ 조사해 자료 수집하는 방법 * 표본추출방법 -단순랜덤 추출법 : n개의 번호를 임으로 선택해 해당 원소를 표본으로 추출 -계통 추출법 : N개 원소로 구성된 모집단에서 k개씩 n개 구간 나누고 첫구간에서 하나임의 선택 후 k개씩 띄어 표본 추출 - 집락추출법 : 모집단이 집락(cluster)의 결합으로 구성돼있는 경우 일부 집락을 랜덤으로 선택하고 선택된 각 집락에서 표본 임의 선택 - 층화추출법 : 각 계층 고루 대표할 수 있게 표본 추출. 이질적 모집단 원소를 유사한 것 끼리 몇 개의 층 (stratum)으로 나눈 후.. 2021. 10. 1.
ADSP 요약정리 - 1장 데이터 분석 개요 -분석환경 이해와 기본 사용법 제 3절 분석환경 이해와 기본사용법 - 데이터 분석은 SQL 수준의 교육과 달리 분석도구가 다양하고 표준이 없음. SAS SPSS R 프로그램비용 유료 , 고가 유료, 고가 오픈소스 설치용량 대용량 대용량 모듈화로 간단 다양한 모듈지원 및 비용 별도 구매 별도 구매 오픈소스 최근 알고리즘 및 기술반영 느림 다소 느림 매우 빠름 학습자료 입수의 편의성 유료 도서위주 유료 도서 위주 공대 논문 및 자료 많음 질의를 위한 공개 커뮤니티 NA NA 매우 활발 1. 분석환경의 이해 가. 통계패키지 R - 오픈소스 프로그램으로 통계, 데이터 마이닝과 그래프를 위한 언어 - 다양한 최신 통계분석과 마이닝 기능을 제공 - 전 세계적으로 사용자들이 다양한 예제를 공유 - R의 특징 * 다양한 최신 통계 분석 및 마이닝 .. 2021. 9. 30.
ADSP 요약정리 - 1장 데이터 분석 개요 - 데이터 분석 기법의 이해 제 2절데이터 분석 기법의 이해 1. 개요 - 데이터 분석에 대한 정의는 매우 다양하고 수준과 복잡성, 목적도 다름 - 분석은 일반적으로 조회와 고급분석으로 양분되며 고급분석은 20개 이상의 변수와 수천건 이상의 데이터를 이용해 인사이트를 얻거나 의사결정을 하는데 직접 사용됨 2. 기초 지식과 소양 - 평균과 분산에 대한 이해를 토대로 집단 간 평균과 분산의 차이, 상관관계, 독립/종속 변수를 이용한 회귀분석 이해, R Square와 p값에 대한 이해, 클러스터링 (clustering) - 진정 필요한 추가 지식은 다양한 산업에 대한 이해 * 상식수준에서 벗어난 해당 업계신입사원 수준의 산업분야 이해가 필요 - 평상시 관심을 갖고 업무와 관련지어 조금씩 늘 학습할 것 추천 3. 데이터 처리 - 분석을 위.. 2021. 9. 29.
ADSP 요약정리 - 1장 데이터 분석 개요 - 데이터 분석 프로세스 제 1절 데이터 분석 프로세스 1. 요건정의 - 분석요건을 구체적으로 도출-선별-결정하고, 분석과정을 설계하고, 구체적인 내용을 실무담당자와 협의하는 업무 - 광범위하고 다양한 정보를 다루고 문서화 작업의 비중이 높음 - 전체 프로세스 중에서 가장 중요한 부분으로, 빅데이터 분석업무의 성패 좌우 가. 분석 요건 도출 - 요건은 비즈니스 이슈로부터 도출 * 이슈 :업무를 수행하는 데 있어 수익 증가, 비용증가, 상황변화, 처리속도 지연 등을 발생시키는 항목 --> 전사적 측면에서 개선돼야할 사항 * 단순 불편 사항이나 불만사항을 요건으로 정의하면 비즈니스적 의미가 낮아지고 분석경과 보고나 실행의 타당성 잃을 가능성 높음 - 다양한 이슈에서 진정한 요건이 될 수 있는 항목 선정하는 것 매우 중요 - 분석요건.. 2021. 9. 29.
ADSP 요약정리 - 2장 분석 마스터 플랜 - 분석 거버넌스 체계 제 2절 분석 거버넌스 체계 1. 거버넌스 체계 개요 - 데이터 분석과 활용에 대한 체계적인 관리의 중요성으로 분석 관리체계 수립 필요 * 지속적 분석 고도화, 분석과제 추가발굴 등 기업문화를 정착, 안정적으로 분석운영에 필요 - 분석의 지속적인 개발, 확산 및 서비스 관리를 위한 분석 거버넌스 체계는 기업의 현 분석수준을 정확히 진단, 분석 조직 및 분석 전문인력 배치, 분석 관련 프로세스 및 분석 교육 등 의 관점에서 정의 가능 - 분석의 지속적 개선/ 개발, 확산 및 서비스 관리를 위한 거버넌스 체계 * COA(Center Of Analysis):분석 조직 분석 수준진단, 분석교육, 분석 개발확산/ 평가 프로세스, 분석전문 인력 2. 데이터 분석 수준 집단. - 데이터 분석, 활용여부가 기업의 경쟁.. 2021. 9. 28.
ADSP 요약정리 - 2장 분석 마스터 플랜 - 마스터 플랜 수집 제 1절 마스터 플랜 수집 1. 마스터 플랜 수립 개요 - 데이터 기반 구축을 위해서는 분석과제를 대상으로 전략적 중요도, 비즈니스 성과 및 ROI, 분석과제의 실행 용이성 등 다양한 기준을 고려해 적용 우선순위를 설정할 필요 - 우선순위 뿐 아니라 분석의 적용 범위 및 방식에 대해서도 종합적으로 고려하여 데이터 분석을 구현하기 위한 로드맵 수립 2. 우선순위 평가 - 우선순위 평가 : 정의된 데이터 과제에 대한 실행 순서를 정하는것 * 업무 영역별로 도출된 분석과제를 우선순위 평가 기준에 따라 평가하고 과제 수행의 선후행 관계를 고려하여 적용 순위를 조정해 최종 확정 * 일반적 IT 프로젝트는 과제의 우선순위 평가를 위해 전략적 중요도, 실행용이성 등 기업에서 고려하는 중요 가치기준에 따라 다양한 관점.. 2021. 9. 27.
ADSP 요약정리 - 1장 분석과제 정의 - 분석활용 시나리오정의-정의서 작성-분석적용 시 고려요소 제 5절 분석 활용 시나리오 정의 - 분석 컨텍스트를 기반으로 도출된 분석 체계를 종합적으로 고려하여 업무적인 분석 활용 시나리오를 정의 - 주요 업무 의사 결정에 분석 결과가 어떻게 활용되어 업무가 효과적으로 수행할 수 있는지 명확히 이해할 수 있도록 도와줌 - 분석을 업무 운영 프로세서 반영할 때 기존 프로세서의 변경 및 신규 프로세서가 생성되는 등의 업무 프로세서의 변화가 발생하기도 함. * 분석 업무 프로세서를 내재화하면 운영업무의 후행 액션이 분석에 의해 자동으로 실행 되는 형태로 프로세서가 지능화 됨 - 분석 업무 활용 시나리오 정의 시, 분석으로 인한 업무 프로세스 변화를 명확히 식별하고 재설계 방안을 정의 해야함. 제 6절 분석 정의서 작성 -분석별로 필요한 소스 데이터, 분석방법, 데이터.. 2021. 9. 27.
ADSP 요약정리 - 1장 분석과제 정의 - 분석방안 구체화 제 4절 분석방안 구체화 1. 의사결정 요소 모형화 - 분석 컨텍스트 간 상관관계를 모형화하여 의사결정을 위한 일련의 제 요소와 요소 간 관계 구체화 가능 * 분석의 핵심 이슈와 의사결정을 위한 필요요소를 한 장의 그림으로 분명하게 설명 가능 * 최적의 의사결정을 위해 필요한 분석 (의사결정 요소) 도출 2. 분석체계 도출 - 정의된 의사 결정 모형의 분석 컨텍스트 별로 수행할 분석을 정리하여 의사결정을 위한 전체 분석 세트와 관계를 도출 * 의사결정의 각 분석체계는 한번에 확정되지 않고 지속적으로 보완되는 과정을 거쳐 정렬됨 3. 분석필요 데이터 정의 - 분석체계에 따라 분석에 필요한 데이터 및 데이터의 유형을 식별하여 현재의 기업에서 보유한 데이터와 외부에서 확보해야 할 데이터 정의 * 데이터 확보 .. 2021. 9. 26.
ADSP 요약정리 - 1장 분석과제 정의 - 분석 기회 구조화 제 3절 분석 기회 구조화 1. 유저스토리 정의 -식별된 핵심 분서 기회(주제)별로 유저 스토리 작성 방법을 통해 분석자의 역할, 의사결정 사항, 분석을 통해 추구하는 목표가치를 기술해 봄으로써 분석하고자 하는 바를 명확히 함. * 업무담당자 입장에서 무엇을 의사결정 해야하는지 정의 * 이 업무를 잘 수행하기 위해 업무 담당자는 무엇을 알아야 하는지 정리 - 분석기회 : 알아야하는 무엇을 찾는 방법 (의사결정요소 산출을 위한 데이터 분석 포인트0 --> 유저 스토리를 통해 분석기회는 명확히 정의될 수 있음. 2. 목표가치 구체화 - 유저 스토리를 통해 명확히 정의된 분석 기회의 목표가치를 지표화함으로써 분석을 통해 달성하려는 사업성과를 구체화 *리소스 투입대비 업무적 성과 평가는 반드시 필요 - 성과는 .. 2021. 9. 26.
ADSP 요약정리 - 1장 분석과제 정의 - 개요 + 분석기회 발굴 제 1절 개요 - 데이터의 핵심은 데이터 자체가 아닌 분석을 통한 의사결정 최적화 - 업무담당자가 의사결정을 내리기 위해 이벤트 발생부터 액션까지 지연시간(데이터지연, 분석지연, 의사결정의 지연)이 운영의 장애요인으로 발생 ==> 데이터 기반의 분석업무 활용 체계 도입을 통해 지연시간을 줄일 수 있음. - 데이터 분석 도입의 성공요소 *Question First 방식으로 접근 : 업무에 필ㅇ한 분석이 무언지를 찾기 위해 분석 질문을 먼저 정의하고 분석하기 위해 필요한 데이터가 무엇인지 정의 *선택과 집중 : 핵심 분석 몇 가지만 잘해도 차별화된 복제할 수 없는 핵심 경쟁력 가짐 *자동화된 분석을 업무 프로세스에 내재화 : 분석은 업무 의사결정 프로세스의 일부 제 2절 분석 기회 발굴 - 분석기회 : 기업.. 2021. 9. 25.
ADSP 요약정리 - 3장 가치창조를 위한 데이터 사이언스와 전략 인사이트 - 빅데이터 그리고 데이터 사이언스의 미래 제 3절 빅데이터 그리고 데이터 사이언스의 미래 1. 빅데이터의 시대 - 2011년 기준 디지털 정보량 1.8 제타바이트 - 선거 예측, 비용절감, 시간절약, 매출증대, 고객서비스 향상, 신규 비즈니스창출, 내부 의사 결정 지원 등 상당한 가치 발휘 2. 빅데이터 회의론을 넘어 : 가치 + 패러다임의 변화 - 내외부 환경의 급변할 때일수록 변화의 물결을 잘 읽어야 하며 예측하지 못했던 전환이나 위기에 빨리 적응할 수 있는 능력 필요 -가치 패러다임 : 경제와 산업근처에는 다양한 가치 원천이 존재하며, 무작위로 작용하는 것이 아니라 특정기간 지배적으로 작용함. 이러한 원천은 일정기간 패러다임적인 존재로 강력한 힘을 행사하다가 효력이 다하면 다음의 가치 패러다임에게 지배적인 지위를 넘겨줌 - 가치 패러다임의.. 2021. 9. 24.
ADSP 요약정리 - 3장 가치창조를 위한 데이터 사이언스와 전략 인사이트 - 전략 인사이트 도출을 위한 필요역량 제 2절 전략 인사이트 도출을 위한 필요 역량 1. 데이터 사이언스의 의미와 역할 -데이터 사이언스란? * 데이터로부터 의미있는 정보를 추출해내는 학문 * 통계학이 정형화된 실험 데이터를 분석 대상으로 하는 것에 비해, 데이터 사이언스는 정형 또는 비정형을 막론하고 다양한 유형의 ㅔ이터를 대상으로 총체적 접근법을 사용 * 데이터 마이닝은 주로 분석에 초점되나, 데이터 사이언스는 분석뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지 모두 포괄하는 개념 * 데이터 공학, 수학, 통계학, 컴퓨터공학, 시각화, 해커의 사고방식, 해당 분야의 전문 지식을 종합한 학문으로 정의 -데이터 사이언스의 역할 *전략적 통찰을 추구하고 비즈니스 핵심 이슈에 답을 하고, 사업의 성과를 견인 *데이터 사이언티스트의 중요 역.. 2021. 9. 24.
ADSP 요약정리 - 3장 가치창조를 위한 데이터 사이언스와 전략 인사이트 - 빅데이터 분석과 전략 인사이트 제 1절 빅데이터 분석과 전략 인사이트 1. 빅데이터 열풍과 회의론 - 시대의 분위기에 합류하기 위해 거액을 투자해 솔루션을 도입한 후 어떻게 활용하고 어떻게 가치를 뽑아내야 할지 첫번째 물음부터 다시 시작 - 현재 소개되는 많은 빅데이터 성공사례가 기존의 분석 프로젝트를 포장 -과대포장은 빅데이터 분석 전체의 신뢰성에 의심을 갖게 만들거나 개념적 혼란을 불러일으켜 빅데이터 분석이 자리잡기도 전에 기반을 흔들 수 있음. - 빅데이터 분석도 데이터에서 가치, 즉 통찰을 끌어내 성과를 창출하는 것이 관건 2. 왜 싸이월드는 페이스북 되지 못했나? -데이터 분석 기반 경영 문화의 부재 : 데이터 분석에 기초해 전략적 통찰력을 얻고, 효과적인 의사결정을 내리고, 구체적인성과를 만들어 내는 체계가 없었기 때문 -.. 2021. 9. 23.
ADSP 요약정리 - 2장 데이터의 가치와 미래 - 미래의 빅데이터 제 5절 미래의 빅데이터 - 빅데이터 활용에 필요한 기본 3요소 구분 설명 데이터 모든 것의 데이터화 (Datafication) -수많은 센서들이 인터넷에 연결되는 사물 인터넷 시대 기술 진화하는 알고리즘, 인공지능 (Aritificial Intelligence) - 데이터가 알고리즘 성장의 영양분 역할 : 알고리즘을 학습 시킬 수 있는 데이터의 양의 증가로 알고리즘이 점점 스마트해지는 경향을 의미 - 인공지능 분야의 패턴인식, 자연어 처리, 자동제어, 기계학습, 자동추론, 지능엔진, 시멘틱 웹 등이 포함. 인력 데이터 사이언티스트, 알고리즈미스트 (Algorithmist) 역할 증대 -데이터 사이언티스트 (scientist) * 빅데이터에 대한 이론적 지식과 숙련된 분석 기술을 바탕으로 통찰력 - 전달.. 2021. 9. 23.