본문 바로가기

AI 관련/ADsP, ADP64

ADSP 요약정리 - 6장 시뮬레이션 및 최적화 - 시뮬레이션 제 2절 시뮬레이션 1. 시뮬레이션이란? -실제상황을 수학적으로 모델화하고 그 모델을 컴퓨터에 프로그램으로 저장한 후 일어날 수 있는 가능한 모든 상황을 입력함으로써 각각의 경우에 어떤 결과가 도출되는지 예측 * 시뮬레이터 : 시뮬레이션 모델에 대한 프로그램을 사용자들이 편리하게 사용하고 그 결과를시각적으로 볼 수 있도록 만든 컴퓨터 기능 - 실제 상황을 모델링 하고 프로그램하기 위해 고급인력을 써야하므로 초기 비용이 많이 듦 * 일단 프로그램화하면 사용자가 여러 경우를 맘대로 가정해 결과확인이 가능하기 때문에 결과적으로 비용절약이 가능하고 특히 짧은 시간에 미래에측에 효과적 가. 시뮬레이션이 정의 - 활용분야에 따라 여러 의미로 정의 가능. 일반적으로 주어진 조건하에서 실제 상황 속에서 모의실험을 통해.. 2021. 10. 9.
ADSP 요약정리 - 6장 시뮬레이션 및 최적화 - 빅데이터와 시뮬레이션 제 1절 빅데이터와 시뮬레이션 - 데이터마이닝 : 대용량 DB에서 숨어있는 예측 가능한 정보를 자동으로 추출하는 데이터 부석 방법 * 데이터에서 쉽게 발견하기 어려운 정보를 발견하거나 특정상황을 예측하는 것 - 데이터 마이닝은 모든 분야 Business Intelligence는 기업에서 데이터 분석을 통해 효율적인 의사결정을 하도록 지원하는 시스템과 기술 - 데이터 마이닝을 정의 하는 핵심용어 : 자동화(automated), 숨겨진(hidden), 예측가능(predictive) * 이전에 발견되지 않았던 데이터들 간의 상호관계를 분석하는 것 - 더 많은 데이터는 시뮬레이션 에측의 정확도를 높임 - 시뮬레이션 : 실제 테스트해보기 어려운 초대형 프로젝트나 위험한 테스트 등을 대신해 행하는 모의실험 * 실제.. 2021. 10. 8.
ADSP 요약정리 - 5장 비정형 데이터 마이닝 - 사회연결망 분석 (Social network analysis, SNA) 제 2절 사회연결망 분석 (Social network analysis, SNA) 1. 사회연결망 분석 정의 가. SNA 정의 - 개인과 집단들 간의 관계를 노드와 링크로서 모델링해 그것의 위상구조와 확산 및 진화 과정을 계량적으로 분석하는 방법론 * 사회 연결망 : 개인의 인간관계가 인터넷으로 확대된 사람 사이의 네트워크 다양한 분야에서 응용 * 기존 사회연결망에 대한 관심이 주로 그룹 간 또는 그룹 안의 개인에 집중한 반명 처음 사회연결망 용어 사용한 Barnes는 독립 네트워크 사이의 관계에 대해 집중 - 분석방법 : 집합론적 방법, 그래프 이론에 의한 방법, 행렬의 이용한 방법 등 1) 집합론적 방법 - 객체들의 집합에서 각 객체들 간 관계를관계 쌍(pairs of elements)으로 표현 2) .. 2021. 10. 7.
ADSP 요약정리 - 5장 비정형 데이터 마이닝 - 텍스트 마이닝 제 1절 텍스트 마이닝 - 텍스트로부터 고품질의 정보를 도출하는 과정. 입력된 텍스트를 구조화해 그 패턴을 도출한 후 결과를 평가해석하는 일련의 과정 통칭 * 다양한 포맷의 문서로부터 데이터를 획득해 이를 문서별 단어의 매트릭스로 만들어 추가 분석이나 데이터 마이닝 기법을 적용해 통찰을 얻거나 의사결정을 지원하는 방법 - 다양한 포맷의 문서로부터 텍스트를 추출해 이를 하나의 레코드로 만들어 단어 구성에 따라 마트를 구성하고 이들 간의 관계를 이용해 감성분석(sentiment analysis)이나 워드 클라우드(word cloud)를 수행하고 이 정보를 클러스터링이나 분류와 사회연결망 분석에 활용 가능 * 예) 주고 받은 문장을 API로 읽어 분석해 평판관리와 마케팅 화롱을 실시간 관리 가능, 경쟁사 브랜.. 2021. 10. 7.
ADSP 요약정리 - 4장 정형데이터 마이닝 - 연관분석(assocociation Analysis) 제 5절 연관분석(assocociation Analysis) 1. 연관성 규칙 가. 연관성 규칙의 개념 - 장바구니 분석 (MKT basket analysis), 서열분석(Seq, Analysis)이라 불림 - 포괄적 개념. 흔히 기업의 DB에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위해 적용 * (마케팅) 손님 장바구니에 들어있는 품목 간 관계를 알아본다는 의미에서 장바구니 분석 * 장바구니에 뭐가 같이 들어있나(장바구니분석), A사고 B산다(연관성분석) - 어느 고객이 어떤 제품을 같이 구매할까? --> 연관성 분석 실시 * 분석을 통해 제품 간 연관성 파악하면 세트메뉴 구성/ 쿠폰발행 등 교차판매 (corsss selling)할 때 효과적 - 연관성 규칙의 일반적인.. 2021. 10. 6.
ADSP 요약정리 - 4장 정형데이터 마이닝 - 군집분석 (Clustering Analysis) 제 4절 군집분석(Clustering Analysis) 1. 군집분석 개요 - 특성에 따라 고객을 여러 개의 배타적인 집단으로 나누는 것 * 결과는 구체적인 군집분석 방법에 따라 다름 * 군집 개수, 구조에 대한 가정 없이 데이터로부터 거리 기준에 의해 자발적인 군집화 유도 - 군집분석의 목적 * 적절한 군집으로 나누는 것 * 각 군집의 특성, 군집간의 차이 등에 대해 분석 - 나누는 방법에 따른 군집화 구분 * 임의적 방법 : 논란여지 많으나 많이 사용되옴 * 통계적 기법 활용 : 1,2 세대 알고리즘 이용해 사용돼 왔으나 실무적용성에 대한 논란 2. 전통적 군집분석 가. 기존 세분화 방법의 유형 - 임의로 나누는 방법 : 고객등급/ 고객구분 (신규/ 기존), 4분면, 9개 집단 등 다양 - 통계적 기.. 2021. 10. 6.
ADSP 요약정리 - 4장 정형데이터 마이닝 - 예측분석 (Prediction Analysis) 제 3절 예측 분석 (Prediction Analysis) - 분류 : 불연속적 값/ 예측 : 연속적 값 - 예측 : 시계열분석으로 시간에 따른 값 두 개만을 이용해 앞으로의 매출 / 온도 등을 예측 * 두 접근방법은 모델링하는 입력 데이터가 어떤것인지에 따라 특성이 다름 * 예측은 여러개의 다양한 설명변수가 아닌 하나의 설명변수로 생각 1. 활용분야 가. 행동예측 유형 - 휴면-이탈, 등급변동, 특정상품 구매, 특정금액 이상 구매, 특정시점의 특정조건에 해당되는 행동 에측 등 다양한 경우 가능 * 특정행동 예측능력이 뛰어날수록 더욱 정교한 고객관계 활동 전개 가능 - 행동예측이 행동의 결과를 모두 상식적으로 설명가능해야 한다는 것은 잘못된 생각 * 맞으면 됨. 이해할 수 있는 논리 제공하면 좋지만 당연.. 2021. 10. 5.
ADSP 요약정리 - 4장 정형데이터 마이닝 - 분류분석(Classification Analysis) 제 2절 분류분석 (Classification Analysis) 1. 분류모델링 - 분류분석 : 데이터의 실체가 어떤 그룹에 속하는지 예측하는데 사용하는 데이터 마이닝 기법 * 특정 등급으로 나누는 점에서 군집분석과 유사하나 각 계급이 어떻게 정의 되는지 미리 알아야 함. - 분류(Classification) : 객ㅊ를 정해놓은 범주로 분류하는데 목적 * CRM에서는 고객행동예측, 속성파악에 응용. 다양한 분야에서 활용 가능 - 많은 경우 분류모델 개발할 때는 train data/ test data 구분지어 모델링 * 전체 데이터를 7:3, 8:2 등으로 나눠 train 해서 최적모델 확정짓고 test로 검증 * train과 test간 편차 없어야 하며 성능은 test가 다소 낮게 나오는 경향 - 분류를.. 2021. 10. 5.
ADSP 요약정리 - 4장 정형데이터 마이닝 - 데이터 마이닝의 개요 제 1절 데이터 마이닝의 개요 - 데이터 마이닝 : 대용량 데이터에서 의미있는 데이터 패턴을 파악하거나 예측을 위해 데이터를 자동으로 분석해 의사결정에 활용하는 방법 - 통계분석과 비교해 데이터 마이닝의 큰 차이 * 가설이나 가정에 따른 분석이나 검증, 통게학 전문가가 사용하는 도구도 아님 * 다양한 수리 알고리즘을이용해 DB의 데이터로부터 의미있는 정보를 찾아내는 방법 통칭 - 정보 찾는 밥법론에 따라 * 인공지능, 의사결정나무, k-평균군집화, 연관분석, 회귀분석, 로짓분석, 최근접이웃 등 - 분석 대상이나 활용목적, 표현 방법에 따라 * 시각화 분석, 분류(classification), 군집화(clustering), 포케스팅(forecasting) - 사용하는 분야 매우 다양 - 데이터마이닝 도구가.. 2021. 10. 4.
ADSP 요약정리 - 3장 데이터 마트 - 데이터 가공 제 3절 기초분석 및 데이터 관리 1. 데이터 EDA - 데이터 분석 전에 대략적 특성을 파악하고 데이터에 대한 통찰을 얻기 위해 다각도로 접근 가. 데이터 기초통계 * head(iris) : 데이터 앞 6줄 보여줌 - head(iris,10) : 숫자 넣어주면 원하는 개수만큼 볼 수 있음. * str(iris) :데이터 구조 파악 * summary : 데이터 기초 통계량 * cor(x,y) : 상관계수 * cov(x,y) : 공분산 2. 결측값 처리 - 결측값 처리 시간 많이 쓰는 것은 비효율적 * 가능하면 결측값은 제외하고 처리하는 것이 적합 (결측값 자체가 의미 있는 경우 있음) - 결측값 어떻게 처리하냐는 전체 작업 속도에 많은 영향 * 이 부분을 자동화하면 업무 효율성 매우 향상됨 - R 결측값.. 2021. 10. 3.
ADSP 요약정리 - 3장 데이터 마트 - 데이터 가공 제 2절 데이터 가공 1. Data Exploration * summary : 데이터가 어떻게 분포돼 있는지 보여줌 - 디멘젼 변수 : 각 멤버의 갯수, 결측치 개수 ( NA's) - 메져변수 : 최소값(Min), 1st Q(1사분위값) , 중앙값(Median), 평균값(Mean), 3rd Q(3사분위값), 최대값(Max), 결측치 개수(NA's) * plot : 차트 2. 변수중요도 - 개발중인 모델에 준비된 데이터를 기준으로 한버에 여러개의 변수를 평가 * 변수 중요도 평가 :패키지로 평가, 모델링 실행해 평가 * 모델링 실행 결과 (Decision Tree)로 의미 있는 것들에 대해 변수 중요도 파악이 일반적 * 휴면고객 분류 모델개발: 특성 유사한 것 끼리 그룹 만들어 실행 후 모아 최종 모델 개.. 2021. 10. 3.
ADSP 요약정리 - 3장 데이터 마트 - 데이터 변경 및 요약 제 1절 데이터 변경 및 요약 1. R reshape를 활용한 데이터 마트 개발 - 고객 데이터 맡 생성하는 일은 CRM(Customer Relationship Management) 관련 업무 중 핵심 - 마트 만드는 일 접근법 * 작게 시작해 크게 만들어 나가는 노력 필요 - 요약변수 -> 파생변수 -> 모델링 * 빠르고 간편한(quick and dirty) 방법 - 미리 검증해보고 변수를 더 만들어 나가는 것이 효율적 - 마트는 담당자의 역량에 따라 수준 차이가 큼 가. 요약변수(summary variables) - 가장 기본적인 변수로 고객 - 상품 - 채널을 종합(aggregation)한 변수 * 단순한 구조이므로 자동화하기 쉬워 조금만 고민하면 상황이 맞게 또는 일반적인 자동화 프로그램 만들 수.. 2021. 10. 2.
ADSP 요약정리 - 2장 통계분석 - 시계열 분석 제 3절 시계열 분석 1. 정상성 (stationarity) - 시계열 자료 ; 시간의 흐름에 따라 관찰된 값들 * 비정상성 시계열 : 시계열 분석하는데 다루기 어려운 시계열 자료, 정상시계열로 만들어 분석 * 정상성 시계열 : - 약한의미의 정상성 : 모든 시점에 평균일정, 시점과 분산 독립, 공분산은 시차에만 의존 - 비정상-> 정상 : 변환 (transformation), 차분 ( difference) * 변환 : 부산이 일정하지 않은 비정상 시계열 * 차분 (t1-t0): 평균이 일정하지 않은 비정상 시계열 2.시계열 모형 가. 자기회귀모형(AR모형) - p 시점 전의 자료가 현재 자료에 영향을 주는 자기회귀모형을 AR(p)모형이라 함. - 자기회귀모형 판단 조건 *자기상관함수 (ACF) 빠르게 .. 2021. 10. 2.
ADSP 요약정리 - 2장 통계분석 - 기초통계분석 제 2절 기초통계분석 1. 기술통계 (Descriptive Statistics) - 자료를 요약하는 기초적 통계 - 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계산해봄으로써 데이터에 대한 대략적 이해와 분석에 대한통찰력을 얻기에 유리 - 데이터 마이닝에 앞서 데이터의 기술통계를 확인해보는 것이 좋음 * head : 데이터의 컬럼에 대한 전반적인 기초 통계량 보여줌 * summary : 데이터의 컬럼에 대한 전반적인 기초 통계량을 보여줌 * 데이터의 특정 컬럼 선택 : 데이터네임 $column 명 2. 인과관계의 이해 - 용어 * 종속변수(반응변수, y) : 다른변수의 영향을 받는 변수 * 독립변수 (설명변수, x) : 영향을 주는 변수 * 산점도 (scatter plot) : 좌표평면 위에 점들.. 2021. 10. 1.
ADSP 요약정리 - 2장 통계분석 - 통계분석의 이해 제 1절 통계분석의 이해 1. 통계 - 특정집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약된 형태의 표현 - 표본조사 : 대상 집단의 일부를 추출해 어떤 현상을 관측/ 조사해 자료 수집하는 방법 * 표본추출방법 -단순랜덤 추출법 : n개의 번호를 임으로 선택해 해당 원소를 표본으로 추출 -계통 추출법 : N개 원소로 구성된 모집단에서 k개씩 n개 구간 나누고 첫구간에서 하나임의 선택 후 k개씩 띄어 표본 추출 - 집락추출법 : 모집단이 집락(cluster)의 결합으로 구성돼있는 경우 일부 집락을 랜덤으로 선택하고 선택된 각 집락에서 표본 임의 선택 - 층화추출법 : 각 계층 고루 대표할 수 있게 표본 추출. 이질적 모집단 원소를 유사한 것 끼리 몇 개의 층 (stratum)으로 나눈 후.. 2021. 10. 1.
ADSP 요약정리 - 1장 데이터 분석 개요 -분석환경 이해와 기본 사용법 제 3절 분석환경 이해와 기본사용법 - 데이터 분석은 SQL 수준의 교육과 달리 분석도구가 다양하고 표준이 없음. SAS SPSS R 프로그램비용 유료 , 고가 유료, 고가 오픈소스 설치용량 대용량 대용량 모듈화로 간단 다양한 모듈지원 및 비용 별도 구매 별도 구매 오픈소스 최근 알고리즘 및 기술반영 느림 다소 느림 매우 빠름 학습자료 입수의 편의성 유료 도서위주 유료 도서 위주 공대 논문 및 자료 많음 질의를 위한 공개 커뮤니티 NA NA 매우 활발 1. 분석환경의 이해 가. 통계패키지 R - 오픈소스 프로그램으로 통계, 데이터 마이닝과 그래프를 위한 언어 - 다양한 최신 통계분석과 마이닝 기능을 제공 - 전 세계적으로 사용자들이 다양한 예제를 공유 - R의 특징 * 다양한 최신 통계 분석 및 마이닝 .. 2021. 9. 30.
ADSP 요약정리 - 1장 데이터 분석 개요 - 데이터 분석 기법의 이해 제 2절데이터 분석 기법의 이해 1. 개요 - 데이터 분석에 대한 정의는 매우 다양하고 수준과 복잡성, 목적도 다름 - 분석은 일반적으로 조회와 고급분석으로 양분되며 고급분석은 20개 이상의 변수와 수천건 이상의 데이터를 이용해 인사이트를 얻거나 의사결정을 하는데 직접 사용됨 2. 기초 지식과 소양 - 평균과 분산에 대한 이해를 토대로 집단 간 평균과 분산의 차이, 상관관계, 독립/종속 변수를 이용한 회귀분석 이해, R Square와 p값에 대한 이해, 클러스터링 (clustering) - 진정 필요한 추가 지식은 다양한 산업에 대한 이해 * 상식수준에서 벗어난 해당 업계신입사원 수준의 산업분야 이해가 필요 - 평상시 관심을 갖고 업무와 관련지어 조금씩 늘 학습할 것 추천 3. 데이터 처리 - 분석을 위.. 2021. 9. 29.
ADSP 요약정리 - 1장 데이터 분석 개요 - 데이터 분석 프로세스 제 1절 데이터 분석 프로세스 1. 요건정의 - 분석요건을 구체적으로 도출-선별-결정하고, 분석과정을 설계하고, 구체적인 내용을 실무담당자와 협의하는 업무 - 광범위하고 다양한 정보를 다루고 문서화 작업의 비중이 높음 - 전체 프로세스 중에서 가장 중요한 부분으로, 빅데이터 분석업무의 성패 좌우 가. 분석 요건 도출 - 요건은 비즈니스 이슈로부터 도출 * 이슈 :업무를 수행하는 데 있어 수익 증가, 비용증가, 상황변화, 처리속도 지연 등을 발생시키는 항목 --> 전사적 측면에서 개선돼야할 사항 * 단순 불편 사항이나 불만사항을 요건으로 정의하면 비즈니스적 의미가 낮아지고 분석경과 보고나 실행의 타당성 잃을 가능성 높음 - 다양한 이슈에서 진정한 요건이 될 수 있는 항목 선정하는 것 매우 중요 - 분석요건.. 2021. 9. 29.