본문 바로가기

빅데이터/ADsP, ADP64

ADsP 3과목 요점 정리_3과목 3장 정형데이터 마이닝_03 군집분석 ADsP 3과목 요점 정리_3과목 3장 정형 데이터 마이닝_03 군집분석 03군집분석 1. 군집분석 (1) 군집분석 개요 : 여러 변수로 표현된 자료들 사이의 유사성을 측정하고 유사한 자료들끼리 몇 개의 군집으로 묶고 다변량 분석(상관분석, 회귀분석, 주성분 분석 등)을 활용하여 각 군집에 대한 특징을 파악하는 기법 (2) 거리 측도 1) 변수가 연속형인 경우 - 유클리디안 거리 : 두 점 사이의 거리를 계산할 때 가장 널리 쓰이는 계산 방법으로 두 점 사이의 가장 짧은 거리를 계산한다. - 맨해튼 거리 : 두 점 사이를 가로지르지 않고 길을 따라갔을 때의 거리 - 체비 셰프 거리 : 변수 간 거리 차이 중 최댓값을 데이터 간의 거리로 정의한다. - 마할라노비스 거리 : 표준화 거리가 고려하지 못한 변수.. 2022. 3. 28.
ADsP 3과목 요점 정리_3과목 3장 정형데이터 마이닝_02 분류분석 ADsP 3과목 요점 정리_3과목 3장 정형 데이터 마이닝_02 분류 분석 02 분류 분석 1. 로지스틱 회귀분석 (1) 로지스틱 회귀분석 개요 1) 로지스틱 회귀분석 : 회귀분석을 분류에 이용한 방법으로, 독립변수의 선형 결합을 이용해 사건의 발생 가능성을 예측하는 분석방법으로 종속변수가 범주형 변수일 때 사용 가능하다. 2) 로지스틱스 회귀분석의 변수 : 책 참고 (2) 로지스틱 회귀분석의 알고리즘 1) 오즈 : 오즈란 성공할 확률이 실패할 확률의 몇 배인지를 나타내는 값이다. 2) 로짓 : 오즈에 로그 값을 취한 것이 로짓이다. 3) 시그모이드 함수 : 로직 스틱 회귀 부석과 인공 신경망 분석에서 사용된다. 시그모이드 함수는 로짓 함수와 역함수 관계이기 때문에 로짓 함수를 통해 시그모이드 함수가 도.. 2022. 3. 25.
ADsP 3과목 요점 정리_3과목 3장 정형데이터 마이닝_01 데이터마이닝 ADsP 3과목 요점 정리_3과목 3장 정형 데이터 마이닝_01 데이터 마이닝 01 데이터 마이닝 1. 데이터 마이닝 개요 (1) 데이터 마이닝의 이해 1) 데이터 마이닝이란 : 방대한 양의 데이터 속에서 숨겨진 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용하는 것을 목적으로 한다. 2) 통계분석과 데이터 마이닝의 차이 - 통계분석 : 표본을 통해 의미 있는 자료를 추출하고, 이를 기반으로 의사결정, 요약, 연관성 파악, 예측 등의 결과로 이어지도록 하는 일련의 과정을 말한다. 통계분석은 [수집→정제→추정→검정]의 과정을 통해 이루어진다. 통계학은 표본이 있어야 한다는 것과 그 표본을 통해 모집단의 어떤 특성을 추정하고 검정한다는 것이 중요하다 '가설과 검정'이라는 개념도 포함되어 있다. - 데이.. 2022. 3. 24.
ADsP 3과목 요점 정리_3과목 2장 통계분석_05 시계열분석 ADsP 3과목 요점 정리_3과목 2장 통계분석_05 시계열 분석 05 시계열 분석 1. 시계열 분석 개요 (1) 시계열 분석의 개념 1) 시계열 분석의 개념 : 시계열 분석은 일정 시간 간격으로 기록된 자료들에 대하여 특성을 파악하고 미래를 예측하는 분석 방법이다. 2) 시계열 자료의 자기 상관성 : (책 참고) 3) 시계열 분석의 자료 : 시계열 분석의 자료는 크게 정상성 시계열 자료와 비정상성 시계열 자료로 구분되는데, 대부분 시계열 자료는 비정상성 시계열 자료이다. (2) 시계열 자료의 정상성 조건 1) 일정한 평균 : 모든 시점에 대하여 평균이 일정해야 한다. 그렇지 않다면 차분을 통해 정상화할 수 있다. 차분이란 현시점의 자료 값에서 전 시점의 자료 값을 빼는 것이다. 2) 일정한 분산 : 모.. 2022. 3. 21.
ADsP 3과목 요점 정리_3과목 2장 통계분석_04 다변량 분석 ADsP 3과목 요점 정리_3과목 2장 통계분석_04 다변량 분석 04다변량분석 1.다차원 척도법의 개요 1) 다차원척도법 : 다차원 척도법은 객체간의 근접성을 시각화화는 통계기법 2) 다차원 척도법의 측도 : 개체의 실제 거리와 모형에 의해 추정된 거리 사이의 적합도를 척정하기 위해 stress 척도를 사용한다. 2.주성분분석(PCA) (1) 주성분분석 개요 1)주성분분석의 개념 : 여러개의 변수 중 서로 상관성이 높은 변수들의 선형결합으로 새로운 변수(주성분)을 만들어 기존의 변수를 요약 및 축소하는 분석방법이다. 2)주성분분석의 목적 변수를 축소하여 모형의 설명력을 높임 다중공선성 문제를 해결 군집분석 시 모형의 성능을 높일 수 있음 IoT센서 데이터를 주성분분석 후 스마트팩토리에 활용 주성분분석 .. 2022. 3. 19.
ADsP 3과목 요점 정리_3과목 2장 통계분석_03 회귀분석 ADsP 3과목 요점 정리_3과목 2장 통계분석_03 회귀분석 03 회귀분석 1. 회귀분석 개요 (1) 회귀분석의 개념 1) 회귀분석 : 회귀분석이랑 하나 이상의 독립변수들이 종속변수에 얼마나 영향을 미치는지 추정하는 통계 기법이다. 2) 회귀분석의 종류 : 단순회귀, 다중회귀, 다항회귀, 비선형회귀 (2)회귀분석의 가정 선형성 독립변수와 종속변수가 선형적이여야 한다. 예외적으로 2차 함수 회귀선을 갖는 다항회귀붖ㄴ석의 경우에는 선형성을 갖지 않아도 된다. 산점도를 통해 분석하기 전에 변수 사이의 관계를 짐작할 수 있어 회귀분석하기전 상관분석은 거의 필수적으로 함께 따라온다. 독립성 단순회귀분석에서는 잔차와 독립변수의 값이 서로 독립이어야 한다. 독립변수가 여러개인 다중회귀 분석의 경우에는 독립변수들 간.. 2022. 3. 19.
ADsP 3과목 요점 정리_3과목 2장 통계분석_02 기초통계 ADsP 3과목 요점 정리_3과목 2장 통계분석_02 기초통계 02 기초통계 1. t-검정 (1) 일 표본 t-검정(one sample t-test) 1) 일 표본 t-검정의 개념 : 하나의 모집단의 평균(n) 값을 특정값과 비교하는 경우 사용 2) 일 표본 단측 t-검정 : 모수에 대한 검정을 할 때 모수값이 ' ~ 보다 크다 ' 혹은 '~보다 작다'와 같이 한쪽으로의 방향성을 갖는 경우 수행되는 검정 방법이다. 3) 일 표본 양측 t-검정 : 방향성을 갖지 않고 모수 값이 '~이다' 혹은 '~이 아니다'와 같이 방향성이 없는 경우 수행되는 검정 방법이다. (2)이(독립) 표본 t-검정(independent sample t-test) 1)이 표본 t-검정의 개념 : 서로 독립적인 두 개의 집단에 대하여.. 2022. 3. 17.
ADsP 3과목 요점 정리_3과목 2장 통계분석_01 통계의 이해_추정과 가설검정 ADsP 3과목 요점 정리_3과목 2장 통계분석_01 통계의 이해_추정과 가설검정 3. 추정과 가설검정 (1) 추정 1) 모수의 추정 : 모집단의 확률분포 및 특성을 알려주는 모평균과 모분산과 같은 값들인 모수라고 한다. 2) 점추정 : 모집단의 모수, 특히 모평균을 추정할 때 모평균을 하나의 특정한 값이라고 예측하는 것이다. 3) 구간추정 : 구간추정은 모수가 특정한 구간 안에 존재할 것이라 예상하는 것이다. (2) 가설검정 1) 가설검정의 개념 : 모집단의 특성에 대한 주장 또는 가설을 세우고 표본에서 얻은 정보를 이용해 가설이 옳은지를 판정하는 과정이다. 2) 귀무가설(null hypothesis) : 모집단이 어떠한 특징을 지닐 것으로 여겨지는 가설 3) 대립가설(alternative hypoth.. 2022. 3. 14.
ADsP 3과목 요점 정리_3과목 2장 통계분석_01 통계의 이해_확률과 확률분포 ADsP 3과목 요점 정리_3과목 2장 통계분석_01 통계의 이해_확률과 확률분포 2. 확률과 확률분포 (1) 확률 1) 확률 기초 - 확률 : 발생 가능한 모든 사건들의 집합 표본 공간에서 표본 공간의 부분집합인 특정 사건 A가 발생할 수 있는 비율 나타낸 값. 0과 1 사이의 값, 가능한 모든 사건의 확률의 합은 항상 1이다. - 조건부 확률 : 특정 사건 A가 발생했다는 것이 사실이라는 전제하에 또 다른 사건 B가 발생할 확률을 나타낸 값. 0과 1 사이의 값을 갖는다. 2) 독립 사건과 배반사건 - 독립사건 : 서로에게 영향을 주지 않는 두 개의 사건을 독립이라고 한다. - 배반 사건 : 두 사건 A와 B에 대하여 교집합, 즉 공통된 부분이 없는 경우를 배반 사건이라 한다. 동시에 일어날 수 없는.. 2022. 3. 13.
ADsP 3과목 요점 정리_3과목 2장 통계분석_01 통계의 이해 ADsP 3과목 요점 정리_3과목 2장 통계분석_01 통계의 이해 01 통계의 이해 1. 통계 개요 (1) 통계와 표본조사 1) 통계의 이해 통계 : 분석하고자하는 집단에 대해서 조사하거나 실험을 통해서 얻는 자료 또는 이의 요약된 형태 통계분석 : 특정집단을 대상으로 자료를 수집하여 대상 집단에 대한 정보를 구하고 적절한 통계분석 방법을 이용하여 의사결정 (통계적 추론)을 하는 과정 2) 표본조사 : 모집단을 대표할 수 있는 표본집단을 선별하여 표본조사를 실시한다. 이때 선별한 표본집단은 반드시 모집단을 대표할 수 있는 집단이어야 한다. 이를 표본의 대표성이라 한다. (2) 표본추출방법 1) 단순랜덤 추출법 : N개의 모집단에서 n개의 데이터를 무작위로 추출하는 방법이다. 2) 계통추출법 : 모집단의 .. 2022. 3. 12.
ADsP 3과목 요점 정리_3과목 1장 R기초와 데이터 마트 ADsP 3과목 요점 정리_3과목 1장 R기초와 데이터 마트 02 데이터 마트 1. 데이터 마트의 이해 (1) 데이터마트 : 데이터 마트란 데이터 웨어하우스로부터 특정사용자가 관심을 갖는 데이터를 주제별, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스 이다. (2) 데이터 전처리 : 데이터 마트를 개발했다면 전처리 단계를 거쳐야 한다. 빅데이터 분석단계에 들어가기전, 데이터를 전처리 하는 과정이 꼭 필욯다. 전처리에는 데이터를 정제하는 과정과 분석변수를 처리하는 과정이 포함된다. 데이터 정제 과정은 크게 결측값과 이상값을 처리하는 내용으로 이루어진다. 2. 데이터 마트 개발을 위한 R 패키지 활용 (1)reshape 패키지 melt 함수 : '녹이다' 라는 뜻의 melt 함수는 데이터를 특.. 2022. 3. 11.
ADsP 기출문제 오답노트 - 이론 정리 6 다중 선형 회귀분석 결과, 입력 변수 중 wt는 유의수준 0.1 하에서 유의하지만 나머지 변수는 유의 하지 않다. 필요에 따라서는 구축용과 시험용을 번갈아가며 사용하는 교차확인을 통해 모형을 평가하기도 한다. income은 체납확률을 예측하는데 유의한 변수가 아니다. 의사결정 나무알고리즘은 비정상적인 잡음데이터에 대해서도 민감함이 없이 분류할 수 있다. 비모수 검정 방법은 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시하고 관측된 자료의 수가 많지 않거나 자료가 개체간의 서열관계를 나타내는 경우 이용한다. 또 관측된 자료가 특정 분포를 따른다고 가정할 수 없는 경우 이용한다. 관측 된 자료로 구한 표본 평균과 표본 분산 등을 이용해 검정을 실시하는 것은 모수적 검정 방법이다. 2021. 10. 25.
ADsP 기출문제 오답노트 - 이론 정리 5 지지도를 구하는 공식은 P(A∩B)이므로 25%가 정답이다. 동일한 확률 분포를 가진 독립 확률 변수의 분포는 n이 적당히 크다면 (n은 30이상) 정규분포에 가까워진다는 정리이다. 비율척도는 측정대상의 간격에 대한 비율이 의미를 가지는 자료를 의미하고 무게, 나이 ,시간, 거리 정보가 해당한다. 베르누이 확률분포, 포아송 분포는 이산형 확률 분포이다. 다중회귀분석에서 변수 선택법 중 전진 선택법은 변수가 추가되면 기존 변수들의 중요도에 영향을 받게 된다. 다시 말해, 변수를 추가했는데 이미 선택된 변수의 유의수준이 높아지면 추가한 변수를 활용하지 못하게 된다. 분해시계열의 분해 요소는 추세요인, 계절요인,순환요인, 불규칙 요인으로 크게 4가지로 이루어진다. 다중 회귀분석의 결과에서 모형의 적절함을 확인.. 2021. 10. 25.
ADsP 기출문제 오답노트 - 이론 정리 4 기하, 이항 , 초기하 분포는 이산형 확률 분포이다. R에서 사용 가능한 데이터 오브젝트 (행렬, 벡터, 데이터 프레임, 리스트)에 관한 설명으로 데이터 프레임은 테이블로 된 구조인 것은 맞지만 행렬이 아닌 리스트 구조로 구현된다. a 2021. 10. 19.
ADsP 기출문제 오답노트 - 이론 정리 3 데이터 전처리 프로세스를 통하여 분석용 데이터 셋이 편성되면 분석 목적에 맞는 변수를 선택하거나 데이터의 차원을 축소하여 데이터마이닝을 효율적으로 적용될 수 있도록 데이터셋을 변경하는 프로세스를 데이터 변환이라고 한다. 분석적으로 사물을 인식하려는 'why' 관점은 일반적으로 사용되고 있는 문제 해결방식인 하향식 접근 방식을 말한다. 분석프로젝트 관리에서 일정계획 수립시 데이터 수집에 대한 철저한 통제와 관리보다 분석 범위가 빈번하게 변경되므로 시간이 소요될 수도 있다. 따라서 Time Boxing 기법과 같은 방법으로 일정관리를 진행하는 것이 필요하다. 채널영역은 영업 사원, 직판 대리점과 홈페이지 등의 자체적으로 운영하는 채널뿐만아니라 최종 고객에게 상품, 서비스를 전달하는데 있어서 가능한 경로에 존.. 2021. 10. 18.
ADsP 기출문제 오답노트 - 이론 정리 2 데이터 웨어하우스는 비휘발성(NonVolatile)을 특징을 가지고 있으므로, 일단 데이터가 적재되면 일괄 처리 (Batch처리)외에는 별도의 갱신이 이루어지지 않는다. 데이터웨어하우스는 데이터를 주제별로 저장하기 때문에 최종사용자 혹은 전산 지식에 약한 분석자도 이해하기 쉬운 형태를 취한다. 맵리듀스에서 블록크기의 기본값은 64MB이고, 맵 태스크하나가 1개의 블록을대상으로 연산을 수행한다. 따라서 320MB 크기의 파일을 대상으로 작업을 수행하면 5개의 맵 태스크가 생성된다 (320/64=5개) 데이터 스테이징 단계에서는 정기적인 ETL과 실시간 ETL을 혼용할 수 있고, 저장되는 테이블의 스키마는 데이터 원천의 구조에 의존한다. 데이터 원천과 스테이징 테이블과의 매핑은 일대일 혹은 일대다로 구성될수.. 2021. 10. 14.
ADsP 기출문제 오답노트 - 이론 정리 1 구글의 'Ngram Viewer'를 통해 우리가 확인하기 힘들었던 부분을 찾을 수 있도록 해주는 빅데이터의 비유는 "렌즈"이다. 빅데이터의 가치 산정이 어려운 이유는 다음과 같다. 빅데이터 활용 방식: 재사용, 재조합, 다목적용 개발 새로운 가치 창출 분석 기술 발전 하라스엔터테인먼트의 회장인 러브먼이 언급한 분석 기반 경영이 도입되지 못하는 이유로 "사람들은 아이디어 자체보다는 아이디어를 낸 사람이 누군지에 더 많이 관심을 가지고 있다"고 이야기 했다. DML(Data Manipulation Language)는 테이블에 데이터 검색, 삽입 ,수정, 삭제하는데 사용하여 SELECT, INSERT,UPDATE,DELETE 등이 있다. DDL (Data Definition Language)는 테이블이나 관계.. 2021. 10. 13.
ADSP 요약정리 - 6장 시뮬레이션 및 최적화 - 최적화 제 3절 최적화 - 최적화 기법으로 체계적으로 접근해 결정하기는 쉬운일이 아니며 결정의 질 도한 평가하기 어려움 - 최적화방법으로 선형계획법(수리계획법 분야의 한 종류)을 가장 많이 사용 - 최적화 모델은 목적식을 최대화 / 최소화 하기도 하며 등식 / 부등식이라는 제약식을 가짐 * 최적화 적용함으로 최적 경영기법을 구할 수 있는 것은 아님 - 모델의 기본적인 두 가정 * 계수의 확실성 : 불확실성이 존재할 경우 최적화 방법 적용 불가 -민감도 분석 : 자료 미비로 계수의 정확도를 알기 어려울 경우 계수 값을 여러가지로 추정하면서 해의 결과가 어떻게 변하는가를 보고 의사결정 * 명확한 함수 형태 * 최적화는 문제의 성격과 목적에 따라 최소점/ 최대점을 찾는 방법 - 제약조건 만족시키는 범위에서 목적함수의.. 2021. 10. 9.