본문 바로가기

빅데이터78

ADsP 3과목 요점 정리_3과목 3장 정형데이터 마이닝_03 군집분석 ADsP 3과목 요점 정리_3과목 3장 정형 데이터 마이닝_03 군집분석 03군집분석 1. 군집분석 (1) 군집분석 개요 : 여러 변수로 표현된 자료들 사이의 유사성을 측정하고 유사한 자료들끼리 몇 개의 군집으로 묶고 다변량 분석(상관분석, 회귀분석, 주성분 분석 등)을 활용하여 각 군집에 대한 특징을 파악하는 기법 (2) 거리 측도 1) 변수가 연속형인 경우 - 유클리디안 거리 : 두 점 사이의 거리를 계산할 때 가장 널리 쓰이는 계산 방법으로 두 점 사이의 가장 짧은 거리를 계산한다. - 맨해튼 거리 : 두 점 사이를 가로지르지 않고 길을 따라갔을 때의 거리 - 체비 셰프 거리 : 변수 간 거리 차이 중 최댓값을 데이터 간의 거리로 정의한다. - 마할라노비스 거리 : 표준화 거리가 고려하지 못한 변수.. 2022. 3. 28.
ADsP 3과목 요점 정리_3과목 3장 정형데이터 마이닝_02 분류분석 ADsP 3과목 요점 정리_3과목 3장 정형 데이터 마이닝_02 분류 분석 02 분류 분석 1. 로지스틱 회귀분석 (1) 로지스틱 회귀분석 개요 1) 로지스틱 회귀분석 : 회귀분석을 분류에 이용한 방법으로, 독립변수의 선형 결합을 이용해 사건의 발생 가능성을 예측하는 분석방법으로 종속변수가 범주형 변수일 때 사용 가능하다. 2) 로지스틱스 회귀분석의 변수 : 책 참고 (2) 로지스틱 회귀분석의 알고리즘 1) 오즈 : 오즈란 성공할 확률이 실패할 확률의 몇 배인지를 나타내는 값이다. 2) 로짓 : 오즈에 로그 값을 취한 것이 로짓이다. 3) 시그모이드 함수 : 로직 스틱 회귀 부석과 인공 신경망 분석에서 사용된다. 시그모이드 함수는 로짓 함수와 역함수 관계이기 때문에 로짓 함수를 통해 시그모이드 함수가 도.. 2022. 3. 25.
ADsP 3과목 요점 정리_3과목 3장 정형데이터 마이닝_01 데이터마이닝 ADsP 3과목 요점 정리_3과목 3장 정형 데이터 마이닝_01 데이터 마이닝 01 데이터 마이닝 1. 데이터 마이닝 개요 (1) 데이터 마이닝의 이해 1) 데이터 마이닝이란 : 방대한 양의 데이터 속에서 숨겨진 규칙, 패턴 등을 찾아내어 예측하거나 의사결정에 활용하는 것을 목적으로 한다. 2) 통계분석과 데이터 마이닝의 차이 - 통계분석 : 표본을 통해 의미 있는 자료를 추출하고, 이를 기반으로 의사결정, 요약, 연관성 파악, 예측 등의 결과로 이어지도록 하는 일련의 과정을 말한다. 통계분석은 [수집→정제→추정→검정]의 과정을 통해 이루어진다. 통계학은 표본이 있어야 한다는 것과 그 표본을 통해 모집단의 어떤 특성을 추정하고 검정한다는 것이 중요하다 '가설과 검정'이라는 개념도 포함되어 있다. - 데이.. 2022. 3. 24.
ADsP 3과목 요점 정리_3과목 2장 통계분석_05 시계열분석 ADsP 3과목 요점 정리_3과목 2장 통계분석_05 시계열 분석 05 시계열 분석 1. 시계열 분석 개요 (1) 시계열 분석의 개념 1) 시계열 분석의 개념 : 시계열 분석은 일정 시간 간격으로 기록된 자료들에 대하여 특성을 파악하고 미래를 예측하는 분석 방법이다. 2) 시계열 자료의 자기 상관성 : (책 참고) 3) 시계열 분석의 자료 : 시계열 분석의 자료는 크게 정상성 시계열 자료와 비정상성 시계열 자료로 구분되는데, 대부분 시계열 자료는 비정상성 시계열 자료이다. (2) 시계열 자료의 정상성 조건 1) 일정한 평균 : 모든 시점에 대하여 평균이 일정해야 한다. 그렇지 않다면 차분을 통해 정상화할 수 있다. 차분이란 현시점의 자료 값에서 전 시점의 자료 값을 빼는 것이다. 2) 일정한 분산 : 모.. 2022. 3. 21.
ADsP 3과목 요점 정리_3과목 2장 통계분석_04 다변량 분석 ADsP 3과목 요점 정리_3과목 2장 통계분석_04 다변량 분석 04다변량분석 1.다차원 척도법의 개요 1) 다차원척도법 : 다차원 척도법은 객체간의 근접성을 시각화화는 통계기법 2) 다차원 척도법의 측도 : 개체의 실제 거리와 모형에 의해 추정된 거리 사이의 적합도를 척정하기 위해 stress 척도를 사용한다. 2.주성분분석(PCA) (1) 주성분분석 개요 1)주성분분석의 개념 : 여러개의 변수 중 서로 상관성이 높은 변수들의 선형결합으로 새로운 변수(주성분)을 만들어 기존의 변수를 요약 및 축소하는 분석방법이다. 2)주성분분석의 목적 변수를 축소하여 모형의 설명력을 높임 다중공선성 문제를 해결 군집분석 시 모형의 성능을 높일 수 있음 IoT센서 데이터를 주성분분석 후 스마트팩토리에 활용 주성분분석 .. 2022. 3. 19.
ADsP 3과목 요점 정리_3과목 2장 통계분석_03 회귀분석 ADsP 3과목 요점 정리_3과목 2장 통계분석_03 회귀분석 03 회귀분석 1. 회귀분석 개요 (1) 회귀분석의 개념 1) 회귀분석 : 회귀분석이랑 하나 이상의 독립변수들이 종속변수에 얼마나 영향을 미치는지 추정하는 통계 기법이다. 2) 회귀분석의 종류 : 단순회귀, 다중회귀, 다항회귀, 비선형회귀 (2)회귀분석의 가정 선형성 독립변수와 종속변수가 선형적이여야 한다. 예외적으로 2차 함수 회귀선을 갖는 다항회귀붖ㄴ석의 경우에는 선형성을 갖지 않아도 된다. 산점도를 통해 분석하기 전에 변수 사이의 관계를 짐작할 수 있어 회귀분석하기전 상관분석은 거의 필수적으로 함께 따라온다. 독립성 단순회귀분석에서는 잔차와 독립변수의 값이 서로 독립이어야 한다. 독립변수가 여러개인 다중회귀 분석의 경우에는 독립변수들 간.. 2022. 3. 19.
ADsP 3과목 요점 정리_3과목 2장 통계분석_02 기초통계 ADsP 3과목 요점 정리_3과목 2장 통계분석_02 기초통계 02 기초통계 1. t-검정 (1) 일 표본 t-검정(one sample t-test) 1) 일 표본 t-검정의 개념 : 하나의 모집단의 평균(n) 값을 특정값과 비교하는 경우 사용 2) 일 표본 단측 t-검정 : 모수에 대한 검정을 할 때 모수값이 ' ~ 보다 크다 ' 혹은 '~보다 작다'와 같이 한쪽으로의 방향성을 갖는 경우 수행되는 검정 방법이다. 3) 일 표본 양측 t-검정 : 방향성을 갖지 않고 모수 값이 '~이다' 혹은 '~이 아니다'와 같이 방향성이 없는 경우 수행되는 검정 방법이다. (2)이(독립) 표본 t-검정(independent sample t-test) 1)이 표본 t-검정의 개념 : 서로 독립적인 두 개의 집단에 대하여.. 2022. 3. 17.
ADsP 3과목 요점 정리_3과목 2장 통계분석_01 통계의 이해_추정과 가설검정 ADsP 3과목 요점 정리_3과목 2장 통계분석_01 통계의 이해_추정과 가설검정 3. 추정과 가설검정 (1) 추정 1) 모수의 추정 : 모집단의 확률분포 및 특성을 알려주는 모평균과 모분산과 같은 값들인 모수라고 한다. 2) 점추정 : 모집단의 모수, 특히 모평균을 추정할 때 모평균을 하나의 특정한 값이라고 예측하는 것이다. 3) 구간추정 : 구간추정은 모수가 특정한 구간 안에 존재할 것이라 예상하는 것이다. (2) 가설검정 1) 가설검정의 개념 : 모집단의 특성에 대한 주장 또는 가설을 세우고 표본에서 얻은 정보를 이용해 가설이 옳은지를 판정하는 과정이다. 2) 귀무가설(null hypothesis) : 모집단이 어떠한 특징을 지닐 것으로 여겨지는 가설 3) 대립가설(alternative hypoth.. 2022. 3. 14.
ADsP 3과목 요점 정리_3과목 2장 통계분석_01 통계의 이해_확률과 확률분포 ADsP 3과목 요점 정리_3과목 2장 통계분석_01 통계의 이해_확률과 확률분포 2. 확률과 확률분포 (1) 확률 1) 확률 기초 - 확률 : 발생 가능한 모든 사건들의 집합 표본 공간에서 표본 공간의 부분집합인 특정 사건 A가 발생할 수 있는 비율 나타낸 값. 0과 1 사이의 값, 가능한 모든 사건의 확률의 합은 항상 1이다. - 조건부 확률 : 특정 사건 A가 발생했다는 것이 사실이라는 전제하에 또 다른 사건 B가 발생할 확률을 나타낸 값. 0과 1 사이의 값을 갖는다. 2) 독립 사건과 배반사건 - 독립사건 : 서로에게 영향을 주지 않는 두 개의 사건을 독립이라고 한다. - 배반 사건 : 두 사건 A와 B에 대하여 교집합, 즉 공통된 부분이 없는 경우를 배반 사건이라 한다. 동시에 일어날 수 없는.. 2022. 3. 13.
ADsP 3과목 요점 정리_3과목 2장 통계분석_01 통계의 이해 ADsP 3과목 요점 정리_3과목 2장 통계분석_01 통계의 이해 01 통계의 이해 1. 통계 개요 (1) 통계와 표본조사 1) 통계의 이해 통계 : 분석하고자하는 집단에 대해서 조사하거나 실험을 통해서 얻는 자료 또는 이의 요약된 형태 통계분석 : 특정집단을 대상으로 자료를 수집하여 대상 집단에 대한 정보를 구하고 적절한 통계분석 방법을 이용하여 의사결정 (통계적 추론)을 하는 과정 2) 표본조사 : 모집단을 대표할 수 있는 표본집단을 선별하여 표본조사를 실시한다. 이때 선별한 표본집단은 반드시 모집단을 대표할 수 있는 집단이어야 한다. 이를 표본의 대표성이라 한다. (2) 표본추출방법 1) 단순랜덤 추출법 : N개의 모집단에서 n개의 데이터를 무작위로 추출하는 방법이다. 2) 계통추출법 : 모집단의 .. 2022. 3. 12.
ADsP 3과목 요점 정리_3과목 1장 R기초와 데이터 마트 ADsP 3과목 요점 정리_3과목 1장 R기초와 데이터 마트 02 데이터 마트 1. 데이터 마트의 이해 (1) 데이터마트 : 데이터 마트란 데이터 웨어하우스로부터 특정사용자가 관심을 갖는 데이터를 주제별, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스 이다. (2) 데이터 전처리 : 데이터 마트를 개발했다면 전처리 단계를 거쳐야 한다. 빅데이터 분석단계에 들어가기전, 데이터를 전처리 하는 과정이 꼭 필욯다. 전처리에는 데이터를 정제하는 과정과 분석변수를 처리하는 과정이 포함된다. 데이터 정제 과정은 크게 결측값과 이상값을 처리하는 내용으로 이루어진다. 2. 데이터 마트 개발을 위한 R 패키지 활용 (1)reshape 패키지 melt 함수 : '녹이다' 라는 뜻의 melt 함수는 데이터를 특.. 2022. 3. 11.
ADsP 기출문제 오답노트 - 이론 정리 6 다중 선형 회귀분석 결과, 입력 변수 중 wt는 유의수준 0.1 하에서 유의하지만 나머지 변수는 유의 하지 않다. 필요에 따라서는 구축용과 시험용을 번갈아가며 사용하는 교차확인을 통해 모형을 평가하기도 한다. income은 체납확률을 예측하는데 유의한 변수가 아니다. 의사결정 나무알고리즘은 비정상적인 잡음데이터에 대해서도 민감함이 없이 분류할 수 있다. 비모수 검정 방법은 모집단의 분포에 대한 아무 제약을 가하지 않고 검정을 실시하고 관측된 자료의 수가 많지 않거나 자료가 개체간의 서열관계를 나타내는 경우 이용한다. 또 관측된 자료가 특정 분포를 따른다고 가정할 수 없는 경우 이용한다. 관측 된 자료로 구한 표본 평균과 표본 분산 등을 이용해 검정을 실시하는 것은 모수적 검정 방법이다. 2021. 10. 25.
ADsP 기출문제 오답노트 - 이론 정리 5 지지도를 구하는 공식은 P(A∩B)이므로 25%가 정답이다. 동일한 확률 분포를 가진 독립 확률 변수의 분포는 n이 적당히 크다면 (n은 30이상) 정규분포에 가까워진다는 정리이다. 비율척도는 측정대상의 간격에 대한 비율이 의미를 가지는 자료를 의미하고 무게, 나이 ,시간, 거리 정보가 해당한다. 베르누이 확률분포, 포아송 분포는 이산형 확률 분포이다. 다중회귀분석에서 변수 선택법 중 전진 선택법은 변수가 추가되면 기존 변수들의 중요도에 영향을 받게 된다. 다시 말해, 변수를 추가했는데 이미 선택된 변수의 유의수준이 높아지면 추가한 변수를 활용하지 못하게 된다. 분해시계열의 분해 요소는 추세요인, 계절요인,순환요인, 불규칙 요인으로 크게 4가지로 이루어진다. 다중 회귀분석의 결과에서 모형의 적절함을 확인.. 2021. 10. 25.
ADsP 기출문제 오답노트 - 이론 정리 4 기하, 이항 , 초기하 분포는 이산형 확률 분포이다. R에서 사용 가능한 데이터 오브젝트 (행렬, 벡터, 데이터 프레임, 리스트)에 관한 설명으로 데이터 프레임은 테이블로 된 구조인 것은 맞지만 행렬이 아닌 리스트 구조로 구현된다. a 2021. 10. 19.
ADsP 기출문제 오답노트 - 이론 정리 3 데이터 전처리 프로세스를 통하여 분석용 데이터 셋이 편성되면 분석 목적에 맞는 변수를 선택하거나 데이터의 차원을 축소하여 데이터마이닝을 효율적으로 적용될 수 있도록 데이터셋을 변경하는 프로세스를 데이터 변환이라고 한다. 분석적으로 사물을 인식하려는 'why' 관점은 일반적으로 사용되고 있는 문제 해결방식인 하향식 접근 방식을 말한다. 분석프로젝트 관리에서 일정계획 수립시 데이터 수집에 대한 철저한 통제와 관리보다 분석 범위가 빈번하게 변경되므로 시간이 소요될 수도 있다. 따라서 Time Boxing 기법과 같은 방법으로 일정관리를 진행하는 것이 필요하다. 채널영역은 영업 사원, 직판 대리점과 홈페이지 등의 자체적으로 운영하는 채널뿐만아니라 최종 고객에게 상품, 서비스를 전달하는데 있어서 가능한 경로에 존.. 2021. 10. 18.
파이썬의 기초 (python 3.7) - 함수 ■함수의 모습 def 함수이름 (입력값 변수, 입력값 변수,...): ​ ■함수 특징 함수 호출이 되기 전까지 함수 안에 있는 문장은 수행이 안됨. 함수는 호출 되기 전에 먼저 만들어져야 함. 입력값은 함수 안에서 변수로 사용됨. 제어문과 마찬가지로 공백 중요함. ■함수의 동작과정 def pirnt_name(): print('-'*15) print('my name is \"jeasub"\"') print("hello korea") print_name() print_name() print_name()​ ■결과를 반환하는 함수 함수를 호출한 곳에 결과값을 전달하는 함수 따라서 함수내에서 실행한 문장들의 결과값이 필요할 때 사용 ■반환 해보자 return 값 함수는 return을 만나면 끝나버림 def my_.. 2021. 10. 17.
파이썬의 기초 (python 3.7) - 반복문_ while문 ■while문 언제 쓰나? 뭐든 간에 반복이 필요한 부분에 사용 => for문과 비슷 while문도 반복을 하지만 for문은 데이터의 수만큼 반복해주고 while문은 특정 조건을 만족할 때까지 반복해준다. ■문법 while 조건문 : 실행할 문장 ■예시 user_input='' while user_input !='quit' user_input = input('Input: ') print (user_input)​ 사용자에게 계속 입력을 받고 그 값이 quit이 아니면 입력 받은 내용을 출력한다. ■while 문 활용 예시 학생 리스트에서 하나씩 꺼내면서 출력해줘 students = ['taehw','yongseong','john','alghost','woong'] while students : print(.. 2021. 10. 16.
파이썬의 기초 (python 3.7) - 반복문_ for 문 ■반복문_for문, 이럴 때 쓴다!! 100명한테 이메일을 보내줘 => 원하는 회수만큼 반복 ['A','B','C']를 반복해줘 => 반복해야할 데이터가 이미 있을 때 ■문법 for 변수명 in 리스트, 튜플, 문자열: 실행할 문장 실행할 문장 예시 for looper in [1,2,3,4,5] print(looper)​ ■range 함수를 쓰자 for문과 매우 친찬 함수이니 미리 배워보자 100번 반복을 위해 [1,2,3,4,...100]을 만들수는 없다. range가 만들어준다 => range(100):[0,1,2,3,4,..,99] 즉, range함수는 입력한 숫자에 맞는 리스트를 만들어 줌 ■예시 for looper in range (100): print(looper)​ 0~99까지 출력된다. ■.. 2021. 10. 15.