본문 바로가기
AI 관련/ADsP, ADP

ADsP 3과목 공부 _1

by 팀장일기 2021. 5. 4.

■변수 선택법
- 모든 가능한 독립변수들의 조합에 대한 회귀모형을 분석해 가장 적합한 모형 선택

①전진 선택법
: 절편만 있는 상수 모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가
: 이해하기 쉬움. 많은 변수에서 활용 가능. 변수 값의 작은 변동에 결과가 달라져 안전성이 부족

②후진 제거법(후진 소거법)
: 독립변수 후보 모두를 포함한 모형에서 가장 적은 영향을 주는 변수부터 하나씩 제거
: 전체 변수들의 정보를 이용 가능. 변수가 많은 경우 활용이 어려움. 안정성 부족

③단계별 방법
: 전진 선택법에 의해 변수를 추가하면서 새롭게 추가된 변수에 기인해 기존 변수의 그 중요도가 약화되면 해당 변수를 제거하는 등 단계별로 추가 또는 삭제되는 변수를 검토해 더 이상 없을 때 중단.


■주성분 분석(PCA)

- Principal component Analysis
- 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저 차원 자료로 변환시키는 방법.
- 자료의 차원을 축약시키는데 주로 사용
- 분석 목표
: 어떤 결과에 영향을 미치는 요인들 사이의 관계와 핵심 요인의 선별
-설명
: 어떤 측정값에 변화 요인이 되는 값들이 세 개의 차원이라고 할 때, 각 차원들 중에 어떤 것이 측정값에 가장 큰 영향을 미치는지. 각 차원은 다른 차원의 영향력과 어느 정도 겹치는지 분석

■ R 명령어
- lm(종속변수 ~설명변수, 데이터 세트)
: 사용할 분석 방법은 회귀분석인 것을 인지 시켜줌.

-Direction="변수 선택 방법"
: 선택 가능한 옵션은 forward. backward.both가 있음.

- scope=list(lower=~1, upper~설명변수)
: Scope는 분석할 때 고려할 변수의 범위를 정함. 변수 선택 과정에서 설정할 수 있는 가장 큰 모형 혹은 가장 작은 모형을 설정.

-scope가 없을 경우
: 전진 선택법에서는 현재 선택한 모형을 가장 큰 모형 후진 소거법에서는 상수항만 있는 모형을 가장 작은 모형으로 설정함.

■계층적 군집
- 거리
: 군집분석에서는 관측 데이터 간 유사성이나 근접성을 측정해 어느 군집으로 묶을 수 있는지 판단해야 함.
- 계층적 군집
: 가장 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법

게층적 거리 

□수학적 거리
-유클리드 거리
: 데이터 간의 유사성을 측정할 때 많이 사용하는 거리, 통계적 개념이 내포되어 잇지 않아 변수들의 산포 정도가 전혀 감안되어 있지 않았다.

-맨해튼 또는 시가 거리
: 유클리드 거리와 함께 가장 많이 사용되는 거리로 맨해튼 도시에서 건물에서 건물을 가기 위한 최단 거리를 구하기 위해 고안된 거리이다.

-민코 우스키 거리
: 맨해튼 거리와 유클리드 거리를 한 번에 표현한 공식으로 L1 거리(맨해튼 거리) , L2 거리 (유클리드 거리)라 불리고 있다.


□통계적 거리
-표준화 거리
: 해당 변수의 표준편차로 척도 변환한 후 유클리드 안 거리를 계산하는 방법이다. 표준화하게 되면 척도의 차이, 분산의 차이로 인한 왜곡을 파할 수 있다.

-마할라노비스 거리
:통계적 개념이 포함된 거리이며 변수들의 산포를 고려하여 이를 표준화한 거리이다. 두 벡터 사이의 거리를 산포를 의미하는 표본 공분산으로 나눠주어야 하며, 그룹에 대한 사전지식 없이는 표본공분산 S를 계산할 수 없으므로 사용하기 곤란하다.

☞Q. 군집분석에서는 관측값들이 서로 얼마나 유사한지 또는 유사하지 않은지를 측정할 수 있는 측도가 필요하며 보통 그 측 도로 데이터 간의 거리를 이용할 수 있다. 변수들이 연속형인 경우 사용할 수 있는 측도 중 데이터에 이상치가 존재한다고 여겨지고 그것들을 제거할 수 없는 경우에 사용할 수 있는 로버스트(Robust)한 측도는 무엇인가?

답: (맨해튼 거리)


■Durbin Watson Test 정의
주어진 데이터를 바탕으로 계열 상관의 유무를 검증하는 통계량. 회귀분석의 잔차에서 자기 상관관계를 측정

-회귀분석
: 하나 또는 그이 상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법

-잔차
: 회귀식에 의해 추정된 값과 실제값(입력값)의 차이

■Durbin Watson Test 통계량 수치
통계량 수치가
① 0이나 4에 가까울수록 오차 변수들 사이에 상관관계가 큰 것
② 2에 가까울수록 상관관계가 적은 것
③ 시계열 관계가 있다는 의미
: dl과 du는 아래 Durbin Watson (알파=0.05) table에 따라 달라진다. (n은 데이터 개수. k는 변수 개수)


■ 상관분석
- 두 변수 간의 상관관계를 상관계수를 이용하여 확인할 수 있음.
- 상관계수
① 상관계수는 -1에서 1 사이의 값으로 [양수: 양의 상관, 음수:음의 상관]으로 표현
② 상관계수가 0이면 데이터 간의 상관이 없음.

■상관관계 그래프

■상관관계 그래프 해석
- 상관계수가 r 일 때
① 0≤r≤1(양의 상관) : x↑ ☞ y
②-1≤r≤0(음의 상관): x☞ y↓
③ r=0 : x의 변동에 따라 y의 패턴이 변화 없음.

-산점도와 상관계수의 관계
① 산점도가 직선에 가깝게 분포하면 상관계수의 절댓값이 1에 가까워지고 이는 강한 상관관계를 반영함.
② 산점도가 직선에서 넓게 퍼져 x와 y의 직선상의 관계까 희미할수록 상관계수는 0에 가까워짐.

■회귀분석
-하나 또는 그이 상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법

-선형 회귀분석의 가정 (데이터가 전제로 하는 가정)
선형성 : 입력 변수와 출력 변수의 관계가 선형 관계가 있음
독립성 : 잔차와 독립변인의 값이 관련이 없어야 함.
등분 산성: 독립변인의 모든 값에 대한 오차들의 분산이 일정
비상 관성 : 관측치들의 잔차들끼리 상관이 없어야 함.
정상성 : 잔차항이 정규분포를 이뤄야 함.

■데이터 마이닝
- 정의
: 거대한 양의 데이터 속에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 과정

-통계분석과 데이터 마이닝의 차이점 :
① 통계 분석
: 가설이나 가정에 따른 분석이나 검증
② 데이터 마이닝
: 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미 있는 정보를 찾아내는 방법을 통칭

■데이터 마이닝 추진단계

- 목적 설정
▶ 데이터 마이닝을 통해 무엇을 왜 하는지 명확한 목적을 설정한다.
▶ 전문가가 참여해 목적에 따라 사용할 모델과 필요한 데이터를 정의한다.

-데이터 준비
▶고객정보와 거래정보. 상품 마스터 정보 등 데이터 마이닝 수행에 필요한 데이터를 수집하는 단계
▶IT 부서와 사전 협의하고 일정을 조율하여 데이터 접근 부하에 유의하여야 함. 필요시 다른 서버에 저장하여 운영에 지장이 없도록 데이터를 준비함.
▶데이터 정제를 통해 데이터의 품질을 보장하고, 필요시 보강작업을 거쳐 충분한 양의 데이터를 확보함.

-데이터 가공
▶모델링 목적에 따라 목적 변수를 정의함.
▶필요한 데이터를 데이터 마이닝 소프트 웨어에 적용할 수 있는 형식으로 가공함.

-데이터 마이닝 기법의 적용
▶1단계(목적 설정)에서 명확한 목적에 맞게 데이터 마이닝 기법을 적용하여 정보 추출.

-검증
▶마이닝으로 추출된 정보를 검증
▶테스트 마케팅과 과거 데이터를 활용하여 최적의 모델을 선정함.
▶검증 완료 후 IT 부서와 협의해 상시 데이터 마이닝 결과를 업무에 적용하고 보고서를 작성하여 추가 수익과 투자 대비 성과(ROI) 등으로 기대효과를 알릴 수 있음.

■연관분석
-기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위한 분석
-연관 분석의 종류
▶ 장바구니 분석 : 장바구니에 무엇이 들어 있는지 분석
(예: 커피머신을 사러 온 사람은 커피 캡슐도 함께 사간다.)
▶ 순차 분석 : 구매이력을 분석해서 A품목을 산 후 추가 B 품목을 사는지를 분석.
(예: 세탁기를 새로 구매한 고객은 한 달 내에 건조기를 구매한다.)


■연관 규칙
- 조건과 발의의 형태 (if- then)
= 항목들 간의 '조건-결과'식으로 표현되는 유용한 패턴


(item set A) => (item set B)
IF A then B : 만일 A가 일어나면 B가 일어난다.


■연관 규칙의 측정 지표
- 지지도 (support)
: 전체 거래 중에서 품목 A, B 가 동시에 포함되는 거래의 비율

-신뢰도(confidence)
: 품목 A가 포함된 거래 중에서 품목 A, B를 동시에 포함하는 거래 일 확률은 어느 정도인가를 나타내 주며 연관성의 정도를 파악할 수 있음.

-향상도(lift)
: 품목 B를 구매한 고객 대비 품목 A를 구매한 후 품목 B를 구매하는 고객에 대한 확률을 의미함.

 

향상도 의미
1 두 품목이 서로 독립
1보다 크다 두 품목이 서로 양의 상관관계
1보다 작다 두 품목이 서로 음의 상관관계


■자료형 데이터 구조 변환
R에서 객체는 다양한 형태를 가질 수 있다. 예를 들어 문자형 변수, 실수형 변수, 논리 연산자, Factor 데이터 프레임 등이 있다. 주어진 객체의 데이터 구조를 다른 구조로 바꾸자 할 때 다음과 같은 함수들을 사용해 변환할 수 있다.

-as. data. frame(x) : 데이터 프레임 형식으로 변환한다.
-as. list(x) : 리스트 형식으로 변환한다.
-as. matrix(x) : 행렬 형식으로 변환한다.
-as. vector(x) : 벡터 형식으로 변환한다.
-as. factor(x) 팩터(factor) 형식으로 변환한다.


■의사 결정 나무 모형
- 정의
: 의사결정 나무 또는 나무 모형은 의사결정 규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석방법


■의사결정 나무의 구조
▶ 뿌리 마디 : 맨 위 마디 = [ 분류 (또는 예측) 대상이 되는 모든 자료 집단을 포함]
▶ 부모 마디 : 주어진 마디의 상위 마디.
▶ 자식 마디 : 하나의 마디로부터 분리되어 나간 2개 이상의 마디들
▶ 최종 마디 (끝마디) : 자식 마디가 없는 마디 = [더 이상 분기되지 않는 마디.]
▶ 중간 마디 : 부모 마디와 자식 마디가 모두 있는 마디
▶ 가지 : 뿌리 마디로부터 끝 마디까지 연결된 마디들
▶ 깊이 : 뿌리 마디부터 끝마디까지의 중간 마디들의 수
▶ 가지 분할 : 나무의 가지를 생성하는 과정
▶ 가지치기 : 생성된 가지를 잘라내어 모형을 단순화하는 과정


■의사결정 나무의 활용
-세분화 : 데이터를 비슷한 특성을 갖는 몇 개의 그룹으로 분할해 그룹별 특성을 발견
-분류 : 관측 개체를 여러 예측 변수들에 근거해 목표 변수의 범주를 몇 개의 등급으로 분류하고자 하는 경우
-예측 : 자료에서 규칙을 찾아내고 이를 이용해 미래의 사건을 예측하고자 하는 경우
-의사결정 분석의 분석 단계
: 성장단계 -> 가지치기 단계 -> 타당성 평가 단계 -> 해석 및 예측 단계

-차원 축소 및 변수 선택 : 매우 많은 수의 예측 변수들을 결합해 목표 변수에 적용하여 파악하고자 하는 경우
-교호 작용효과의 파악 : 여러 개의 예측 변수들을 결합해 목표 변수에 작용하여 파악하고자 하는 경우
-범주의 병합 또는 연속형 변수의 이산화 : 범주형 목표 변수의 범주를 소수의 몇 개로 병합하거나 연속형 목표 변수를 몇 개의 등급으로 이산화 하고자 하는 경우


■불순도에 따른 분할 측도
-카이제곱 통계량
-지니 지수
-엔트로피 지수


■ 의사결정 나무모형의 장, 단점
- 장점
▶구조가 단순하여 해석이 용이
▶유용한 입력 변수의 파악과 예측 변수 간의 상호작용 및 비선형성을 고려하여 분석이 수행
▶선형성, 정규성, 등분 산성 등의 수학적 가정이 불필요한 비모수적 모형

-단점
▶분류기준값의 경계선 근방의 자료 값에 대해서는 오차가 클수록 (비연속성) , 로지스틱 회귀와 같이 각 예측 변수의 효과를 파악하기 어려움.
▶새로운 자료에 대한 예측이 불안정할 수 있음.


■데이터 프레임
데이터 프레임: 강력하고 유연한 구조. SAS의 데이터셋을 모방해서 만들어짐.

-특징
▶데이터 프레임의 리스트의 원소는 벡터 또는 요인.
▶그 벡타와 요인 =데이터 프레임의 열
▶벡터와 요인들은 동일한 길이.
▶동일한 벡터와 요인들은 데이터 프레임을 사각으로 만듦
▶열에는 이름이 있어야 함.


이 글과 함께 읽으면 좋은글

 

ADsP 1과목 공부_1

■빅데이터 출현 배경 -개별기업의 고객 데이터 축적 및 활용 증가 -인터넷 확산 -저장 기술의 발전과 가격 하락 -모바일 시대의 도래와 스마트 단말의 보급 -클라우드 컴퓨팅 기술 발전 -비정형

chinggu2000.tistory.com

 

ADsP 1과목 공부 _2

■ 암묵지와 형식지 데이터는 지식경영의 핵심 이슈인 암묵지와 형식지의 상호작용에 있어 중요한 역할을 함. - 암묵지 : 개인에게 축적된 내면화된 지식 => 조직의 지식으로 공통화 - 형식지 :

chinggu2000.tistory.com

 

ADsP 2과목 공부 _1

■데이터 거버넌스 체계 ◇데이터 표준화 : 데이터 표준 용어 설명. 명명 규칙 수립. 메타데이터 구축 데이터 사전 구축 등의 업무로 구성됨 ◇데이터 관리 체계 : 데이터 정합성 및 활용의 효율

chinggu2000.tistory.com

 

ADsP 3과목 공부 _2

■비모수 검정 ■모수적 검정과 비모수 검정의 차이점 - 모수적 검정 ①가정된 분포의 모수 : (예를 들어 모평균 μ, 모비율 p, 모분산σ² 등)에 대해 가설을 설정  ②관측된 자료를 이용해 구한

chinggu2000.tistory.com

 

ADsP 3과목 공부 _3

■ 연관분석 Q. 교차 판매/ 물건 배치 등에 이용되는 기법은? (연관분석) "어느 고객이 어떤제품을 같이 구매할까?" ☞ 연관분석 실시 ☞ 교차판매 ■연관성분석 연관성분석 연관규칙 : 항목들 간

chinggu2000.tistory.com

 

'AI 관련 > ADsP, ADP' 카테고리의 다른 글

ADsP 1과목 공부_1  (0) 2021.05.07
ADsP 2과목 공부 _1  (0) 2021.05.06
R 기초 함수와 문법 - 3  (0) 2021.04.24
R 기초 함수와 문법 - 2  (0) 2021.04.24
R 기초 함수와 문법 - 1  (0) 2021.04.24

댓글