■ 연관분석
Q. 교차 판매/ 물건 배치 등에 이용되는 기법은?
(연관분석)
"어느 고객이 어떤제품을 같이 구매할까?" ☞ 연관분석 실시 ☞ 교차판매
■연관성분석
연관성분석
연관규칙 : 항목들 간의 '조건 - 결과' 식으로 표현되는 유용한 패턴을 말함.
연관분석(장바구니 분석) : 연관규칙을 발견해내는 것.
연관성분석 특징
①연관분석은 기업의 활동 중에서 마케팅 분야에서 가장 많이 사용되고 있음.
②트랜잭션 : 특정고객, 장바구니 하나에 해당하는 정보.
③장바구니 데이터에서는 주로 트랜잭션 사이의 연관성을 살펴보는 것으로, 빈번히 나타나는 규칙을 찾아내는 것이다.
■연관성분석
연관분석의 장점
①탐색적 기법 : 조건 반은 (if- then)으로 표현 되는 연관분석의 결과를 이해하기 쉬움.
②강력한 비목적성 분석기법
: 분석방향이나 목적이 특별하게 없는 경우 목적변수가 없으므로 유용함.
③사용이 편리한 분석 데이터의 형태
: 거래 내용에 대한 데이터를 변환 없이 그 자체로 이용할 수 있는 간단한 자료구조를 갖는 분석방법
④계산의 용이성
: 분석을 위한 계산이 상당히 간단함.
연관분석의 단점
①상당한 수의 계산 과정
: 품목수가 증가하면 분석에 필요한 계산은 기하급수적으로 늘어남
②적절한 품목의 결정
: 너무 세분화된 품목을 가지고 연관규칙을 찾으려고 하면 의미 없는 분석 결과가 나올 수도 있음.
③품목의 비율차이
: 상대적으로 거래량이 적은 품목은 당연히 포함된 거래수가 적을 것이고. 규칙발견시 제외되기 쉬움.
■결측값 처리
Q. R명령어 중 y=c(1,2,3,NA)일때 3*y의 결과는?
(3,6,9 NA)
■결측값 처리
결측값을 0으로 표현하면 안됨.
:파생변수는 가지고 있는 변수를 활용하여 만들어짐.
☞ 0 이라는 숫자가 입력되어 있으면 새로운 파생변수를 만들때 0을 반영해 값을 만들기 때문.
-결측값의 표현
: NA. ..9999999. Unknown. Not Answer 등
-결측값을 처리하기 위해서 시간을 많이 사용하는 것은 비효율적임.
-결측값자체가 의미있는경우.
▶쇼핑몰 가입자 중 특정 거래 자체가 존재하지 않는 경우.
▶인구통계학적 데이터의 경우 아주 부자이거나 아주 가난한 경우 데이터가 채워져 있지 않은 경우.
■SOM (Self-Organizing Maps)
-SOM(자기조직화지도) 알고리즘은 코호넨에 의해 제시. 개발되었으며 코호넨 맵이라고 알려져 있음.
-비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화함.
(형상화 : 입력 변수의 위치 관계를 그대로 보존한다는 특징)
-실제 공간의 입력 변수가 가까이 있으면, 지도상에서도 가까운 위치에 있게 됨.
특징
▶고차원의 데이터를 저차원의 지도 형태로 형상화하기 때문에 시각적으로 이해가 쉬움.
▶입력 변수의 위치 관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상에서 가깝게 표현됨. 이런 특징 때문에 패턴 발견. 이미지 분석 등에서 뛰어난 성능을 보임.
▶역전파 알고리즘 등을 이용하는 인공신경망과 달리 단 하나의 전방 패스를 사용함으로써 속도가 매우빠름.
▶잠재적으로 실시간 학습처리를 할수있는 모델임.
Q. 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화 하는 군집분석 방법은?
(자기조직화지도)
■ 오분류표
예측치 | 합계 | |||
True | False | |||
실제값 | True | TP | FN | P |
false | FP | TN | N | |
합계 | P' | N' | P+N |
①대부분의 분류 분석 모형의 예측 결과는 분류 범주로 나타남에 따라 분류 분석 모형의 평가에는 오류분포가 일반적으로 사용됨.
②오분류표의 각 값이 의미하는 바는 다음과 같음
▶TP(True Positives): 실제값과 예측치 모두 True인 경우
▶TN(True Negatives): 실제값과 예측치 모두 False인 빈도
▶FP(False Positives): 실제값은 False이나 True로 예측한 빈도
▶FN(False Negatives): 실제값은 True 이나 False로 예측한 빈도
③정분류율(accuracy. recognition rate)
: 전체 관측치 중 실제값과 예측치가 일치한 정도를 나타냄. 정분류율은 범주의 분포가 균형을이룰 때 효과적인 평가지표
④오분류율(error rate. misclassification rate)
: 모형이 제대로 예측하지 못한 관측치를 평가하는 자료. 전체 관측치 중 실제값과 예측치가 다른 정도를 나타냄.
⑤민감도(Sensitivity), 특이도(Specificity)
: 민감도는 실제값이 True인 관측치 중 예측치가 적중한 정도 특이도는 실제값이 False인 관측치 중 에측치가 적중한 정도
⑥정확도 (Precision), 재현율(Recall)
: 정확도는 True로 예측한 관측치 중 실제값이 True인정도를 나타내는 정확성 (Exaciness)지표. 재현율은 실제값이 Ture인관측치 중 예측치가 적중한 정도를 나타내는 민감도와 동일한 지표로 모형의 완전성(completeness)을 평가하는 지표
■ 부스팅
-배깅
: 주어진 자료에서 여러개의 붓스트랩자료를 생성하고 각 붓스트랩 자료에 예측모형을 만든 후 결합하여 최종 예측모형을 만드는 방법
-붓스트랩
: 주어진 자료에서 동일한 크기의 표본을 랜덤, 복원 추출로 뽑은 자료
-부스팅
▶ 배깅의 과정과 유사하나 붓스트랩 표본을구성하는 재표본 과정에서 각 자료에 동일한 확률을 부여하는 것이 아니라. 분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출함.
▶ 붓스트랩 표본을 추출하여 분류기를 만든후, 그 분류결과를 이용하여 각 데이터가 추출될 확률을 조정한 후, 다음 붓스트랩 표본을 추출하는 과정을 반복함.
▶가장 많이 사용되는 부스팅 알고리즘 :아다부스팅
-부스팅의 특징
▶ 예측력이 약한 모형들을 결합하여 강한 예측 모형을 만드는 방법
▶ 훈련오차를 빨리 그리고 쉽게 줄일 수 있고, 예측오차의 향상으로 배깅에 비해 뛰어난예측력을 보임.
Q. 회귀모형의 계수 추정방식
= 최소자승법(최소제곱법)
■ 최소자승법
최소자승법(최소제곱법)
: 입력변수 x와 출력변수 y사이에 함수관계가 존재한다고 할때, 그 인과 관계를 수량적으로 파악하는데 일반적으로 사용되는 것.
이 글과 함께 읽으면 좋은글
ADsP 1과목 공부_1
■빅데이터 출현 배경 -개별기업의 고객 데이터 축적 및 활용 증가 -인터넷 확산 -저장 기술의 발전과 가격 하락 -모바일 시대의 도래와 스마트 단말의 보급 -클라우드 컴퓨팅 기술 발전 -비정형
chinggu2000.tistory.com
ADsP 1과목 공부 _2
■ 암묵지와 형식지 데이터는 지식경영의 핵심 이슈인 암묵지와 형식지의 상호작용에 있어 중요한 역할을 함. - 암묵지 : 개인에게 축적된 내면화된 지식 => 조직의 지식으로 공통화 - 형식지 :
chinggu2000.tistory.com
ADsP 2과목 공부 _1
■데이터 거버넌스 체계 ◇데이터 표준화 : 데이터 표준 용어 설명. 명명 규칙 수립. 메타데이터 구축 데이터 사전 구축 등의 업무로 구성됨 ◇데이터 관리 체계 : 데이터 정합성 및 활용의 효율
chinggu2000.tistory.com
ADsP 3과목 공부 _1
■변수 선택법 - 모든 가능한 독립변수들의 조합에 대한 회귀모형을 분석해 가장 적합한 모형 선택 ①전진 선택법 : 절편만 있는 상수 모형으로부터 시작해 중요하다고 생각되는 설명변수부터
chinggu2000.tistory.com
ADsP 3과목 공부 _2
■비모수 검정 ■모수적 검정과 비모수 검정의 차이점 - 모수적 검정 ①가정된 분포의 모수 : (예를 들어 모평균 μ, 모비율 p, 모분산σ² 등)에 대해 가설을 설정 ②관측된 자료를 이용해 구한
chinggu2000.tistory.com
'AI 관련 > ADsP, ADP' 카테고리의 다른 글
2021년 5월 22일 ADsP 시험후기 그리고 시험일정 (4) | 2021.05.23 |
---|---|
ADsP 1과목 공부 _2 (0) | 2021.05.09 |
ADsP 3과목 공부 _2 (0) | 2021.05.08 |
ADsP 1과목 공부_1 (0) | 2021.05.07 |
ADsP 2과목 공부 _1 (0) | 2021.05.06 |
댓글