본문 바로가기
AI 관련/ADsP, ADP

ADsP 3과목 공부 _3

by 팀장일기 2021. 5. 8.

■ 연관분석 

Q. 교차 판매/ 물건 배치 등에 이용되는 기법은? 

(연관분석)

 

"어느 고객이 어떤제품을 같이 구매할까?" ☞ 연관분석 실시 ☞ 교차판매 

 

 

연관성분석

연관성분석

연관규칙 : 항목들 간의 '조건 - 결과' 식으로 표현되는 유용한 패턴을 말함. 

연관분석(장바구니 분석) : 연관규칙을 발견해내는 것.

 

연관성분석 특징

①연관분석은 기업의 활동 중에서 마케팅 분야에서 가장 많이 사용되고 있음. 

②트랜잭션 : 특정고객, 장바구니 하나에 해당하는 정보.

③장바구니 데이터에서는 주로 트랜잭션 사이의 연관성을 살펴보는 것으로, 빈번히 나타나는 규칙을 찾아내는 것이다. 

 

 

■연관성분석 

연관분석의 장점

①탐색적 기법 : 조건 반은 (if- then)으로 표현 되는 연관분석의 결과를 이해하기 쉬움. 

②강력한 비목적성 분석기법

: 분석방향이나 목적이 특별하게 없는 경우 목적변수가 없으므로 유용함. 

③사용이 편리한 분석 데이터의 형태 

: 거래 내용에 대한 데이터를 변환 없이 그 자체로 이용할 수 있는 간단한 자료구조를 갖는 분석방법

④계산의 용이성 

: 분석을 위한 계산이 상당히 간단함. 

 

연관분석의 단점

①상당한 수의 계산 과정 

: 품목수가 증가하면 분석에 필요한 계산은 기하급수적으로 늘어남

②적절한 품목의 결정 

: 너무 세분화된 품목을 가지고 연관규칙을 찾으려고 하면 의미 없는 분석 결과가 나올 수도 있음. 

③품목의 비율차이

: 상대적으로 거래량이 적은 품목은 당연히 포함된 거래수가 적을 것이고. 규칙발견시 제외되기 쉬움. 

 

■결측값 처리 

Q. R명령어 중  y=c(1,2,3,NA)일때 3*y의 결과는? 

(3,6,9 NA)

 

 

■결측값 처리

결측값을 0으로 표현하면 안됨.

:파생변수는 가지고 있는 변수를 활용하여 만들어짐.

☞ 0 이라는 숫자가 입력되어 있으면 새로운 파생변수를 만들때 0을 반영해 값을 만들기 때문. 

 

-결측값의 표현

: NA. ..9999999. Unknown. Not Answer 등

 

-결측값을 처리하기 위해서 시간을 많이 사용하는 것은 비효율적임. 

 

-결측값자체가 의미있는경우.

▶쇼핑몰 가입자 중 특정 거래 자체가 존재하지 않는 경우. 

▶인구통계학적 데이터의 경우 아주 부자이거나 아주 가난한 경우 데이터가 채워져 있지 않은 경우. 

 

■SOM (Self-Organizing Maps) 

-SOM(자기조직화지도) 알고리즘은 코호넨에 의해 제시. 개발되었으며 코호넨 맵이라고 알려져 있음. 

-비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화함. 

(형상화 : 입력 변수의 위치 관계를 그대로 보존한다는 특징) 

-실제 공간의 입력 변수가 가까이 있으면, 지도상에서도 가까운 위치에 있게 됨. 

 

특징

▶고차원의 데이터를 저차원의 지도 형태로 형상화하기 때문에 시각적으로 이해가 쉬움. 

▶입력 변수의 위치 관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상에서 가깝게 표현됨. 이런 특징 때문에 패턴 발견. 이미지 분석 등에서 뛰어난 성능을 보임. 

▶역전파 알고리즘 등을 이용하는 인공신경망과 달리 단 하나의 전방 패스를 사용함으로써 속도가 매우빠름. 

▶잠재적으로 실시간 학습처리를 할수있는 모델임. 

 

Q. 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화 하는 군집분석 방법은?

(자기조직화지도) 

 

■ 오분류표 

  예측치 합계
True False
실제값 True TP FN P
false FP TN N
합계 P' N' P+N

 

①대부분의 분류 분석 모형의 예측 결과는 분류 범주로 나타남에 따라 분류 분석 모형의 평가에는 오류분포가 일반적으로 사용됨. 

②오분류표의 각 값이 의미하는 바는 다음과 같음 

▶TP(True Positives): 실제값과 예측치 모두 True인 경우

▶TN(True Negatives): 실제값과 예측치 모두 False인 빈도 

▶FP(False Positives): 실제값은 False이나 True로 예측한 빈도 

▶FN(False Negatives): 실제값은 True 이나 False로 예측한 빈도 

 

③정분류율(accuracy. recognition rate)

: 전체 관측치 중 실제값과 예측치가 일치한 정도를 나타냄. 정분류율은 범주의 분포가 균형을이룰 때 효과적인 평가지표 

④오분류율(error rate. misclassification rate)

: 모형이 제대로 예측하지 못한 관측치를 평가하는 자료. 전체 관측치 중 실제값과 예측치가 다른 정도를 나타냄.

 

⑤민감도(Sensitivity), 특이도(Specificity)

: 민감도는 실제값이 True인 관측치 중 예측치가 적중한 정도 특이도는 실제값이 False인 관측치 중 에측치가 적중한 정도  

⑥정확도 (Precision), 재현율(Recall)

: 정확도는 True로 예측한 관측치 중 실제값이 True인정도를 나타내는 정확성 (Exaciness)지표. 재현율은 실제값이 Ture인관측치 중 예측치가 적중한 정도를 나타내는 민감도와 동일한 지표로 모형의 완전성(completeness)을 평가하는 지표 

■ 부스팅 

-배깅 

: 주어진 자료에서 여러개의 붓스트랩자료를 생성하고 각 붓스트랩 자료에 예측모형을 만든 후 결합하여 최종 예측모형을 만드는 방법

 

-붓스트랩

: 주어진 자료에서 동일한 크기의 표본을 랜덤, 복원 추출로 뽑은 자료 

 

-부스팅

▶ 배깅의 과정과 유사하나 붓스트랩 표본을구성하는 재표본 과정에서 각 자료에 동일한 확률을 부여하는 것이 아니라. 분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출함. 

▶ 붓스트랩 표본을 추출하여 분류기를 만든후, 그 분류결과를 이용하여 각 데이터가 추출될 확률을 조정한 후, 다음 붓스트랩 표본을 추출하는 과정을 반복함. 

▶가장 많이 사용되는 부스팅 알고리즘 :아다부스팅 

 

-부스팅의 특징 

▶ 예측력이 약한 모형들을 결합하여 강한 예측 모형을 만드는 방법

▶ 훈련오차를 빨리 그리고 쉽게 줄일 수 있고, 예측오차의 향상으로 배깅에 비해 뛰어난예측력을 보임. 

 

Q. 회귀모형의 계수 추정방식

= 최소자승법(최소제곱법)

 

 

■ 최소자승법

최소자승법(최소제곱법)

: 입력변수 x와 출력변수 y사이에 함수관계가 존재한다고 할때, 그 인과 관계를 수량적으로 파악하는데 일반적으로 사용되는 것.

 

이 글과 함께 읽으면 좋은글



 

ADsP 1과목 공부_1

■빅데이터 출현 배경 -개별기업의 고객 데이터 축적 및 활용 증가 -인터넷 확산 -저장 기술의 발전과 가격 하락 -모바일 시대의 도래와 스마트 단말의 보급 -클라우드 컴퓨팅 기술 발전 -비정형

chinggu2000.tistory.com

 

ADsP 1과목 공부 _2

■ 암묵지와 형식지 데이터는 지식경영의 핵심 이슈인 암묵지와 형식지의 상호작용에 있어 중요한 역할을 함. - 암묵지 : 개인에게 축적된 내면화된 지식 => 조직의 지식으로 공통화 - 형식지 :

chinggu2000.tistory.com

 

ADsP 2과목 공부 _1

■데이터 거버넌스 체계 ◇데이터 표준화 : 데이터 표준 용어 설명. 명명 규칙 수립. 메타데이터 구축 데이터 사전 구축 등의 업무로 구성됨 ◇데이터 관리 체계 : 데이터 정합성 및 활용의 효율

chinggu2000.tistory.com

 

ADsP 3과목 공부 _1

■변수 선택법 - 모든 가능한 독립변수들의 조합에 대한 회귀모형을 분석해 가장 적합한 모형 선택 ①전진 선택법 : 절편만 있는 상수 모형으로부터 시작해 중요하다고 생각되는 설명변수부터

chinggu2000.tistory.com

 

ADsP 3과목 공부 _2

■비모수 검정 ■모수적 검정과 비모수 검정의 차이점 - 모수적 검정 ①가정된 분포의 모수 : (예를 들어 모평균 μ, 모비율 p, 모분산σ² 등)에 대해 가설을 설정  ②관측된 자료를 이용해 구한

chinggu2000.tistory.com

 

'AI 관련 > ADsP, ADP' 카테고리의 다른 글

2021년 5월 22일 ADsP 시험후기 그리고 시험일정  (4) 2021.05.23
ADsP 1과목 공부 _2  (0) 2021.05.09
ADsP 3과목 공부 _2  (0) 2021.05.08
ADsP 1과목 공부_1  (0) 2021.05.07
ADsP 2과목 공부 _1  (0) 2021.05.06

댓글