제 5절 연관분석(assocociation Analysis)
1. 연관성 규칙
가. 연관성 규칙의 개념
- 장바구니 분석 (MKT basket analysis), 서열분석(Seq, Analysis)이라 불림
- 포괄적 개념. 흔히 기업의 DB에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위해 적용
* (마케팅) 손님 장바구니에 들어있는 품목 간 관계를 알아본다는 의미에서 장바구니 분석
* 장바구니에 뭐가 같이 들어있나(장바구니분석), A사고 B산다(연관성분석)
- 어느 고객이 어떤 제품을 같이 구매할까? --> 연관성 분석 실시
* 분석을 통해 제품 간 연관성 파악하면 세트메뉴 구성/ 쿠폰발행 등 교차판매 (corsss selling)할 때 효과적
- 연관성 규칙의 일반적인 형태 : 조건과 반응 (if- A then B) : 연관규칙
* 모든 규칙에 유용하지 않음
- 유용한 규칙이 되기 위한 조건
* 두 품목 A와 B를 동시에 구매한 경우의 수가 일정 수준 이상
* 품목 A를 포함하는 거래 중 품목 B를 구입하는 경우의 수도 일정 수준 이상
- 연관성분석을 통해 쿠폰발행, 가까운 곳 배치 등 의사결정도 가능
나. 연관성분석의 측도
- 연관성규칙을 이용할 수 있는 데이터는 판매시점에 기록된 거래와 품목에 관한 정보를 담고 있어야 함.
*인구통계학적 자료를 비롯한 기타 정보를 필요로 하지 않음
* 측정의 기본은 얼마나 자주 구매했는가 하는 빈도 (count)
- 연관성규칙 자체를 이해하는 것은 어려비 않으나 모든ㄴ 규칙이 유의미한 것이 아니므로 산업의 특성에 따라 지지도 (suppert), 신뢰도(confidence), 향상도(lift) 값을 잘 보고 규칙을 선택
* 연관성분석 Average Duration을 고려해 적용
-지지도 : 전체 거래중 항목 A와 B를 동시에 포함하는 거래의 비율
* 전체 거래 중 A와 B를 동시에 포함하는 거래가 어느 정도인지 나타내며 전체 구매 경향 파악 가능
* 같이 많이 판매되고 있다는 뜻으로 Association Rule이 나왔을 때 적용성이 있는지 판단 가능하고 불필요한 분석을 대폭 줄일 수 있음
* 얼마나 빈번하게 나타나는 경우인지 설명하는 상대적인 값.
- 신뢰도 : 항목 A를 포함한 거래 중 항목 A와 B가 같이 포함될 확률 . 연관성 정도 파악 가능
* A를 산 고객이 B를 산 비율
* 조건부 확률로 A 한사람이 B하더라. 이 값이 높아야 함.
-향상도 : A가 주어지지 않았을 때의 품목 B의 확률에 비해 A가 주어졌을 때의 품목 B의 확률의 증가 비율
* 관련 없는 경우 향상도=1, 향상도 >1 우연보다 우수, 향상도 <1 우연적기회보다 도움안됨
- 향상도 1이면 서로 독립적인 관계 , 1보다 작으면 음의 상관관계, 크면 양의 상관관계
- 규칙 ' A--> B' 가 의미 잇다면 전체 거래에서 품목 B를 포함한 거래의 비율보다는 품목 A가 구매된 거래내에서 품목 B를 포함한 거래의 비율이 더 클 것
- 연관성 분석을 수행할 때 모든 경우의 수를 분석하는 것은 매우 불필요. 최소 지지도 (min.support)를 정해 규칙 (rule)을 도출
* 처음엔 5%정도로 임의 설정해 산출해보고 현실적인지, 규칙은 충분히 도출 됐는지에 따라 지지도 조절해 다양한 시도해봐야함. 처음에 너무 낮은 지지도 선정은 매우 불필요
* 실제로 높은 값에서 낮은 값으로 설정해 처리속도와 규칙 개수 파악한 다음 낮추는 방법 필요
* 컨설팅 프로젝트에서는 4시간이내에 답이 나와야 하고 운영모드는 24시간 걸려도 적합.
* 선행사건(antecedent)--> 후건 (consequent), 때에 따라 선행/후건 기준으로 결과 봐야함.
다. 연관규칙분석 절차
- Apriori ; 최초 지지도를 갖는 연관규칙을 찾는 대표적인 방법
* 최소 지지도보다 큰집합만을 대상으로 높은 지지도를 갖는 품목 집합 찾음.
* 분석절차
① 최소 지지도 정함.
② 개별 품목 중 최소 지지도 넘는 모든 품목 찾음
③ 2에서 찾은 개별 품목만 이용해 최소 지지도 넘은 2가지 품목 집합 찾음.
④ 위의 두 절차에서 찾은 품목집합을 결합해 최소 지지도 넘은 3가지 품목집합 찾음.
⑤ 반복적으로 수행해 최소 지지도가 넘는 반발품목 집합 찾음.
라. 연관규칙의 장점
- 탐색적인 기법 : 조건반응(if - then) 으로 표현되는 연관성 분석의 결과 이해 쉬움
- 강력한 비목적성 분석기법 : 분석방향이나 목적이 특별히 없는 경우 목적변수가 없어 유용
- 사용이 편리한 분석 데이터 형태 : 거래내용에 대한 데이터를 변환없이 그 자체로 이용가능한 간단한 자료구조 갖는 분석방법
- 계산의 용이성 :분석을 위한 계산이 상당히 간단.
마. 연관규칙의 단점
- 상당수의 계산과정 : 품목수가 증가하면 분석에 필요한 계산은 기하급수적으로 증가
- 적절한 품목의 결정 : 너무 세분화한 품목으로 연관성 규칙을 찾으면 의미없는 분석가능성 있음.
- 품목의 비율차이 : 거래량이 적은 품목은 포함된 거래수가 적고 규칙발견시 제외하기 쉬움
바. 순차 패턴
- 동시에 구매될 가능성이 큰 상품군을 찾아내는 연관성측정에 시간개념을 포함시켜 순차적 구매 가능성이 큰 상품군을 찾아내는 것
* A가 구매되면 일정 시간이 경과한 다음 B가 구매된다.
- 구매의 순서가 고려되 상푸만 연관성이 측정되고 유용한 연관 규칙을 찾는 기법
* 연관성측정 데이터에 각 고객의 구매시점 정보 포함.
2. 기존 연관성분석의 이슈
- SAS E-miner와 Clementine의 문제 : 대용량 데이터에 대한 연관성 분석 불가능
* 오래된 알고리즘인 apriori 사용해 SKU 레벨의 연관성 분석시 시스템 먹통
3. 최근 연관성분석 동향
- KXEN : 처음부터 3세대 FPV를 이용해 메모리를 효율적으로 사용함으로써 SKU레벨의 연관성분석을 성공적으로 적용
4. 연관성분석 활용방안
- 장바구니 분석은 실시간 상품추천을 통한 교체판매에 응용가능
* 최근 실시간 추천이 가능해짐에 따라 활용도가 올라갈 것으로 예상
- 시차분석은 A를 구매했는데 B를 구매안한 경우 B를 추천하는 교차판매 캠페인에 사용가능
- 기업이 갖고 있는 데이터가 바로 연관성분석에 사용될 수 없음
* 정보를 가공해 연관성 규칙을 사용할 수 있는 데이터로 전환
- 결과 검증 : 테스트 마케팅
* 기존방식에 대한 반응율이 얼마인지 정확한 기준으로 평가하고 연관성 규칙 적용한 테스트 마케팅 기획
* 연관성규칙 도출과 타겟팅해 거ㅔㅁ페인기획하는 것은 별개
* 무조건 고객에게 규칙을 적용해 추전하지 않아야 함.
* 채널에 대한 민감도 고려
- 50대에 이메일 효과 없음. SMS는 과거 이력 기반으로 타겟팅, 활동고객 기준
- 연관성 규칙의 효과와 타깃팅 효과를 결합해 테스트 하는 것이 필요
* 테스트 마케팅 사이즈를 충분히 크게 해야 비율의 증가가 검증 가능
'AI 관련 > ADsP, ADP' 카테고리의 다른 글
ADSP 요약정리 - 5장 비정형 데이터 마이닝 - 사회연결망 분석 (Social network analysis, SNA) (0) | 2021.10.07 |
---|---|
ADSP 요약정리 - 5장 비정형 데이터 마이닝 - 텍스트 마이닝 (0) | 2021.10.07 |
ADSP 요약정리 - 4장 정형데이터 마이닝 - 군집분석 (Clustering Analysis) (0) | 2021.10.06 |
ADSP 요약정리 - 4장 정형데이터 마이닝 - 예측분석 (Prediction Analysis) (0) | 2021.10.05 |
ADSP 요약정리 - 4장 정형데이터 마이닝 - 분류분석(Classification Analysis) (0) | 2021.10.05 |
댓글