본문 바로가기
AI 관련/ADsP, ADP

ADSP 요약정리 - 4장 정형데이터 마이닝 - 연관분석(assocociation Analysis)

by 팀장일기 2021. 10. 6.

제 5절 연관분석(assocociation Analysis)

 1. 연관성 규칙 

  가. 연관성 규칙의 개념 

   - 장바구니 분석 (MKT basket analysis), 서열분석(Seq, Analysis)이라 불림

   - 포괄적 개념. 흔히 기업의 DB에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위해 적용 

    * (마케팅) 손님 장바구니에 들어있는 품목 간 관계를 알아본다는 의미에서 장바구니 분석

    * 장바구니에 뭐가 같이 들어있나(장바구니분석), A사고 B산다(연관성분석) 

   - 어느 고객이 어떤 제품을 같이 구매할까? --> 연관성 분석 실시

    * 분석을 통해 제품 간 연관성 파악하면 세트메뉴 구성/ 쿠폰발행 등 교차판매 (corsss selling)할 때  효과적 

   - 연관성 규칙의 일반적인 형태 : 조건과 반응 (if- A then B) : 연관규칙 

    * 모든 규칙에 유용하지 않음

   - 유용한 규칙이 되기 위한 조건 

    * 두 품목 A와 B를 동시에 구매한 경우의 수가 일정 수준 이상

    * 품목 A를 포함하는 거래 중 품목 B를 구입하는 경우의 수도 일정 수준 이상

   - 연관성분석을 통해 쿠폰발행, 가까운 곳 배치 등 의사결정도 가능 

 

  나. 연관성분석의 측도 

   - 연관성규칙을 이용할 수 있는 데이터는 판매시점에 기록된 거래와 품목에 관한 정보를 담고 있어야 함. 

    *인구통계학적 자료를 비롯한 기타 정보를 필요로 하지 않음

    * 측정의 기본은 얼마나 자주 구매했는가 하는 빈도 (count) 

   - 연관성규칙 자체를 이해하는 것은 어려비 않으나 모든ㄴ 규칙이 유의미한 것이 아니므로 산업의 특성에 따라 지지도 (suppert), 신뢰도(confidence), 향상도(lift) 값을 잘 보고 규칙을 선택 

    * 연관성분석 Average Duration을 고려해 적용 

   -지지도 : 전체 거래중 항목 A와 B를 동시에 포함하는 거래의 비율 

    * 전체 거래 중 A와 B를 동시에 포함하는 거래가 어느 정도인지 나타내며 전체 구매 경향 파악 가능 

    * 같이 많이 판매되고 있다는 뜻으로 Association Rule이 나왔을 때 적용성이 있는지 판단 가능하고 불필요한 분석을 대폭 줄일 수 있음 

지지도 식

    * 얼마나 빈번하게 나타나는 경우인지 설명하는 상대적인 값. 

   - 신뢰도 : 항목 A를 포함한 거래 중 항목 A와 B가 같이 포함될 확률 . 연관성 정도 파악 가능 

신뢰도 식

    * A를 산 고객이 B를 산 비율 

    * 조건부 확률로 A 한사람이 B하더라. 이 값이 높아야 함. 

   -향상도 : A가 주어지지 않았을 때의 품목 B의 확률에 비해 A가 주어졌을 때의 품목 B의 확률의 증가 비율 

    * 관련 없는 경우 향상도=1, 향상도 >1 우연보다 우수, 향상도 <1 우연적기회보다 도움안됨

     - 향상도 1이면 서로 독립적인 관계 , 1보다 작으면 음의 상관관계, 크면 양의 상관관계 

향상도 식

   - 규칙 ' A--> B' 가 의미 잇다면 전체 거래에서 품목 B를 포함한 거래의 비율보다는 품목 A가 구매된 거래내에서 품목 B를 포함한 거래의 비율이 더 클 것 

    - 연관성 분석을 수행할 때 모든 경우의 수를 분석하는 것은 매우 불필요. 최소 지지도 (min.support)를 정해 규칙 (rule)을 도출 

    * 처음엔 5%정도로 임의 설정해 산출해보고 현실적인지, 규칙은 충분히 도출 됐는지에 따라 지지도 조절해 다양한 시도해봐야함. 처음에 너무 낮은 지지도 선정은 매우 불필요 

    * 실제로 높은 값에서 낮은 값으로 설정해 처리속도와 규칙 개수 파악한 다음 낮추는 방법 필요

    * 컨설팅 프로젝트에서는 4시간이내에 답이 나와야 하고 운영모드는 24시간 걸려도 적합. 

    * 선행사건(antecedent)--> 후건 (consequent), 때에 따라 선행/후건 기준으로 결과 봐야함. 

 

  다. 연관규칙분석 절차 

   - Apriori ; 최초 지지도를 갖는 연관규칙을 찾는 대표적인 방법

    * 최소 지지도보다 큰집합만을 대상으로 높은 지지도를 갖는 품목 집합 찾음. 

    * 분석절차

    ① 최소 지지도 정함.

    ② 개별 품목 중 최소 지지도 넘는 모든 품목 찾음

    ③ 2에서 찾은 개별 품목만 이용해 최소 지지도 넘은 2가지 품목 집합 찾음.

    ④ 위의 두 절차에서 찾은 품목집합을 결합해 최소 지지도 넘은 3가지 품목집합 찾음. 

    ⑤ 반복적으로 수행해 최소 지지도가 넘는 반발품목 집합 찾음. 

 

  라. 연관규칙의 장점

   - 탐색적인 기법 : 조건반응(if - then) 으로 표현되는 연관성 분석의 결과 이해 쉬움

   - 강력한 비목적성 분석기법 : 분석방향이나 목적이 특별히 없는 경우 목적변수가 없어 유용

   - 사용이 편리한 분석 데이터 형태 : 거래내용에 대한 데이터를 변환없이 그 자체로 이용가능한 간단한 자료구조 갖는 분석방법

   - 계산의 용이성 :분석을 위한 계산이 상당히 간단. 

 

  마. 연관규칙의 단점

   - 상당수의 계산과정 : 품목수가 증가하면 분석에 필요한 계산은 기하급수적으로 증가 

   - 적절한 품목의 결정 : 너무 세분화한 품목으로 연관성 규칙을 찾으면 의미없는 분석가능성 있음. 

   - 품목의 비율차이 : 거래량이 적은 품목은 포함된 거래수가 적고 규칙발견시 제외하기 쉬움

 

  바. 순차 패턴 

   - 동시에 구매될 가능성이 큰 상품군을 찾아내는 연관성측정에 시간개념을 포함시켜 순차적 구매 가능성이 큰 상품군을 찾아내는 것 

    * A가 구매되면 일정 시간이 경과한 다음 B가 구매된다. 

   - 구매의 순서가 고려되 상푸만 연관성이 측정되고 유용한 연관 규칙을 찾는 기법

    * 연관성측정 데이터에 각 고객의 구매시점 정보 포함. 

 

 2. 기존 연관성분석의 이슈 

   - SAS E-miner와 Clementine의 문제 : 대용량 데이터에 대한 연관성 분석 불가능 

    * 오래된 알고리즘인 apriori 사용해 SKU 레벨의 연관성 분석시 시스템 먹통 

 

 3. 최근 연관성분석 동향 

   - KXEN : 처음부터 3세대 FPV를 이용해 메모리를 효율적으로 사용함으로써 SKU레벨의 연관성분석을 성공적으로 적용 

 

 4. 연관성분석 활용방안

   - 장바구니 분석은 실시간 상품추천을 통한 교체판매에 응용가능 

   * 최근 실시간 추천이 가능해짐에 따라 활용도가 올라갈 것으로 예상 

   - 시차분석은 A를 구매했는데 B를 구매안한 경우 B를 추천하는 교차판매 캠페인에 사용가능

   - 기업이 갖고 있는 데이터가 바로 연관성분석에 사용될 수 없음

    * 정보를 가공해 연관성 규칙을 사용할 수 있는 데이터로 전환 

   - 결과 검증 : 테스트 마케팅 

    * 기존방식에 대한 반응율이 얼마인지 정확한 기준으로 평가하고 연관성 규칙 적용한 테스트 마케팅 기획

    * 연관성규칙 도출과 타겟팅해 거ㅔㅁ페인기획하는 것은 별개

    * 무조건 고객에게 규칙을 적용해 추전하지 않아야 함. 

    * 채널에 대한 민감도 고려 

     - 50대에 이메일 효과 없음. SMS는 과거 이력 기반으로 타겟팅, 활동고객 기준 

   - 연관성 규칙의 효과와 타깃팅 효과를 결합해 테스트 하는 것이 필요 

    * 테스트 마케팅 사이즈를 충분히 크게 해야 비율의 증가가 검증 가능 

댓글