Data mining

[데이터 마이닝] 연관 분석 (Association Analysis) - 기본 개념

여뉴누 2023. 7. 30. 17:35
728x90
강의 출처) 2023-1 숙명여자대학교 소프트웨어학부 강의 "데이터마이닝및분석", 이기용 교수님

Preliminaries

1) 데이터 형식 (Ex. Market Basket Transaction)

  • TID : 각 구매자들
  • Items : 고객에 의해 함께 구매된 아이템셋

2) Association Analysis ?

  • 정의 : 대용량의 데이터셋 내에 숨어져 있는 흥미로운 관계성을 찾아내는 것
  • 관계성을 찾아내기 위해 봐야 할 것
    • Frequent itemsets
      • 정의 : 많은 transaction에서 함께 등장한 아이템셋
      • A와 B라는 아이템이 있다고 할 때, A, B가 함께 많이 등장하기만 한다면 frequent itemset
    • Association rules
      • 정의 : 두 아이템 셋 간의 관계
      • 함께 등장하는 횟수가 많다는 점을 만족한다는 전제 하에 한 가지의 조건이 더 추가된 것
      • 조건이란? : A를 구매한 사람들 중 상당히 많은 비율이 B까지 구매했다

3) Key Issue

  • 어떻게 효율적으로 Frequent itemsets와 Association rules를 찾아낼 것인가 ?
  • 찾아낸 패턴 중 어떤 것이 더 흥미로울지 어떻게 찾아낼 것인가 ?

4) 기본 용어 정리

  • Item : 마켓 데이터셋에 있는 모든 아이템들의 나열

  • Transaction : 트랜잭션의 셋

  • k - itemset : k개의 아이템을 포함한 아이템 셋  Ex. {Beer, Diapers, Milk} -> 3 - itemsets

5) Support

  • 정의
    • 해당 itemset이 frequent itemset인지 결정하는데 사용되는 값
    • minsup이라는 threshold를 사용자가 지정해주고
    • minsup 이상의 support 값을 가지는 아이템셋에 대해 frequent itemset이라고 판단
  • support count : 아이템셋 X를 포함하는 트랜잭션의 개수, 말그대로 count의 개념

  • support : X->Y라는 연관규칙의 support = support count / the number of transactions

  • 사용하는 이유
    • low support를 가지는 rule은 우연에 의해 발생했을 가능성이 있기 때문에

6) Confidence

  • 정의
    • frequent itemset이라고 판단된 아이템셋을 사용하여 만든 rule 중 의미있는 rule을 선별해내는 데 사용되는 값
    • minconf라는 threshold를 사용자가 지정해주고
    • minconf 이상의 confidence 값을 가지는 rule을 최종 association rule에 포함하여 결과 도출
  • confidence : X -> Y의 confidence = X를 포함한 트랜잭션에서 얼마나 자주 Y가 함께 나타나는가

7) Association Rule

  • 정의
    • T라는 transaction이 주어졌을 때, minsup 이상의 support를 가지고 minconf 이상의 confidence를 가지는 모든 rule

8) Process

  • Frequent itemset generation
    • minsup 이상인 itemset을 찾아내어 frequent itemset 생성
  • Rule generation
    • frequent itemset 중에서 minconf 이상인 rule을 찾아내어 association rule 생성
728x90