Data mining
[데이터 마이닝] 연관 분석 (Association Analysis) - 기본 개념
여뉴누
2023. 7. 30. 17:35
728x90
강의 출처) 2023-1 숙명여자대학교 소프트웨어학부 강의 "데이터마이닝및분석", 이기용 교수님
Preliminaries
1) 데이터 형식 (Ex. Market Basket Transaction)
- TID : 각 구매자들
- Items : 고객에 의해 함께 구매된 아이템셋
2) Association Analysis ?
- 정의 : 대용량의 데이터셋 내에 숨어져 있는 흥미로운 관계성을 찾아내는 것
- 관계성을 찾아내기 위해 봐야 할 것
- Frequent itemsets
- 정의 : 많은 transaction에서 함께 등장한 아이템셋
- A와 B라는 아이템이 있다고 할 때, A, B가 함께 많이 등장하기만 한다면 frequent itemset
- Association rules
- 정의 : 두 아이템 셋 간의 관계
- 함께 등장하는 횟수가 많다는 점을 만족한다는 전제 하에 한 가지의 조건이 더 추가된 것
- 조건이란? : A를 구매한 사람들 중 상당히 많은 비율이 B까지 구매했다
- Frequent itemsets
3) Key Issue
- 어떻게 효율적으로 Frequent itemsets와 Association rules를 찾아낼 것인가 ?
- 찾아낸 패턴 중 어떤 것이 더 흥미로울지 어떻게 찾아낼 것인가 ?
4) 기본 용어 정리
- Item : 마켓 데이터셋에 있는 모든 아이템들의 나열
- Transaction : 트랜잭션의 셋
- k - itemset : k개의 아이템을 포함한 아이템 셋 Ex. {Beer, Diapers, Milk} -> 3 - itemsets
5) Support
- 정의
- 해당 itemset이 frequent itemset인지 결정하는데 사용되는 값
- minsup이라는 threshold를 사용자가 지정해주고
- minsup 이상의 support 값을 가지는 아이템셋에 대해 frequent itemset이라고 판단
- support count : 아이템셋 X를 포함하는 트랜잭션의 개수, 말그대로 count의 개념
- support : X->Y라는 연관규칙의 support = support count / the number of transactions
- 사용하는 이유
- low support를 가지는 rule은 우연에 의해 발생했을 가능성이 있기 때문에
6) Confidence
- 정의
- frequent itemset이라고 판단된 아이템셋을 사용하여 만든 rule 중 의미있는 rule을 선별해내는 데 사용되는 값
- minconf라는 threshold를 사용자가 지정해주고
- minconf 이상의 confidence 값을 가지는 rule을 최종 association rule에 포함하여 결과 도출
- confidence : X -> Y의 confidence = X를 포함한 트랜잭션에서 얼마나 자주 Y가 함께 나타나는가
7) Association Rule
- 정의
- T라는 transaction이 주어졌을 때, minsup 이상의 support를 가지고 minconf 이상의 confidence를 가지는 모든 rule
8) Process
- Frequent itemset generation
- minsup 이상인 itemset을 찾아내어 frequent itemset 생성
- Rule generation
- frequent itemset 중에서 minconf 이상인 rule을 찾아내어 association rule 생성
728x90