일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 반복문
- solvedac
- 다이나믹프로그래밍
- 깊이우선탐색
- 코딩테스트
- 그리디알고리즘
- Baekjoon
- dp
- PYTHON
- 데이터마이닝
- 문제풀이
- 알고리즘
- 프로그래머스
- 파이썬
- 큐
- 그래프
- 백준
- 그래프탐색
- Datastructure
- greedy
- 정렬
- DFS
- 너비우선탐색
- BFS
- 코테
- 그리디
- 문자열
- 자료구조
- 수학
- DP알고리즘
- Today
- Total
목록데이터마이닝 (7)
nyunu

강의 출처) 2023-1 숙명여자대학교 소프트웨어학부 강의 "데이터마이닝및분석", 이기용 교수님 1. Principle 어떤 아이템셋이 frequent하면, 그 아이템셋의 모든 subset은 frequent하다. Ex. {a, b, c} is frequent → {a, b}, {b, c}, {a, c}, {a}, {b}, {c} must also be frequent 어떤 아이템셋이 infrequent하면, 그 아이템을 포함하는 모든 아이템셋은 infrequent하다. Ex. {a, b} is infrequent → {a, b, c} is also infrequent 2. Process Frequent itemset generation (using minsup, support) Rule generatio..

강의 출처) 2023-1 숙명여자대학교 소프트웨어학부 강의 "데이터마이닝및분석", 이기용 교수님Preliminaries1) 데이터 형식 (Ex. Market Basket Transaction)TID : 각 구매자들Items : 고객에 의해 함께 구매된 아이템셋2) Association Analysis ?정의 : 대용량의 데이터셋 내에 숨어져 있는 흥미로운 관계성을 찾아내는 것관계성을 찾아내기 위해 봐야 할 것Frequent itemsets정의 : 많은 transaction에서 함께 등장한 아이템셋A와 B라는 아이템이 있다고 할 때, A, B가 함께 많이 등장하기만 한다면 frequent itemsetAssociation rules정의 : 두 아이템 셋 간의 관계함께 등장하는 횟수가 많다는 점을 만족한다는..

개인공부 1. 정의 : 고차원의 벡터를 2차원의 공간의 격자로 표현할 수 있도록 하는 인공신경망의 한 종류 2. 아키텍처 입력층 & 경쟁층 두 개의 층으로 구성 저차원 격자 하나에는 위치적 유사도를 고려해 여러 개의 입력 벡터가 속할 가능성 있음 3. 학습 원리 ( 과정 ) 랜덤으로 초기 격자모형을 초기화 학습 데이터를 하나씩 추가하며 격자모형의 위치가 데이터의 분포와 비슷해지도록 업데이트 하얀색의 점이 학습 데이터라고 할 때 격자점 중 데이터와 가장 가까운 점(= Winning node)과 그 주변 점들의 gradient를 업데이트 (= 경쟁학습) 이때, Winning node가 가장 많이 업데이트 & 주변 점들은 Winning node보다 덜 업데이트 t시점의 j번째 격자모형을 ..

강의 출처) 2023-1 숙명여자대학교 소프트웨어학부 강의 "데이터마이닝및분석", 이기용 교수님 Random Forest : decision tree를 여러 개 랜덤하게 사용하여 만든 것 -> 어떻게 랜덤하게 decision tree를 여러 개 만드느냐가 포인트 ! bagging과 동일하게 샘플링 splitting feature를 잡을 때, p개의 feature를 랜덤하게 먼저 뽑고 그 중에서 베스트를 뽑아서 사용 -> 이때문에 모두 다른 트리가 되는 것 => random forest는 training instances와 features를 모두 새롭게 조합하여 사용 1. 기본 과정 (1) n개의 instance와 d개의 feature를 가진 training set D가 있다고 가정 (2) ..

강의 출처) 2023-1 숙명여자대학교 소프트웨어학부 강의 "데이터마이닝및분석", 이기용 교수님 1. Bagging [Bootstrap aggregating] 1) 기본 과정 (1) 데이터셋으로부터 반복적으로 샘플 추출 (2) 각 bootstrap 샘플에 대해 base classifier를 학습 (3) test data를 활용하여 전체 base classifier를 예측 (4) 전체 base classifier의 예측값 중 다수결로 결과를 채택 2) 데이터셋 추출시 주의할 점 [왕왕중요] 복원 추출 (with replacement) 뽑힌 데이터는 다시 그대로 제자리에 매번 뽑을 때마다 전체 데이터에서 하나씩 추출 이 성질 때문에 하나의 샘플 데이터셋에는 같은 데이터가 여러 개 뽑힐수도 ! 반대로 말하면 ..

강의 출처) 2023-1 숙명여자대학교 소프트웨어학부 강의 "데이터마이닝및분석", 이기용 교수님 앙상블이란 ? : 여러 개 분류기의 예측 결과를 합쳐서 분류 정확도를 높이는 기술 1. 기본 아이디어 (1) Training data로부터 base classifier을 조합을 형성하고 (2) 각 base classifier로부터 만들어진 예측을 가지고 투표를 진행해 결과를 냄 ※ 주의사항 각 base classifier의 정확도는 50% 이상이어야 함 -> 정확도가 낮은 모델끼리 모아놓으면 오히려 정확도가 더 떨어지는 효과 . . . 각 base classifier는 독립적이어야 함 독립적이면 base classifier 중 절반 이상이 잘못 예측해야만 오분류가 발생 -> 그러니까 정확도를 높일 수 있는 것..

강의 출처) 2023-1 숙명여자대학교 소프트웨어학부 강의 "데이터마이닝및분석", 이기용 교수님 " Forward Propagation -> Backward Propagation -> gradient descent " 과정의 반복 1. Forward Propagation 2. Backward Propagation 1) 기본 Concept -> J(w,b) = objective function 을 최소화시키고자 함 2) Weight에 대해 J(w,b) 미분 -> J(w,b) = objective function 를 최소화하는 weight의 값을 찾고자 하는 것 (1) J(w,b) 식을 분할 - 1 (2) J(w,b) 식을 분할 - 2 (3) J(w,b) 식을 분할 - 3 구하려는 델타값의 레이어 == ou..