일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- Baekjoon
- 그래프
- DFS
- 자료구조
- 데이터마이닝
- 수학
- 큐
- 깊이우선탐색
- dp
- BFS
- 파이썬
- 프로그래머스
- DP알고리즘
- 코테
- 그리디알고리즘
- 그래프탐색
- 너비우선탐색
- Datastructure
- greedy
- 다이나믹프로그래밍
- 문제풀이
- 코딩테스트
- 정렬
- 반복문
- 그리디
- 문자열
- solvedac
- PYTHON
- 백준
- 알고리즘
- Today
- Total
목록Data mining (8)
nyunu

AutoEncoder란 ? 오토인코더(AutoEncoder) 란 입력 데이터를 최대한 압축시킨 후, 압축시킨 데이터를 다시 본래의 입력 형태로 복원시키는 신경망으로, 입출력이 같은 구조를 가진다. 데이터를 압축시키는 부분이 Encoder, 복원하는 부분이 Decoder가 되고, 압축 과정에서 추출한 의미 있는 데이터 Z를 latent vector라고 한다. 그리고 Loss의 값으로는 입력값 x와 Decoder를 통과한 y값의 차이를 사용하며, 이 값을 최소화하는 것을 목표로 학습을 진행한다. 여기서 가장 중요한 점은, 모델이 알아서 중요한 latent vector를 찾기 때문에 latent vector를 미리 알 수 없다는 점이다. 이를 달리 표현하면 Encoder 모델이 학습을 통해 자동으로(Auto..

강의 출처) 2023-1 숙명여자대학교 소프트웨어학부 강의 "데이터마이닝및분석", 이기용 교수님 1. Principle 어떤 아이템셋이 frequent하면, 그 아이템셋의 모든 subset은 frequent하다. Ex. {a, b, c} is frequent → {a, b}, {b, c}, {a, c}, {a}, {b}, {c} must also be frequent 어떤 아이템셋이 infrequent하면, 그 아이템을 포함하는 모든 아이템셋은 infrequent하다. Ex. {a, b} is infrequent → {a, b, c} is also infrequent 2. Process Frequent itemset generation (using minsup, support) Rule generatio..

강의 출처) 2023-1 숙명여자대학교 소프트웨어학부 강의 "데이터마이닝및분석", 이기용 교수님Preliminaries1) 데이터 형식 (Ex. Market Basket Transaction)TID : 각 구매자들Items : 고객에 의해 함께 구매된 아이템셋2) Association Analysis ?정의 : 대용량의 데이터셋 내에 숨어져 있는 흥미로운 관계성을 찾아내는 것관계성을 찾아내기 위해 봐야 할 것Frequent itemsets정의 : 많은 transaction에서 함께 등장한 아이템셋A와 B라는 아이템이 있다고 할 때, A, B가 함께 많이 등장하기만 한다면 frequent itemsetAssociation rules정의 : 두 아이템 셋 간의 관계함께 등장하는 횟수가 많다는 점을 만족한다는..

개인공부 1. 정의 : 고차원의 벡터를 2차원의 공간의 격자로 표현할 수 있도록 하는 인공신경망의 한 종류 2. 아키텍처 입력층 & 경쟁층 두 개의 층으로 구성 저차원 격자 하나에는 위치적 유사도를 고려해 여러 개의 입력 벡터가 속할 가능성 있음 3. 학습 원리 ( 과정 ) 랜덤으로 초기 격자모형을 초기화 학습 데이터를 하나씩 추가하며 격자모형의 위치가 데이터의 분포와 비슷해지도록 업데이트 하얀색의 점이 학습 데이터라고 할 때 격자점 중 데이터와 가장 가까운 점(= Winning node)과 그 주변 점들의 gradient를 업데이트 (= 경쟁학습) 이때, Winning node가 가장 많이 업데이트 & 주변 점들은 Winning node보다 덜 업데이트 t시점의 j번째 격자모형을 ..

강의 출처) 2023-1 숙명여자대학교 소프트웨어학부 강의 "데이터마이닝및분석", 이기용 교수님 Random Forest : decision tree를 여러 개 랜덤하게 사용하여 만든 것 -> 어떻게 랜덤하게 decision tree를 여러 개 만드느냐가 포인트 ! bagging과 동일하게 샘플링 splitting feature를 잡을 때, p개의 feature를 랜덤하게 먼저 뽑고 그 중에서 베스트를 뽑아서 사용 -> 이때문에 모두 다른 트리가 되는 것 => random forest는 training instances와 features를 모두 새롭게 조합하여 사용 1. 기본 과정 (1) n개의 instance와 d개의 feature를 가진 training set D가 있다고 가정 (2) ..

강의 출처) 2023-1 숙명여자대학교 소프트웨어학부 강의 "데이터마이닝및분석", 이기용 교수님 1. Bagging [Bootstrap aggregating] 1) 기본 과정 (1) 데이터셋으로부터 반복적으로 샘플 추출 (2) 각 bootstrap 샘플에 대해 base classifier를 학습 (3) test data를 활용하여 전체 base classifier를 예측 (4) 전체 base classifier의 예측값 중 다수결로 결과를 채택 2) 데이터셋 추출시 주의할 점 [왕왕중요] 복원 추출 (with replacement) 뽑힌 데이터는 다시 그대로 제자리에 매번 뽑을 때마다 전체 데이터에서 하나씩 추출 이 성질 때문에 하나의 샘플 데이터셋에는 같은 데이터가 여러 개 뽑힐수도 ! 반대로 말하면 ..

강의 출처) 2023-1 숙명여자대학교 소프트웨어학부 강의 "데이터마이닝및분석", 이기용 교수님 앙상블이란 ? : 여러 개 분류기의 예측 결과를 합쳐서 분류 정확도를 높이는 기술 1. 기본 아이디어 (1) Training data로부터 base classifier을 조합을 형성하고 (2) 각 base classifier로부터 만들어진 예측을 가지고 투표를 진행해 결과를 냄 ※ 주의사항 각 base classifier의 정확도는 50% 이상이어야 함 -> 정확도가 낮은 모델끼리 모아놓으면 오히려 정확도가 더 떨어지는 효과 . . . 각 base classifier는 독립적이어야 함 독립적이면 base classifier 중 절반 이상이 잘못 예측해야만 오분류가 발생 -> 그러니까 정확도를 높일 수 있는 것..

강의 출처) 2023-1 숙명여자대학교 소프트웨어학부 강의 "데이터마이닝및분석", 이기용 교수님 " Forward Propagation -> Backward Propagation -> gradient descent " 과정의 반복 1. Forward Propagation 2. Backward Propagation 1) 기본 Concept -> J(w,b) = objective function 을 최소화시키고자 함 2) Weight에 대해 J(w,b) 미분 -> J(w,b) = objective function 를 최소화하는 weight의 값을 찾고자 하는 것 (1) J(w,b) 식을 분할 - 1 (2) J(w,b) 식을 분할 - 2 (3) J(w,b) 식을 분할 - 3 구하려는 델타값의 레이어 == ou..