일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- GNN
- overfitting
- Python
- abstraction
- Self-loop attention
- machine learning
- NLP
- python practice
- sentence embedding
- neural net
- Transformer
- Classificaion
- deep learning
- word2vec
- elif
- Set Transformer
- Attention
- sigmoid
- pytorch
- XOR
- Today
- Total
목록machine learning (5)
Research Notes

1. 분류에서의 적용기법 : K-인접기법(k-nearest neighbor) - 분류 : 타겟값이 존재하는 지도학습. 분류 규칙을 생성하고 새로운 데이터를 분류하는 기법 2. KNN ▶ k-인접방법(KNN) : k개의 가장 가까운 이웃들을 사용해서 분류하는 방법 : 위의 예제는 녹색을 분류하기 위함. k=3이면 가장 가까운 것들 (세모2개, 네모1개)에 따라 새로운 객체는 세모가 됨. k=5일때는 파랑색이 더 많기때문에 네모로 분류됨. 이 분류문제는 최적의 k를 찾는것이 중요하다. - 최적의 K는? k가 너무 크면 데이터 구조를 파악하기 어렵고 너무 작으면 과적합 위험이 있음. 교차검증으로 정확도가 높은 k를 선정. - 장점 : 단순/효율, 데이터 분산 추정 필요 없음, 빠른 훈련단계 - 단점 : 모델 ..

1. 데이터마이닝과 분류 ▶ 분류 (Classification) : 다수의 속성을 갖는 객체를 그룹 또는 범주로 분류하는 것 학습 표본으로부터 효율적인 분류규칙을 생성(=오분류율 최소화) ▶ 분류규칙 예시 1) 임의로 분류규칙 선정 2) 오분류율 제시 3) 두번째 분류규칙 제시(더 자세하게) 2. 과적합(overfitting) : 모델이 너무 데이터화된 경우. - 분류모형에서 훈련데이터에 대한 과적합을 시킬 경우, 실제 데이터를 적용했을 때 더 높은 오분류율 발생. - 실제 데이터가 들어갔을 때 정확도가 낮아지는 문제 발생. - 이를 해결하기 위해 학습데이터와 검증 데이터를 나눠서 모델의 성능을 학습시키며 평가 ▶ 교차검증 : 분류모형의 유효성 검증 방법 ▶ K-fold cross validation ..

▶ Learning Rate(학습률) - Learning Rate란? 학습의 속도를 조정하는 값 - Gradient Descent 알고리즘에서 사용 - Learning rate가 큰 경우 ; OverShooting : 학습률을 지정했는데 손실이 줄어들지 않고 발산할 경우. - Learning rate가 작은 경우 ; 시간이 너무 오래걸리고, Local minimum(국소해)에 머물러 버릴 위험. : 값의 변화가 너무 작음. - Learning Rate을 지정할 때 답은 없고 최적의 값을 시도해 보아야 함.(대부분 0.01로 지정) ▶ Overfitting : 머신러닝이 학습을 통해서 모델을 만들때, 학습 데이터에만 잘 맞는 모델을 만드는 경우. 학습 데이터 이외의 값을 집어넣으면 예측이 잘 안되는 문제...

▶ Multinomial Classification(다중 분류) - softmax 함수 기반 : 함수 이후의 값이 0~1사이의 값이고, 전체 값의 합이 1이 되는 함수 : y값에서 softmax함수에 대입해 나온 값들 중 제일 큰 값을 제외하고 1로 만들수 있음, 이를 참조하여 최종 선택을 결정. == One-Hot Encoding ▶ Cost Function : Cross-entropy - Logistic cost VS cross entropy(위와 아래 식이 동일) - Cross-entropy cost function

1. Survival Analysis 란? Survival Analysis(생존 분석)은 어떤 사건의 발생 확률을 시간이란 변수와 함께 파악하는 통계분석 및 예측 기법이다. Survival Analysis는 Healthcare 분야에서 많이 사용된다. 시간에 따른 환자의 수명을 예측한다거나 나이가 듦에 따라 질병에 걸릴 확률을 계산하는 것이 대표적인 예시이다. Survival Analysis에서 중요한 것은 시간이 흐르며 사건이 발생할 확률이 변한다는 것이다. 기존에는 어떤 일이 발생할 확률을 "Yes or No"라고 했다면, Survival Analysis는 "환자가 t 시점에서 사망할 확률은 a %이다"라고 대답한다. 2. Survival Analysis 용어 정리 Survival Analysis의 ..