일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- Classificaion
- neural net
- Transformer
- Python
- deep learning
- GNN
- overfitting
- word2vec
- NLP
- sentence embedding
- Attention
- Set Transformer
- XOR
- sigmoid
- Self-loop attention
- pytorch
- machine learning
- python practice
- elif
- abstraction
- Today
- Total
목록Programming Language/R (5)
Research Notes

1. 서포트벡터머신(Support Vector Machine) : 지도학습 - 분류모델 - SVM(서포트벡터머신) - 장점 : 정확도, 다양한 데이터를 다룰 수 있음 - 단점 : 해석상 어려움. 시간상 문제 1) 선형 SVM 위의 그림에서 원과 네모를 나누는 최적의 방법을 찾아야 함. 직선과 실선사이를 마진(margin)이라고 하는데 이를 최대화하는 벡터를 찾는 것. 양쪽의 범주를 분리하는 최적 선을 찾는 최적화 문제. 2) 비선형 SVM x1와 x2를 분리하기 위한 패턴은 선형으로 분리 할 수 없음. 2차원 공간에서는 분리가 불가하기 떄문에 고차원 공간으로 변환. 2. 서포트벡터머신 패키지와 함수 - 패키지 : e1071 - 서포트벡터머신 함수 : svm 1) 패키지 설치, 작업환경 설정, 데이터 불..

1. Discriminant Analysis (판별분석) - 객체를 몇 개의 범주로 분류 - 범주들을 가장 잘 구분하는 변수 파악 및 범주 간 차이를 가장 잘 표현하는 함수 도출. - 선형 판별분석 : 공분산 행렬이 범주에 관계 없이 동일한 경우 - 이차 판별분석 : 공분산 행렬이 각각 다른 경우 2. Discriminant Analysis with R 1) Iris 데이터 train/test 분할 # set working directory setwd("/Users/choijia/postech_ai/ML/AdR_week10-3_new") # read csv file iris

1. 분류에서의 적용기법 : K-인접기법(k-nearest neighbor) - 분류 : 타겟값이 존재하는 지도학습. 분류 규칙을 생성하고 새로운 데이터를 분류하는 기법 2. KNN ▶ k-인접방법(KNN) : k개의 가장 가까운 이웃들을 사용해서 분류하는 방법 : 위의 예제는 녹색을 분류하기 위함. k=3이면 가장 가까운 것들 (세모2개, 네모1개)에 따라 새로운 객체는 세모가 됨. k=5일때는 파랑색이 더 많기때문에 네모로 분류됨. 이 분류문제는 최적의 k를 찾는것이 중요하다. - 최적의 K는? k가 너무 크면 데이터 구조를 파악하기 어렵고 너무 작으면 과적합 위험이 있음. 교차검증으로 정확도가 높은 k를 선정. - 장점 : 단순/효율, 데이터 분산 추정 필요 없음, 빠른 훈련단계 - 단점 : 모델 ..

1. 데이터마이닝과 분류 ▶ 분류 (Classification) : 다수의 속성을 갖는 객체를 그룹 또는 범주로 분류하는 것 학습 표본으로부터 효율적인 분류규칙을 생성(=오분류율 최소화) ▶ 분류규칙 예시 1) 임의로 분류규칙 선정 2) 오분류율 제시 3) 두번째 분류규칙 제시(더 자세하게) 2. 과적합(overfitting) : 모델이 너무 데이터화된 경우. - 분류모형에서 훈련데이터에 대한 과적합을 시킬 경우, 실제 데이터를 적용했을 때 더 높은 오분류율 발생. - 실제 데이터가 들어갔을 때 정확도가 낮아지는 문제 발생. - 이를 해결하기 위해 학습데이터와 검증 데이터를 나눠서 모델의 성능을 학습시키며 평가 ▶ 교차검증 : 분류모형의 유효성 검증 방법 ▶ K-fold cross validation ..

1. 데이터 마이닝 기법 ▶ 지도학습(정답이 있음) - 예측 : 종속변수가 continuous(연속형)인 값. 방법으로는 회귀분석, 선형모형, 비선형모형 등이 존재. (이번 글에서는 지도학습-예측-회귀분석- 다중회귀분석을 공부.) (ex. 자동차의 연비, 야구선수의 연봉, 주식변동, 수질오염 등) - 분류 : 종속변수가 categorical(범주형)인 것들 방법으로는 의사결정나무, 서포트벡터머신, 판별분석, 로지스틱회귀모형 등이 존재. (ex. 대출심사, 신용등급, 고객분류, 품종분류 등) ▶ 비지도학습(정답이 없음) - 군집 : 주어진 속성으로 군집화 - 연관규칙 : 변수들간의 연관관계를 도출. 2. 다중회귀분석(Multiple Linear Regression) - 종속변수 Y를 설명하는 독립변수가..