일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- GNN
- NLP
- overfitting
- Classificaion
- python practice
- sigmoid
- Transformer
- deep learning
- Attention
- neural net
- sentence embedding
- machine learning
- Set Transformer
- XOR
- word2vec
- Self-loop attention
- pytorch
- abstraction
- Python
- elif
- Today
- Total
목록word2vec (3)
Research Notes

Research Question Is there a task and a corresponding loss that will allow us to learn highly generic sentence representations? Proposed Methods generic sentence embedding/representation을 통해, 현재 문장을 가지고 이전/이후 문장을 예측할 수 있는 모델을 개발함 단어 확장 방법(vocabulary expansion method)을 통해, encode된 word가 학습 시에만 활용되는 것이 아니라 수만개의 단어로 확장될 수 있도록 함 학습 후, 추출된 vector들은 8가지 task에 활용할 수 있음 (semantic relatedness, paraphrase..
1. Sent2Vec Sent2vec은 문장 하나를 하나의 vector로 embedding하는 방법. Word2Vec 모델을 기반으로 만들어짐 2. Sent2Vec의 특징 2.1 Subsampling 비활성화 문장의 모든 n-gram을 조합하여 학습할 수 있도록, window size를 문장 전체로 고정하며, 중요한 n-gram 쌍 생성을 방해하지 않도록 subsampling을 사용하지 않음 2.2. Dynamic context window 비활성화 Sent2vec은 문장 전체의 의미를 살리기 위해, 문장의 모든 n-gram을 조합하여 학습함. Sent2Vec의 Context window 크기는 문장의 전체 길이로 고정함 (* n-gram: bi-gram의 최대거리 ) 2.3 단어 n-gram Sent2..

1. Background of Word Embedding 모든 word embedding 관련 학습은 '비슷한 분포를 가진 단어는 비슷한 의미를 가진다'는 가정에 입각하여 이루어진다. (=Distributional Hyphothesis) 비슷한 분포를 가졌다는 것은 기본적으로 단어들이 같은 문맥에서 등장한다는 의미이며, 단어들이 같이 등장하는 일이 빈번하게 일어난다면, 단어들이 유사한 의미를 가진다는 것을 유추할 수 있다. 이러한 식으로 단어들의 관계에 대해 파악할 수 있다. 2. Word2Vec 기존 Neural Net 기반 학습방법에 비해 크게 달라진 것은 아니지만, 계산량이 현저하게 적어서 사람들이 많이 사용하는 방법이 되었다. 또한, Word2vec은 기존 연구와 다르게 학습을 위한 모델이 2가지..