본문 바로가기

AI_theory/Stanford cs224(NLP)

Stanford CS224N(Winter2021) : Lecture 1

Introduction and Word Vectors

 

기존의 NLP 문제점은 단어를 각각 별개의 기호로 간주했다. 

 

[ one-hot vector ]

그림 1

- one-hot vector로는 model, hotel각 단어의 유사도를 판단할 개념이 없음

- one-hot vector로 만들경우 vocaburary에 있는 단어들의 개수만큼의 크기를 갖는 (huge)vector를 만들어야함

 

[ Distributional semantics  ]

- 단어의 문맥을 고려한 방법, 주위 단어를 살펴 벡터 형성 

- Word Embedding(Word vector)으로 표현 

 

corpus : 모든 단어 집합 

vocabulary : corpus에서 구성한 단어 집합(주로 빈도수로 계산)

word2vec algorithm

위 그림과 같은 방식으로 주변 단어들간의 관계에(주변에 어떤 단어가 나타날 것인지 확률) 따라 계산 후 vector 생성

 

이후 word vector를 구하는 것에 대한 설명 진행 

 

 

수업 링크 : https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rOSH4v6133s9LFPRHjEmbmJ&index=1