Introduction and Word Vectors
기존의 NLP 문제점은 단어를 각각 별개의 기호로 간주했다.
[ one-hot vector ]
- one-hot vector로는 model, hotel각 단어의 유사도를 판단할 개념이 없음
- one-hot vector로 만들경우 vocaburary에 있는 단어들의 개수만큼의 크기를 갖는 (huge)vector를 만들어야함
[ Distributional semantics ]
- 단어의 문맥을 고려한 방법, 주위 단어를 살펴 벡터 형성
- Word Embedding(Word vector)으로 표현
corpus : 모든 단어 집합
vocabulary : corpus에서 구성한 단어 집합(주로 빈도수로 계산)
위 그림과 같은 방식으로 주변 단어들간의 관계에(주변에 어떤 단어가 나타날 것인지 확률) 따라 계산 후 vector 생성
이후 word vector를 구하는 것에 대한 설명 진행
수업 링크 : https://www.youtube.com/watch?v=rmVRLeJRkl4&list=PLoROMvodv4rOSH4v6133s9LFPRHjEmbmJ&index=1
'AI_theory > Stanford cs224(NLP)' 카테고리의 다른 글
Stanford CS224N(Winter2021) : Lecture 2 (Neural Classifiers) (0) | 2023.01.24 |
---|