AI_theory (7) 썸네일형 리스트형 Stanford CS224N(Winter2021) : Lecture 2 (Neural Classifiers) Neural Classifiers [ Word2Vec ] - 단어의 순서는 고려하지 않고 빈도수만 고려하는 bag of words model이다. - 단어 유사도로 word vector를 만든다. Q. 좋은 word vector를 어떻게 만들까? 1. 0에 가까운 random word vector로 시작 2. SGD사용해서 loss를 최소화 SGD 사용이유 : gradient descent를 이용해서 loss를 한번 구할려면 corpus를 한번 다 돌아야함 (오래걸리고, 리로스가 많이 듬) - skip-grams(center word로 context words 예측), CBOW(context words로 center word 예측)를 이용해서 word vector를 만듬 + skip-grams with.. Stanford CS224N(Winter2021) : Lecture 1 Introduction and Word Vectors 기존의 NLP 문제점은 단어를 각각 별개의 기호로 간주했다. [ one-hot vector ] - one-hot vector로는 model, hotel각 단어의 유사도를 판단할 개념이 없음 - one-hot vector로 만들경우 vocaburary에 있는 단어들의 개수만큼의 크기를 갖는 (huge)vector를 만들어야함 [ Distributional semantics ] - 단어의 문맥을 고려한 방법, 주위 단어를 살펴 벡터 형성 - Word Embedding(Word vector)으로 표현 corpus : 모든 단어 집합 vocabulary : corpus에서 구성한 단어 집합(주로 빈도수로 계산) 위 그림과 같은 방식으로 주변 단어들간의 관계에.. AI_CNN_Stanford CS231n강의_5 [ Training Neural Networks ] [ 목차 ] - Fancier optimization - Regularization - Transfer Learning [ Optimization ] Problem with SGD - local minia & saddle point > add momentum -> AdaGrad (학습할수록 작아짐) -> RMSProp( momentum에 decay적용) -> Adam(Momentum + RMSProp) - model ensemble [ Regularizaion ] 1. Dropout : randomly set some neurons to zero (activation을 zero) (prevent overfitting) (batch_normalizatio.. AI_CNN_Stanford CS231n강의_4 [ Training Neural Networks ] - Part1 1. Activation Function 2. Data Preprocessing 3. Weight Initialization 4. Batch Normalization 5. Babysitting the Learning Process 6. Hyperparameter Optimization 1. Activation Function - Sigmoid 단점 1. Sigmoid 함수에서 x가 10이상이거나 -10이하일경우(safty zone을 벗어날 경우) 어떤일이 발생하는가? -> Gradient가 Vanising이 발생한다. 2. Sigmoid 함수의 출력값의 범위가 0~1이다. (출력의 중앙값이 0이아니다.) -> 들어오는 데이터가 항상 양수이.. AI_CNN_Stanford CS231n강의_3 loss값이 제일 적은 최적의 Weight를 찾기위해 Gradient를 구해야겠다. - Gradients가 뒤에서 계속 계산되서 오는데 다음 local graident와 뒤에서 구해진 Gradients의 계산으로 쉽게 구할수 있다. {input이 Vector에서 Local gradient (ex. @z/@x)를 Jacobian matrix } --Neural Networks ( fully connected layer에서는 32X32X3이미지를 1X3072 이미지로 변환 했다. ) -- Convolutional Neural Networks - input image를 filter를 거치고 activation map으로 변환 계속 같은 과정을 거침 - CONV layer filter의 개수가 다음 activa.. AI_CNN_Stanford CS231n강의_2 [ Loss function & Optimizer ] loss : 예측값과 실제값의 차이 loss function : loss 구하는 함수 SVM loss 와 soft max loss등의 예시를 들어주면서 설명해줌 [ svm loss function은 정답을 정확히 예측하면 loss 0, score에 의미가 없음 ] [ soft max loss function은 정답을 예측하더라도 정답 label의 score는 높아지는 방향으로 다른 label의 score는 낮아지는 방향으로 작동 ] - training dataset에 맞게 overfitting은 좋지 않다. 정규화가 필요하다 위 그림으로 살펴보면 파란색 training set을 모두 맞추는 방향으로 loss값을 맞추며 진행했다. 하지만 초록색 test.. AI_CNN_Stanford CS231n강의_1 오늘부터 Stanford University School of Engineering 에서 강의한 자료를 바탕으로 Visual Recognition을 위한 Convolutional Neural Networks에 대하여 요약해보겠다. Stanford University School of EngineeringThe Stanford School of Engineering has been at the forefront of innovation for nearly a century, creating pivotal technologies that have transformed the worlds of information technology, communications, medicine, energy, busines.. 이전 1 다음