- NLP 논문리뷰
Attention Is All You Need (https://arxiv.org/pdf/1706.03762.pdf)
[ 목차 ]
- 1. Abstract
- 2. Introduction
- 3. Background
- 4. Model Architecture
- 5. Why Self-Attention
- 6. Training
- 7. Result
- 8. Conclusion
- 1. Abstract
기존의 sequnce변환 모델들은 encoder, decoder구조를 가지는 cnn, rnn모델이 지배적이다.
(이 시점)최고의 성능의 모델도 encoder와 decoder를 attention machanism을 통해서 연결되어있다.
본 논문에서 attention mechanisms 사용하는 Transformer네트워크 구조를 제안한다.
( 기계번역 성능 우수, 학습 소모시간 적음 )
- 2. Introduction
sequence 모델링에서 RNN, LSTM등이 확실한 성능을 기록중
( rnn모델은 input, output 시퀀스의 토큰 위치에 따라 계산을 분해하여 진행한다.
짧은 시퀀스는 처리를 잘 하나, 관련 정보와 정보를 사용하는 지점 사이의 걸이가 멀어지면 학습능력이 저하된다.
즉 긴 길이의 시퀀스를 처리하는데 문제가 된다. )
Attention Mechanism은 input, output 시퀀스에서 거리에 상관없는 의존성 모델링을 가능하게 함으로써 다양한 task( 시퀀스 모델링, transduction model )등에서 빠지지 않고 사용된다. 그러나 대부분 rnn과 같이 사용되었다.
본 논문에서는 input과 output간의 global dependency를 오직 attention mechanism에만 의존하는 모델 Transformer를 제안한다. ( 기계 번역 분야에서 sota 달성 )
- 3. Background
Transformer는 input과 output의 관계를 rnn계산, 합성곱 계산 없이 self-attention계산으로만 구성한 최초의 모델이다.
- 4. Model Architecture
경쟁력있는 시퀀스 변환모델들은 encoder - decoder구조를 가진다.
encoder는 입력 시퀀스의 표현(x1, ..., xn)을 연속적인 출력 시퀀스 z(z1,...,zn)로 매칭시킨다.
decoder에서 z를 받고 output 시퀀스 (y1,...,ym)를 생성한다. (한번에 하나의symbol을 생성)
이전에 생성한 symbol들을 추가적인 input으로 사용하기 때문에 모델은 자동적으로 회귀한다.
Transformer는 self-attention과 fully connected layers들을 encoder, decoder각각에 쌓아올려 이용하는 구조이다.
- 4-1) Encoder
Encoder는 N=6개의 동일한 layer들의 층으로 쌓아 구성하였다. 각각의 layer들은 2개의 sub-layers들로 구성된다.
sub-layer의 첫번째 layer는 multi-head self-attention mechanism이다.
sub-layer의 두번째 layer는 position-wise fully connected feed-forward network다.
각각의 sub-layer에서 뒤에 layer normalization이 뒤따르는 residual connection을 이용했고,
이러한 residual connections을 이용하기위해 모델의 sub-layer들의 output차원은 d=512를 갖도록 한다.
- 4-2) Decoder
Decoder또한 N=6개의 동일한 layer들의 층으로 쌓아 구성하였다. 각각의 layer들은 Encoder에 존재하는 2개의 sub-layers들에 multi-head attention기능의 새로운 세번째 sub-layer를 추가로 삽입했다.
각각의 sub-layer들은 encoder때와 동일하게 뒤에 layer normalization이 뒤따르는 residual connection을 이용했다.
decoder stack에서 positions가 이후의 positions에 도달하지 못하도록 self-attention layer를 수정했다.
즉 어떤 i번째 위치에서 prediction을 진행할 때, 미래의 위치들이 접근하는것을 불가능하게하고 해당 위치 i와 그 이전의 우위치들에 대해서만 의존하도록 masking 기법을 이용했다.
- 4-3) Attention
Attention 함수는 query와 key-value를 output에 매핑시는 함수를 말한다. output은 key에 상응하는 query의 상응하는 함수의 계산로 가중치를 구하고 가중치들의 합으로 계산된다.
'AI_Paper > NLP' 카테고리의 다른 글
Agent-as-a-Judge: Evaluate Agents with Agents 논문 리뷰 (0) | 2025.02.21 |
---|---|
Mixture-of-Agents Enhances Large Language ModelCapabilities(MoA) 논문 리뷰 (0) | 2025.02.20 |
MoE(Mixtral of Experts) 논문리뷰 (0) | 2025.02.18 |
MoE(OUTRAGEOUSLY LARGE NEURAL NETWORKS:THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER) 논문리뷰 (0) | 2025.02.18 |
LLAMA 논문리뷰 (0) | 2024.01.15 |