논문 링크 : https://arxiv.org/abs/2302.13971
Abstract
최근 공개되지 않은 방대한 양의 데이터로 학습된 Lage Language Models(LLMs)와 다르게 LLAMA는 공개된 방대한 데이터를 통해 학습한 모델. 대부분의 벤치마크에서 LLAMA-13b 모델만으로 GPT-3(175b)의 성능을 능가, LLAMA-65b의 모델은 Chinchila-70b, PaLM-540b와 같이 기존의 sota와 유사한 성능을 보임
Introduction
LLMs은 기존에 학습하지 않은 task에서도 좋은 성능을 보인다. 이런 few-shot의 좋은 성능은 LLMs의 모델 크기확장 실험에 초점을 맞춰 졌다. 하지만 최근 연구에 따르면 가장 큰 모델이 아닌 더 많은 데이터에 의해 학습된 모델이 더 좋은 성능을 입증했다. 이에 [그림 1]과 같이 모델 크기와 학습 데이터간의 최적의 값을 찾는 실험을 진행했다. 하지만 위 실험은 inference에 대한 예산을 반영하지 않았다.
LLAMA에서는 위 그림과 다르게(ex. 10B 모델이 200B 토큰이 적절 / 하지만 7B 모델에서 1T 토큰까지 학습했을 때에도 성능향상)
적은 모델에서 더 많은 토큰을 학습을 진행했을 때 성능 향상을 확인.
[그림 2]는 사전학습한 공개된 데이터를 나타낸다.
Architecture
Transformersfmf 기반으로
- pre-normalize : Training 안전성 향상을 위해 output을 normalize하는 대신 각 서브 레이어의 입력을 normalize [ref. GPT3]
- SwiGLU activation function 적용 [ref. PaLM]
- Rotary Positional Embedding 적용 [ref. gptneo]
메모리 사용량 감소를 위해 casual multi-head attetion 적용 [ref. xformer]
zero-shot, few-shot에서 좋은 성능을 보였고, LLM의 특성상 Bias, Toxicity and Misinformation도 존재하지만 기존 GPT-3, OPT에 비해 낮게 측정되엇다.
Conclusion
공개된 데이터만을 이용해 더 작은 사이즈의 모델을 학습했음에도 불구하고 기존의 sota와 비슷한 성능을 보임(LLAMA-13b는 chatgpt-175b 보다 우세)
'AI_Paper > NLP' 카테고리의 다른 글
Agent-as-a-Judge: Evaluate Agents with Agents 논문 리뷰 (0) | 2025.02.21 |
---|---|
Mixture-of-Agents Enhances Large Language ModelCapabilities(MoA) 논문 리뷰 (0) | 2025.02.20 |
MoE(Mixtral of Experts) 논문리뷰 (0) | 2025.02.18 |
MoE(OUTRAGEOUSLY LARGE NEURAL NETWORKS:THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER) 논문리뷰 (0) | 2025.02.18 |
Transformer 논문리뷰 (0) | 2022.06.05 |