( 이전 논문을 먼저 살펴보세요. )
[ Abstract ]
Mistral 7b의 구조를 따르나 feedforward blocks을 8개의 각 Expert로 분리(MoE 구조를 따름)
각 토큰을 처리 할 때 router network가 두개의 expert를 선정 후 결과 결합 47B 파라미터 보유, 추론시에 13B만 활성화 (모델은 크나, 연상량이 적음) llama 2 70b, gpt-3.5 성능 능가
[ Introduction ]
Mixtral 8x7b는 각 토큰에 대해 파라미터의 일부만 사용하기 때문에 작은 batch-size에서도 빠른 속도로 추론이 가능하다.
[ Architectural details ]
32k 토큰으로 학습, feed forward blacks가 MoE layer로 대체
Sparse Mixture of Experts 입력 x에 대한 결과는 Expert network의 weighted sum으로 구성
기존의 MoE 논문에서 수식 참고 (링크)
기존의 MoE와 다르게 위 논문에서는 SwiGLU 구조를 도입, k=2로 도입
[ conclusion ]
Mixtral 모델은 Mistral 7b의 기본 구조를 활용하면서도, feed-forward 블록을 8개의 Expert로 분리한 MoE(Mixture of Experts) 구조를 도입, MoE 구조의 도입이 모델의 효율성과 성능 향상에 크게 기여할 수 있음을 입증
'AI_Paper > NLP' 카테고리의 다른 글
Agent-as-a-Judge: Evaluate Agents with Agents 논문 리뷰 (0) | 2025.02.21 |
---|---|
Mixture-of-Agents Enhances Large Language ModelCapabilities(MoA) 논문 리뷰 (0) | 2025.02.20 |
MoE(OUTRAGEOUSLY LARGE NEURAL NETWORKS:THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER) 논문리뷰 (0) | 2025.02.18 |
LLAMA 논문리뷰 (0) | 2024.01.15 |
Transformer 논문리뷰 (0) | 2022.06.05 |