본문 바로가기

AI_Paper/NLP

MoE(Mixtral of Experts) 논문리뷰

( 이전 논문을 먼저 살펴보세요. ) 

[ Abstract ]

Mistral 7b의 구조를 따르나 feedforward blocks을 8개의 각 Expert로 분리(MoE 구조를 따름)

각 토큰을 처리 할 때 router network가 두개의 expert를 선정 후 결과 결합 47B 파라미터 보유, 추론시에 13B만 활성화 (모델은 크나, 연상량이 적음) llama 2 70b, gpt-3.5 성능 능가

Mixture of Experts layer

 

[ Introduction ]

Mixtral 8x7b는 각 토큰에 대해 파라미터의 일부만 사용하기 때문에 작은 batch-size에서도 빠른 속도로 추론이 가능하다.

 

[ Architectural details ]

32k 토큰으로 학습, feed forward blacks가 MoE layer로 대체

Sparse Mixture of Experts 입력 x에 대한 결과는 Expert network의 weighted sum으로 구성

기존의 MoE 논문에서 수식 참고 (링크)

 

기존의 MoE와 다르게 위 논문에서는 SwiGLU 구조를 도입, k=2로 도입

 

[ conclusion ] 

Mixtral 모델은 Mistral 7b의 기본 구조를 활용하면서도, feed-forward 블록을 8개의 Expert로 분리한 MoE(Mixture of Experts) 구조를 도입, MoE 구조의 도입이 모델의 효율성과 성능 향상에 크게 기여할 수 있음을 입증