MoE란?
전통적 LLM은 모든 토큰이 전체 파라미터를 통과한다. MoE는 수십 개 "전문가" 모듈 중 라우터가 일부만 선택 활성화한다.
예
Mixtral 8x7B = 전문가 8개 × 7B, 토큰마다 2개만 활성 → 총 파라미터 47B, 활성 파라미터 13B. 13B 수준 비용으로 47B 수준 성능.
대표 적용
- Mixtral, DeepSeek V3/R1
- GPT-4 (업계 추정)
- Llama 4 (공식)
- Qwen MoE 변형
단점
메모리(모든 전문가 로드 필요)는 여전히 크고, 라우팅 불균형 시 일부 전문가만 혹사되는 이슈. 학습 난이도 높음.