DeepSeek의 MoE 대형 모델. 671B 총 / 37B 활성. 오픈 웨이트.
MLA(Multi-head Latent Attention) + Fine-grained MoE. GPT-4급 성능을 오픈 웨이트로. 훈련 비용 $5.5M.