본문 바로가기
AI#AI#LLM#Architecture조회 1

MoE란?Mixture of Experts

정의

여러 "전문가" 서브네트워크 중 일부만 활성화해 파라미터는 크지만 추론 비용은 낮춘 아키텍처. Mixtral·GPT-4·Llama 4에 적용.

다른 표현MoE전문가 혼합

MoE란?

전통적 LLM은 모든 토큰이 전체 파라미터를 통과한다. MoE는 수십 개 "전문가" 모듈 중 라우터가 일부만 선택 활성화한다.

Mixtral 8x7B = 전문가 8개 × 7B, 토큰마다 2개만 활성 → 총 파라미터 47B, 활성 파라미터 13B. 13B 수준 비용으로 47B 수준 성능.

대표 적용

  • Mixtral, DeepSeek V3/R1
  • GPT-4 (업계 추정)
  • Llama 4 (공식)
  • Qwen MoE 변형

단점

메모리(모든 전문가 로드 필요)는 여전히 크고, 라우팅 불균형 시 일부 전문가만 혹사되는 이슈. 학습 난이도 높음.

📘 관련 기술노트

전체 보기 →

🔗 함께 보면 좋은 용어

AI 전체 →