본문 바로가기

AI#AI#LLM#Architecture조회 22

MoE란?Mixture of Experts

정의

여러 "전문가" 서브네트워크 중 일부만 활성화해 파라미터는 크지만 추론 비용은 낮춘 아키텍처. Mixtral·GPT-4·Llama 4에 적용.

다른 표현MoE전문가 혼합

MoE란?

전통적 LLM은 모든 토큰이 전체 파라미터를 통과한다. MoE는 수십 개 "전문가" 모듈 중 라우터가 일부만 선택 활성화한다.

예

Mixtral 8x7B = 전문가 8개 × 7B, 토큰마다 2개만 활성 → 총 파라미터 47B, 활성 파라미터 13B. 13B 수준 비용으로 47B 수준 성능.

대표 적용

Mixtral, DeepSeek V3/R1
GPT-4 (업계 추정)
Llama 4 (공식)
Qwen MoE 변형

단점

메모리(모든 전문가 로드 필요)는 여전히 크고, 라우팅 불균형 시 일부 전문가만 혹사되는 이슈. 학습 난이도 높음.

📘 관련 기술노트

전체 보기 →

AIMixtrall 8x7B — 오픈소스 MoE 모델의 가능성

AIDeepSeek V4 아키텍처 완전 분석 — 1조 파라미터 MoE의 비밀

🔗 함께 보면 좋은 용어

멀티 에이전트 오케스트레이션

Supervisor·Hierarchy·Network 패턴으로 여러 에이전트 조율.

청킹 전략 상세

고정·문장·계층·의미론적·Agentic 청킹. RAG 품질의 결정.

추론 지연 최적화

TTFT·TPS·Batching·KV Cache·Speculative·Quantization 조합.

Agent-to-Agent Protocol

에이전트 간 통신 표준. Google이 제안. MCP와 상호 보완.

전체 예측 중 맞춘 비율. 클래스 불균형 시 오해를 유발할 수 있음.

Activation Function

신경망 뉴런의 비선형 변환. ReLU·GELU·Sigmoid·Tanh.