본문 바로가기

AI#AI조회 30

DPO란?Direct Preference Optimization

정의

RLHF의 단순·안정적 대안. 보상 모델 없이 선호도 데이터로 직접 최적화.

DPO란?

RLHF의 PPO를 생략하고 선호도 데이터만으로 직접 LLM을 최적화한다. 2023 논문.

장점

보상 모델 학습 불필요
PPO의 불안정성 해결
코드 간결

현재

Llama·Mistral 등 많은 모델이 DPO로 얼라인먼트.

🔗 함께 보면 좋은 용어

멀티 에이전트 오케스트레이션

Supervisor·Hierarchy·Network 패턴으로 여러 에이전트 조율.

청킹 전략 상세

고정·문장·계층·의미론적·Agentic 청킹. RAG 품질의 결정.

추론 지연 최적화

TTFT·TPS·Batching·KV Cache·Speculative·Quantization 조합.

Agent-to-Agent Protocol

에이전트 간 통신 표준. Google이 제안. MCP와 상호 보완.

전체 예측 중 맞춘 비율. 클래스 불균형 시 오해를 유발할 수 있음.

Activation Function

신경망 뉴런의 비선형 변환. ReLU·GELU·Sigmoid·Tanh.