본문 바로가기

AI#AI#LLM#Alignment조회 25

RLHF란?Reinforcement Learning from Human Feedback

정의

사람의 선호도로 보상 모델을 학습하고, 이를 강화학습으로 LLM에 주입해 "사람이 좋아하는" 응답을 생성하게 하는 기법.

다른 표현RLHF인간 피드백 강화학습

RLHF란?

ChatGPT가 일반 GPT-3 대비 훨씬 "친절하고 안전한" 답변을 하는 핵심 이유다. 세 단계로 진행된다.

3단계

SFT — 지시 따르기 예시로 지도학습
RM — 사람이 "A vs B" 선호도 라벨링, 보상 모델 학습
PPO/DPO — 보상 모델 점수를 최대화하도록 강화학습

최근 트렌드

DPO(Direct Preference Optimization)가 더 단순·안정적이라 많이 쓰임. Constitutional AI는 사람 대신 AI 판단으로 대체하는 Anthropic 방식.

🔗 함께 보면 좋은 용어

멀티 에이전트 오케스트레이션

Supervisor·Hierarchy·Network 패턴으로 여러 에이전트 조율.

청킹 전략 상세

고정·문장·계층·의미론적·Agentic 청킹. RAG 품질의 결정.

추론 지연 최적화

TTFT·TPS·Batching·KV Cache·Speculative·Quantization 조합.

Agent-to-Agent Protocol

에이전트 간 통신 표준. Google이 제안. MCP와 상호 보완.

전체 예측 중 맞춘 비율. 클래스 불균형 시 오해를 유발할 수 있음.

Activation Function

신경망 뉴런의 비선형 변환. ReLU·GELU·Sigmoid·Tanh.