Reinforcement Learning이란?
"시도 → 결과 관찰 → 더 나은 시도"를 반복해 학습하는 방식이다.
구성
- Agent, Environment, State, Action, Reward
- 정책(Policy): 상태 → 행동 매핑
- 가치함수(Value): 미래 보상 기대치
알고리즘
Q-learning, DQN, PPO, DPO. RLHF(LLM 정렬)의 RL이 이것.
에이전트가 환경과 상호작용하며 보상을 최대화하는 방향으로 학습. AlphaGo·로봇 제어에 활용.
"시도 → 결과 관찰 → 더 나은 시도"를 반복해 학습하는 방식이다.
Q-learning, DQN, PPO, DPO. RLHF(LLM 정렬)의 RL이 이것.