본문 바로가기
Data#Data#ML#AI조회 1

Reinforcement Learning란?RL

정의

에이전트가 환경과 상호작용하며 보상을 최대화하는 방향으로 학습. AlphaGo·로봇 제어에 활용.

다른 표현강화학습

Reinforcement Learning이란?

"시도 → 결과 관찰 → 더 나은 시도"를 반복해 학습하는 방식이다.

구성

  • Agent, Environment, State, Action, Reward
  • 정책(Policy): 상태 → 행동 매핑
  • 가치함수(Value): 미래 보상 기대치

알고리즘

Q-learning, DQN, PPO, DPO. RLHF(LLM 정렬)의 RL이 이것.

🔗 함께 보면 좋은 용어

Data 전체 →