본문 바로가기

Data#Data#ML#AI조회 20

Reinforcement Learning란?RL

정의

에이전트가 환경과 상호작용하며 보상을 최대화하는 방향으로 학습. AlphaGo·로봇 제어에 활용.

다른 표현강화학습

Reinforcement Learning이란?

"시도 → 결과 관찰 → 더 나은 시도"를 반복해 학습하는 방식이다.

구성

Agent, Environment, State, Action, Reward
정책(Policy): 상태 → 행동 매핑
가치함수(Value): 미래 보상 기대치

알고리즘

Q-learning, DQN, PPO, DPO. RLHF(LLM 정렬)의 RL이 이것.

🔗 함께 보면 좋은 용어

Data 전체 →

데이터 관측성 플랫폼

Monte Carlo·Bigeye·Soda·Datafold·Elementary.

데이터 레이크 파일 포맷

Parquet·ORC·Avro·Arrow. 사용 시나리오별 선택.

임베딩 모델 선택

OpenAI·Cohere·BGE·ko-sroberta 등.

데이터 품질 프레임워크

Great Expectations·Soda·dbt tests·Elementary.

벡터 검색 벤치마크

ANN Benchmarks·VectorDBBench·BEIR.

모던 데이터 스택 2026

Snowflake·Databricks·Fabric·BigQuery 중심의 2026년 현황.