본문 바로가기
AI#AI#Safety조회 35

AI Alignment란?

정의

AI 시스템이 인간 의도·가치에 부합하게 동작하도록 만드는 연구 분야.

다른 표현AI 정렬

Alignment란?

"AI가 더 똑똑해져도 인간에게 유익한 방향으로 행동하는가"를 연구·구현하는 분야다.

기법

  • RLHF — 인간 피드백
  • Constitutional AI (Anthropic)
  • Debate, Recursive Reward Modeling
  • Red teaming

🔗 함께 보면 좋은 용어

AI 전체 →