본문 바로가기

AI#AI#LLM#VectorDB조회 42

RAG란?Retrieval-Augmented Generation

정의

LLM에 외부 지식을 주입해 답변 품질을 높이는 표준 패턴. 질문 → 벡터 검색 → 관련 문서 → 프롬프트에 포함 → LLM 생성.

다른 표현검색증강생성RAG란RAG 뜻

RAG란?

RAG(Retrieval-Augmented Generation, 검색 증강 생성)는 LLM이 학습하지 않은 외부 지식을 실시간으로 끌어와 답변하게 하는 설계 패턴이다. 파인튜닝보다 저렴하고, 최신 정보를 즉시 반영할 수 있는 것이 핵심 장점이다.

동작 흐름

문서 청킹: 원본 문서를 500~1000 토큰 단위로 분할
임베딩: 각 청크를 벡터로 변환해 Vector DB에 저장
검색: 사용자 질문도 벡터화해 유사한 청크 top-k 조회
프롬프트 조합: 검색된 청크를 컨텍스트로 LLM에 전달
생성: LLM이 해당 컨텍스트만 참고해 답변

언제 RAG가 유리한가

최신 정보(뉴스, 사내 문서)가 필요할 때
파인튜닝이 비용상 부담될 때
근거(citation)를 답변에 포함해야 할 때

한계

청킹 전략이 품질을 좌우 — 잘못 쪼개면 문맥 훼손
검색 top-k가 너무 많으면 LLM이 놓치는 "Lost in the Middle" 현상
한국어는 임베딩 모델 선택이 결정적 (BGE-M3, Cohere embed-v3 권장)

📘 관련 기술노트

전체 보기 →

AIRAG (Retrieval-Augmented Generation) 구현 가이드

AIRAG 검색 증강 생성 완벽 가이드 — 임베딩부터 답변 생성까지

AIRAG(Retrieval-Augmented Generation) 실전 구축 가이드 — 벡터DB 선택부터 청크 전략까지

🔗 함께 보면 좋은 용어

멀티 에이전트 오케스트레이션

Supervisor·Hierarchy·Network 패턴으로 여러 에이전트 조율.

청킹 전략 상세

고정·문장·계층·의미론적·Agentic 청킹. RAG 품질의 결정.

추론 지연 최적화

TTFT·TPS·Batching·KV Cache·Speculative·Quantization 조합.

Agent-to-Agent Protocol

에이전트 간 통신 표준. Google이 제안. MCP와 상호 보완.

전체 예측 중 맞춘 비율. 클래스 불균형 시 오해를 유발할 수 있음.

Activation Function

신경망 뉴런의 비선형 변환. ReLU·GELU·Sigmoid·Tanh.