AI

RAG, 1분 만에 제대로 이해하기

recording or reCoding 2026. 4. 26. 11:41

RAG란 무엇인가?

RAG = Retrieval 검색 + Augmented 증강 + Generation 생성

RAG는 Retrieval-Augmented Generation의 줄임말입니다. 한국어로는 검색 증강 생성이라고 번역하지만, 실무에서는 그냥 RAG라고 부릅니다. 한마디로, AI가 답변을 생성하기 전에 관련 자료를 먼저 검색해서 그 내용을 바탕으로 답하게 만드는 기술입니다.

왜 필요한가? AI의 두 가지 약점

지식 컷오프 (Knowledge Cutoff)

LLM은 학습된 시점 이후의 정보를 모릅니다. 어제 뉴스, 오늘 주가, 최신 문서 — 전부 모르죠.


🌀
환각 현상 (Hallucination)

모르는 것을 모른다고 하지 않고 그럴듯하게 지어냅니다. 자신 있어 보이지만 틀린 답변. GPT API만 붙여서는 기업의 내부 문서나 최신 데이터를 활용할 수 없습니다. 여기서 RAG가 등장합니다.

 

RAG 작동 원리: 4단계

1단계 : 질문을 벡터(숫자)로 변환

사용자의 질문을 임베딩(Embedding) 모델로 처리해 고차원 숫자 벡터로 변환합니다. 의미가 비슷한 문장은 비슷한 벡터값을 가집니다.

2단계 : 벡터DB에서 유사 문서 검색

Pinecone Chroma 같은 벡터 데이터베이스에서 의미적으로 가장 유사한 문서를 찾아옵니다

3단계 : 검색 결과 + 질문을 AI에 전달

찾아온 문서를 컨텍스트로 붙여서 LLM에게 전달합니다. "이 자료를 참고해서 답해줘" 하고 넘기는 거죠.

4단계 : 근거 기반 답변 생성

LLM이 제공된 문서를 근거로 답변을 생성합니다. 환각 현상이 줄고, 최신 정보도 반영됩니다.

실제 구현 도구

LangChain  - RAG 파이프라인 오케스트레이션
LlamaIndex - 문서 인덱싱 및 검색 특화
Pinecone - 관리형 벡터 데이터베이스
Chroma - 오픈소스 로컬 벡터 DB

 

실무에서는 LangChain + FastAPI + 벡터DB 조합이 백엔드 AI 서비스 구축의 표준 스택으로 자리 잡았습니다.

어디에 쓰이나?

고객센터
챗봇
사내 지식
검색 시스템
법률·의료
상담 AI

 

Retrieval — 검색하고,
Augmented — 보강해서,
Generation — 생성한다
 
 

질문 → 유사 문서 검색 → 컨텍스트로 AI에게 전달 → 근거 있는 답변

 
  • RAG 정의 — Retrieval + Augmented + Generation 풀어서 설명
  • AI의 두 가지 약점 — 지식 컷오프 & 환각 현상 카드로 시각화
  • 작동 원리 4단계 — 벡터 변환 → 검색 → 전달 → 생성 흐름도
  • 실제 구현 도구 — LangChain, LlamaIndex, Pinecone, Chroma
  • 활용 사례 — 고객센터, 사내검색, 법률·의료

 

1단계: 데이터 인계(Ingestion) 

  • PDF에서 데이터를 추출하여 기계가 읽을 수 있는 JSON/DTO 형태로 바꾸는 과정입니다.
  • 이 과정이 정확해야 나중에 LLM이 엉뚱한 소리를 하지 않습니다. (RAG의 품질을 결정하는 가장 중요한 기초 공사입니다.)

2단계: 검색 및 생성(Retrieval & Generation)

  • 추출한 ParsedProblem 데이터들을 Vector DB 등에 저장합니다.
  • 사용자가 "작년 수학 1번 문제랑 비슷한 유형 찾아줘"라고 물으면, 저장된 데이터에서 검색(Retrieval)해옵니다.
  • 그 정보를 바탕으로 LLM이 답변을 생성(Generation)합니다.