RAG란 무엇인가?
RAG = Retrieval 검색 + Augmented 증강 + Generation 생성
RAG는 Retrieval-Augmented Generation의 줄임말입니다. 한국어로는 검색 증강 생성이라고 번역하지만, 실무에서는 그냥 RAG라고 부릅니다. 한마디로, AI가 답변을 생성하기 전에 관련 자료를 먼저 검색해서 그 내용을 바탕으로 답하게 만드는 기술입니다.
왜 필요한가? AI의 두 가지 약점
⏰ 지식 컷오프 (Knowledge Cutoff)
LLM은 학습된 시점 이후의 정보를 모릅니다. 어제 뉴스, 오늘 주가, 최신 문서 — 전부 모르죠.
🌀환각 현상 (Hallucination)
모르는 것을 모른다고 하지 않고 그럴듯하게 지어냅니다. 자신 있어 보이지만 틀린 답변. GPT API만 붙여서는 기업의 내부 문서나 최신 데이터를 활용할 수 없습니다. 여기서 RAG가 등장합니다.
RAG 작동 원리: 4단계
1단계 : 질문을 벡터(숫자)로 변환
사용자의 질문을 임베딩(Embedding) 모델로 처리해 고차원 숫자 벡터로 변환합니다. 의미가 비슷한 문장은 비슷한 벡터값을 가집니다.
2단계 : 벡터DB에서 유사 문서 검색
Pinecone Chroma 같은 벡터 데이터베이스에서 의미적으로 가장 유사한 문서를 찾아옵니다
3단계 : 검색 결과 + 질문을 AI에 전달
찾아온 문서를 컨텍스트로 붙여서 LLM에게 전달합니다. "이 자료를 참고해서 답해줘" 하고 넘기는 거죠.
4단계 : 근거 기반 답변 생성
LLM이 제공된 문서를 근거로 답변을 생성합니다. 환각 현상이 줄고, 최신 정보도 반영됩니다.
실제 구현 도구
LangChain - RAG 파이프라인 오케스트레이션
LlamaIndex - 문서 인덱싱 및 검색 특화
Pinecone - 관리형 벡터 데이터베이스
Chroma - 오픈소스 로컬 벡터 DB
실무에서는 LangChain + FastAPI + 벡터DB 조합이 백엔드 AI 서비스 구축의 표준 스택으로 자리 잡았습니다.
어디에 쓰이나?
고객센터
챗봇
챗봇
사내 지식
검색 시스템
검색 시스템
법률·의료
상담 AI
상담 AI
Retrieval — 검색하고,
Augmented — 보강해서,
Generation — 생성한다
Augmented — 보강해서,
Generation — 생성한다
질문 → 유사 문서 검색 → 컨텍스트로 AI에게 전달 → 근거 있는 답변
- RAG 정의 — Retrieval + Augmented + Generation 풀어서 설명
- AI의 두 가지 약점 — 지식 컷오프 & 환각 현상 카드로 시각화
- 작동 원리 4단계 — 벡터 변환 → 검색 → 전달 → 생성 흐름도
- 실제 구현 도구 — LangChain, LlamaIndex, Pinecone, Chroma
- 활용 사례 — 고객센터, 사내검색, 법률·의료
1단계: 데이터 인계(Ingestion)
- PDF에서 데이터를 추출하여 기계가 읽을 수 있는 JSON/DTO 형태로 바꾸는 과정입니다.
- 이 과정이 정확해야 나중에 LLM이 엉뚱한 소리를 하지 않습니다. (RAG의 품질을 결정하는 가장 중요한 기초 공사입니다.)
2단계: 검색 및 생성(Retrieval & Generation)
- 추출한 ParsedProblem 데이터들을 Vector DB 등에 저장합니다.
- 사용자가 "작년 수학 1번 문제랑 비슷한 유형 찾아줘"라고 물으면, 저장된 데이터에서 검색(Retrieval)해옵니다.
- 그 정보를 바탕으로 LLM이 답변을 생성(Generation)합니다.
'AI' 카테고리의 다른 글
| Claude code api 요약 -anthropic-beta (0) | 2026.05.04 |
|---|---|
| 프롬프트 엔지니어링 (0) | 2026.05.04 |
| BFS 풀어보고 claude code 한테 피드백 받기 (0) | 2026.04.14 |
| Claude Code 실행기 - ignore, skills 만들기 예시 (0) | 2026.04.13 |
| IntelliJ에 Claude Code 연동 및 활용 가이드 - comand vs skills (4) | 2026.04.12 |