RAG, 1분 만에 제대로 이해하기

recording or reCoding 2026. 4. 26. 11:41

RAG란 무엇인가?

RAG = Retrieval 검색 + Augmented 증강 + Generation 생성

RAG는 Retrieval-Augmented Generation의 줄임말입니다. 한국어로는 검색 증강 생성이라고 번역하지만, 실무에서는 그냥 RAG라고 부릅니다. 한마디로, AI가 답변을 생성하기 전에 관련 자료를 먼저 검색해서 그 내용을 바탕으로 답하게 만드는 기술입니다.

왜 필요한가? AI의 두 가지 약점

⏰ 지식 컷오프 (Knowledge Cutoff)

LLM은 학습된 시점 이후의 정보를 모릅니다. 어제 뉴스, 오늘 주가, 최신 문서 — 전부 모르죠.

🌀환각 현상 (Hallucination)

모르는 것을 모른다고 하지 않고 그럴듯하게 지어냅니다. 자신 있어 보이지만 틀린 답변. GPT API만 붙여서는 기업의 내부 문서나 최신 데이터를 활용할 수 없습니다. 여기서 RAG가 등장합니다.

RAG 작동 원리: 4단계

1단계 : 질문을 벡터(숫자)로 변환

사용자의 질문을 임베딩(Embedding) 모델로 처리해 고차원 숫자 벡터로 변환합니다. 의미가 비슷한 문장은 비슷한 벡터값을 가집니다.

2단계 : 벡터DB에서 유사 문서 검색

Pinecone Chroma 같은 벡터 데이터베이스에서 의미적으로 가장 유사한 문서를 찾아옵니다

3단계 : 검색 결과 + 질문을 AI에 전달

찾아온 문서를 컨텍스트로 붙여서 LLM에게 전달합니다. "이 자료를 참고해서 답해줘" 하고 넘기는 거죠.

4단계 : 근거 기반 답변 생성

LLM이 제공된 문서를 근거로 답변을 생성합니다. 환각 현상이 줄고, 최신 정보도 반영됩니다.

실제 구현 도구

LangChain - RAG 파이프라인 오케스트레이션

LlamaIndex - 문서 인덱싱 및 검색 특화

Pinecone - 관리형 벡터 데이터베이스

Chroma - 오픈소스 로컬 벡터 DB

실무에서는 LangChain + FastAPI + 벡터DB 조합이 백엔드 AI 서비스 구축의 표준 스택으로 자리 잡았습니다.

어디에 쓰이나?

고객센터
챗봇

사내 지식
검색 시스템

법률·의료
상담 AI

Retrieval — 검색하고,
Augmented — 보강해서,
Generation — 생성한다

질문 → 유사 문서 검색 → 컨텍스트로 AI에게 전달 → 근거 있는 답변

RAG 정의 — Retrieval + Augmented + Generation 풀어서 설명
AI의 두 가지 약점 — 지식 컷오프 & 환각 현상 카드로 시각화
작동 원리 4단계 — 벡터 변환 → 검색 → 전달 → 생성 흐름도
실제 구현 도구 — LangChain, LlamaIndex, Pinecone, Chroma
활용 사례 — 고객센터, 사내검색, 법률·의료

1단계: 데이터 인계(Ingestion)

PDF에서 데이터를 추출하여 기계가 읽을 수 있는 JSON/DTO 형태로 바꾸는 과정입니다.
이 과정이 정확해야 나중에 LLM이 엉뚱한 소리를 하지 않습니다. (RAG의 품질을 결정하는 가장 중요한 기초 공사입니다.)

2단계: 검색 및 생성(Retrieval & Generation)

추출한 ParsedProblem 데이터들을 Vector DB 등에 저장합니다.
사용자가 "작년 수학 1번 문제랑 비슷한 유형 찾아줘"라고 물으면, 저장된 데이터에서 검색(Retrieval)해옵니다.
그 정보를 바탕으로 LLM이 답변을 생성(Generation)합니다.

'AI' 카테고리의 다른 글

Claude code api 요약 -anthropic-beta (0)	2026.05.04
프롬프트 엔지니어링 (0)	2026.05.04
BFS 풀어보고 claude code 한테 피드백 받기 (0)	2026.04.14
Claude Code 실행기 - ignore, skills 만들기 예시 (0)	2026.04.13
IntelliJ에 Claude Code 연동 및 활용 가이드 - comand vs skills (4)	2026.04.12

현재글RAG, 1분 만에 제대로 이해하기

코딩하는 기록러