[기술 리포트] 단순 검색을 넘어 추론으로: ‘GraphRAG’가 가져올 데이터 아키텍처의 변화

LLM(대규모 언어 모델)을 실무에 도입할 때 가장 먼저 마주하는 기술은 단연 RAG(Retrieval-Augmented Generation)입니다. 하지만 단순히 문서를 잘라서 벡터 DB에 넣고 유사한 것을 찾는 방식(Vector RAG)만으로는 해결되지 않는 복잡한 질문들이 존재합니다.

오늘은 이러한 한계를 극복하기 위해 최근 급부상 중인 GraphRAG의 개념과 왜 이것이 차세대 AI 아키텍처의 핵심인지 살펴보겠습니다.

다른 기사도 한번 읽어보세요.


1. Vector RAG의 한계: “나무만 보고 숲을 보지 못하다”

기존의 벡터 검색 방식은 문장 간의 ‘유사성’에 의존합니다. 하지만 다음과 같은 상황에서는 한계를 드러냅니다.

  • 전체 맥락 파악 미흡: “이 문서 전체에서 가장 중요한 핵심 주제 3가지는 무엇인가?”와 같은 요약형 질문.
  • 복합적 관계 추론: “A 소프트웨어와 B 하드웨어 사이의 호환성 이슈와 그 해결책은?”처럼 여러 문서에 흩어진 관계를 연결해야 하는 질문.

벡터 검색은 특정 단어와 유사한 ‘조각’은 잘 찾아내지만, 데이터 간의 고차원적인 ‘연결 고리’를 읽어내지 못하기 때문입니다.

GraphRAG라는 용어와 프레임워크를 대중화한 주인공은 마이크로소프트 리서치(Microsoft Research)입니다.

  • 발표 시점: 2024년 2월 13일 첫 개념이 블로그를 통해 공개되었고, 2024년 7월 2일 관련 소스 코드가 GitHub에 오픈 소스로 정식 릴리스되었습니다.
  • 핵심 인물: Darren Edge, Jonathan Larson 등 MS 리서치의 데이터 사이언티스트 및 아키텍트 그룹이 주도했습니다.
  • 배경: 기존 벡터 검색 기반 RAG(Vector RAG)가 문서 전체의 주제를 파악하거나, 서로 떨어진 정보 간의 복합적인 관계를 추론하는 데 한계가 있다는 점을 해결하기 위해 고안되었습니다.

2. GraphRAG의 핵심 개념: “지식의 망을 구축하다”

GraphRAG는 텍스트 데이터를 벡터화하기 전에, LLM을 활용해 데이터 속에 숨겨진 엔티티(Entity)와 관계(Relationship)를 추출하여 지식 그래프(Knowledge Graph)를 먼저 구축하는 방식입니다.

  • Vector RAG: 질문 -> 유사 문서 조각 검색 -> 답변 생성
  • GraphRAG: 질문 -> 지식 그래프 내 관련 노드 및 커뮤니티 탐색 -> 전역적 맥락 파악 -> 답변 생성

이 방식은 마이크로소프트(Microsoft)가 오픈 소스로 공개하며 대중화되었으며, 특히 대규모 문서군에서 ‘전체적인 통찰’을 이끌어내는 데 압도적인 성능을 보여줍니다.

GraphRAG는 단순히 텍스트를 숫자로 바꾸는(Embedding) 단계를 넘어, 데이터를 ‘지능적인 네트워크’로 재구성합니다.

  1. 엔티티 추출 (Indexing): LLM이 문서를 읽고 사람, 장소, 기술, 개념 등 핵심 ‘개체(Entity)’와 그들 사이의 ‘관계(Relationship)’를 추출합니다.
  2. 커뮤니티 탐색: 추출된 노드들을 군집화하여 ‘커뮤니티’를 형성합니다. (예: 삼성전자 – 반도체 – HBM – AI 서버 등의 관계망 형성)
  3. 커뮤니티 리포트 생성: 각 군집별로 요약 보고서를 미리 작성해 둡니다.
  4. 전역적 검색 (Global Search): 질문이 들어오면 특정 문서 조각만 찾는 게 아니라, 미리 만들어둔 ‘커뮤니티 리포트’들을 훑어 전체적인 맥락에서 답변을 생성합니다.

3. 기술적 차이점 비교

3-1. 일반 RAG (Vector RAG): “유사성” 기반 검색

일반적인 RAG는 텍스트를 숫자의 나열인 벡터(Embedding)로 변환하여 저장합니다. 질문이 들어오면 질문과 가장 ‘수학적으로 유사한’ 거리에 있는 데이터 조각(Chunk)을 찾아 모델에 전달합니다.

  • 작동 원리: 질문 벡터와 DB 내 벡터들 간의 코사인 유사도(Cosine Similarity) 계산.
  • 강점: 구현이 빠르고 쉽습니다. 특정 사실(Fact)을 확인하는 단발성 질문(Single-hop)에 매우 유리합니다.
  • 한계: “이 보고서 전체의 핵심 주제가 뭐야?”와 같이 데이터 전체를 관통하는 질문이나, 서로 멀리 떨어진 정보들을 연결해서 추론해야 하는 질문에는 약합니다.

3-2. GraphRAG: “관계와 구조” 기반 검색

마이크로소프트 리서치(Microsoft Research)가 발표한 GraphRAG는 텍스트를 벡터로 만들기 전에, LLM을 이용해 데이터 속의 엔티티(Entity, 개체)와 이들 사이의 관계(Relationship)를 추출하여 지식 그래프(Knowledge Graph)를 먼저 구축합니다.

  • 작동 원리: 데이터를 노드(Node)와 엣지(Edge)로 구성된 그물망으로 만듭니다. 질문이 들어오면 그래프를 탐색하며 관련된 노드들을 추적합니다.
  • 강점: 여러 문서에 흩어진 정보를 연결하는 다단계 추론(Multi-hop Reasoning)에 강력합니다. 또한 데이터 전체를 요약하는 ‘전역적 검색(Global Search)’이 가능합니다.
  • 한계: 그래프를 구축(Indexing)할 때 LLM을 많이 사용하므로 비용과 시간이 훨씬 많이 듭니다.
구분일반 RAG (Vector 기반)GraphRAG (그래프 기반)
데이터 형태비정형 텍스트 청크(Chunks)엔티티와 관계(Nodes & Edges)
검색 논리시맨틱 유사성 (비슷한 문장 찾기)관계 기반 탐색 (연결된 정보 찾기)
복잡도$O(1)$ ~ $O(\log n)$ (매우 빠름)그래프 탐색 깊이에 따라 가변적
설명 가능성낮음 (왜 이 문장이 뽑혔는지 모름)높음 (어떤 관계를 타고 왔는지 확인 가능)
주요 용도FAQ, 단순 문서 검색, 사실 확인복잡한 분석, 요약, 관계 추론, 엔터프라이즈 지식 관리

4. 소프트웨어 아키텍트의 관점: 왜 GraphRAG인가?

데이터베이스 설계와 시스템 아키텍처를 다루는 입장에서 GraphRAG는 다음과 같은 실무적 이점을 제공합니다.

  1. 데이터의 구조화: 비정형 데이터를 정형화된 그래프 구조로 변환함으로써, 데이터 거버넌스 측면에서 훨씬 명확한 관리가 가능해집니다.
  2. 로컬 인프라의 확장성: DB 역량을 갖추고 있다면, 그래프 데이터를 효율적으로 저장하고 쿼리하는 시스템을 로컬 서버에 직접 최적화하여 구축할 수 있습니다.
  3. 환각(Hallucination) 감소: LLM이 단순히 유사한 문장을 읊는 것이 아니라, 정의된 ‘관계’를 바탕으로 답변을 구성하기 때문에 근거가 훨씬 명확해집니다.

일반 RAG는 검색 범위가 특정 ‘조각’에 한정되지만, GraphRAG는 커뮤니티 탐지(Community Detection) 기술을 사용합니다. 방대한 데이터를 작은 군집(Community)으로 나누고 각 군집에 대한 요약 보고서를 미리 작성해 둡니다. 덕분에 “우리 회사의 지난 3년간 프로젝트 트렌드를 분석해줘” 같은 거시적인 질문에도 답변할 수 있게 된 것입니다.

추천 오픈소스 도구

  • Microsoft GraphRAG: 가장 정교한 구현체이나 토큰 비용이 높음.
  • LlamaIndex: 기존 벡터 DB와 그래프를 결합한 하이브리드 RAG 구현에 최적화.
  • LightRAG: 자원 효율성을 높여 로컬 환경에서도 구동 가능하도록 설계된 최신 도구.
프로그램명주요 특징장점단점
Microsoft GraphRAG공식 표준 구현체 (Python)가장 정교한 커뮤니티 리포트 생성, 연구 기반의 높은 신뢰도인덱싱 비용(Token)이 매우 높음, 처리 속도가 느림
LlamaIndex데이터 인덱싱 전문 프레임워크PropertyGraphIndex 등 구현이 매우 쉬움, 방대한 데이터 커넥터에이전트 오케스트레이션 기능은 상대적으로 약함
LangChain범용 AI 에이전트 프레임워크Neo4j, FalkorDB 등 다양한 그래프 DB와 연동성 극강RAG 전용 기능보다는 범용 도구라 설정이 복잡할 수 있음
RAGFlow시각화 기반 엔드 투 엔드 솔루션GUI 제공으로 관리 편의성 높음, 복잡한 문서(PDF) 처리 강점커스터마이징 자유도가 코드 기반 라이브러리보다 낮음
LightRAG성능 최적화 신규 프레임워크MS 방식보다 빠르고 저렴함, 듀얼 레벨(세부+전체) 검색 지원비교적 최근에 등장하여 커뮤니티 레퍼런스가 적음

5. 마치며: 하이브리드 아키텍처의 시대

결국 정답은 하나가 아닙니다. 단순한 팩트 체크는 Vector RAG로, 복잡한 비즈니스 로직이나 관계 분석은 GraphRAG로 처리하는 하이브리드 시스템이 아키텍처의 표준이 될 것입니다.

지금 로컬 LLM 환경을 구축 중이시라면, 단순히 벡터 DB를 연결하는 것을 넘어 여러분의 데이터를 ‘지식의 망’으로 연결하는 GraphRAG 도입을 고민해 보시기 바랍니다.


[참고 자료]

  • Microsoft Research: “Project GraphRAG – Unlocking global insights”
  • LangChain Blog: “Integrating Graph Databases with LLM workflows”

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다