잠든 데이터를 깨우는 GraphRAG

Tech 19분 읽기
댓글 0
조회 41

챗GPT나 클로드 같은 생성형 AI를 업무나 일상에서 활용하다 보면 가끔 한계에 부딪힐 때가 있습니다. AI가 학습하지 못한 최신 정보를 물었을 때 엉뚱한 대답을 내놓는 ‘환각(Hallucination)’ 현상이 나타나거나, 우리 회사 내부의 복잡한 문서를 제대로 이해하지 못해 겉도는 답변만 반복하곤 하죠.

이러한 문제를 해결하기 위해 등장한 기술이 바로 RAG(Retrieval-Augmented Generation, 검색 증강 생성)입니다. AI에게 무작정 대답하라고 하는 대신, 관련 있는 문서를 먼저 찾아 읽어본 뒤 그 내용을 바탕으로 답변하게 만드는 방식이죠. 마치 시험을 볼 때 기억력에만 의존하지 않고, 옆에 ‘참고 서적’을 두고 정답을 찾아 쓰는 것과 같습니다.

하지만 데이터의 양이 방대해지고 정보 간의 연결 고리가 복잡해지면서 기존 RAG 방식도 한계를 드러내기 시작했습니다. 단순한 키워드나 문장 유사도만으로는 여러 문서에 흩어져 있는 ‘맥락의 흐름’이나 ‘복잡한 관계’를 한눈에 파악하기 어렵기 때문입니다.

예를 들어, “A 사건이 B 기업의 공급망에 미친 영향”을 물었을 때, 기존 RAG가 파편화된 문서 조각들을 가져온다면, GraphRAG(그래프 RAG)는 데이터 간의 관계를 거미줄처럼 연결해 전체적인 ‘지식의 지도’를 그려내 답변합니다.

이번 글에서는 단순 검색을 넘어 데이터 속 숨겨진 관계를 추론해내는 GraphRAG의 핵심 원리와, 이것이 왜 AI의 이해도를 한 단계 더 끌어올리는 혁신적인 방법론인지 자세히 풀어서 살펴보겠습니다.


왜 지금 ‘그래프(Graph)’인가?

기존의 RAG는 데이터를 의미 있는 ‘조각(Chunk)’으로 나누어 보관합니다. 예를 들어, 1,000페이지짜리 방대한 소설이 있다면 이를 300자씩 뚝뚝 끊어서 저장하는 식이죠. 사용자가 질문을 던지면 AI는 그 질문과 가장 유사한 단어가 포함된 조각 몇 개를 서점 매대에서 책을 집어 오듯 ‘검색’해 옵니다.

여기서 결정적인 한계가 드러납니다. 만약 질문이 “이 소설 전체를 관통하는 주인공의 심리 변화는 어때?”라면 어떻게 될까요? AI는 15페이지, 465페이지, 793페이지에 파편화되어 흩어진 정보들을 한꺼번에 연결해서 읽어야 합니다. 하지만 기존 방식은 각 조각 사이의 연관성을 알지 못한 채 ‘따로따로’ 보기 때문에, 소설의 전체적인 흐름(Context)을 놓치기 일쑤입니다.

이때 구원투수로 등장한 것이 바로 그래프(Graph)입니다. 그래프는 단순히 텍스트를 자르는 데 그치지 않고, 데이터 속에 숨겨진 핵심 요소들을 점(노드)과 선(엣지)으로 추출하여 ‘유기적인 관계’를 정의합니다.

단순히 “A라는 인물이 나온다”는 정보에 그치지 않고, “A는 B라는 회사의 대표다”, “B 회사는 현재 C라는 신약을 개발 중이다”처럼 조각과 조각 사이에 숨겨진 연결 고리를 미리 파악해 거대한 ‘지식의 지도’를 그려두는 것이죠. 이렇게 정교한 지도가 있으면 AI는 서로 멀리 떨어진 정보라도 관계의 선을 따라가며 전체 맥락을 파악할 수 있습니다.

결국, GraphRAG는 단순한 ‘정보 검색’의 영역을 넘어, 흩어진 정보를 엮어 전체를 파악하는 ‘추론’의 영역으로 RAG를 확장시킨 혁신적인 기술입니다. 미로 같은 정보 속에서도 길을 잃지 않고 정확한 정답을 찾아내는 비결이 바로 여기에 있습니다.


그래프 지도를 그려내는 3가지 핵심 ‘레시피’

데이터라는 원재료에서 ‘그래프’라는 정교한 지도를 추출하는 방법은 크게 세 가지로 나뉩니다. 어떤 요리 도구를 선택하느냐에 따라 결과물의 정밀도와 비용이 달라지듯, 각 방식은 고유한 설계 철학을 가지고 있습니다.

① LLM 기반 추출 (The Brainy Way): “AI에게 직접 지도를 그리게 하다”

이제 GraphRAG를 이야기할 때 Microsoft의 방식은 빼놓을 수 없는 이정표가 되었습니다. 이 방식이 특별한 이유는 AI(LLM)를 단순히 답변을 생성하는 용도가 아니라, 데이터들 사이의 복잡한 ‘관계’를 찾아내 지도를 그리는 전문가로 활용하기 때문이죠.

특히 MS 방식만의 독특한 매력은 흩어진 정보들을 비슷한 것끼리 모아 ‘마을(커뮤니티)’ 단위로 묶어 요약해 준다는 점입니다. 덕분에 “이 마을 전체의 분위기는 어때?” 같은 포괄적인 질문, 즉 전체 데이터를 아우르는 고수준의 질문에도 막힘없이 대답할 수 있습니다. 개별 정보 조각만 보던 기존 방식과는 확연히 다른, 한 차원 높은 통찰력을 보여주는 셈입니다.

  • 작동 방식: LLM이 텍스트 전체를 꼼꼼히 읽고 스스로 판단합니다. 예를 들어 “나노 입자가 암세포 표적 기능을 수행한다”는 문장을 보고, “나노 입자(노드) — [수행한다] → 표적 기능(노드)”이라는 관계를 능동적으로 정의하고 추출합니다.

  • 장점: 매우 영리합니다. 사람이 일일이 규칙을 정해주지 않아도 문맥 속에 숨겨진 미묘한 관계나 ‘행간의 의미’까지 포착합니다. 비유적인 표현이나 복잡한 인과관계도 그래프에 담아낼 수 있다는 점이 가장 큰 매력입니다.

  • 단점: 높은 지능에는 비용이 따릅니다. 수만 페이지의 문서를 LLM에게 읽히려면 막대한 토큰 비용과 연산 시간이 소모됩니다. 마치 수백 명의 박사급 전문가에게 책 한 권씩을 맡겨 요약 노트를 만들게 하는 것과 같아, 대규모 데이터 처리 시 경제적 부담이 큽니다.

② 온톨로지 기반 추출 (The Structured Way): “엄격한 설계도에 맞춰 정보를 조립하다”

이 방식은 ‘정해진 설계도에 따라 집을 짓는’ 온톨로지 기반 추출입니다. 여기서 ‘온톨로지’란 일종의 데이터 ‘족보’나 엄격한 분류 체계를 뜻하는데요. 쉽게 말해, 정보를 아무렇게나 모으는 게 아니라 미리 약속된 표준 규격과 틀에 맞춰 조립하는 방식입니다.

  • 작동 방식: 전문가가 미리 엄격한 규칙을 세웁니다. “우리 시스템은 ‘인물’, ‘기관’, ‘기술’이라는 노드만 허용하며, 관계는 ‘소속됨’, ‘개발함’ 등으로만 한정한다”라고 가이드라인을 못 박는 식입니다. AI는 이 설계도에 맞는 정보만 골라 담습니다.

  • 장점: 데이터의 순도가 매우 높습니다. 정해진 틀 안에서 움직이므로 오류가 적고 결과값이 정제되어 있습니다. 의료, 법률, 금융처럼 데이터의 신뢰성과 정확성이 생명인 전문 분야에서는 이 방식이 필수적입니다.
  • 단점: 융통성이 부족합니다. 설계도에 없는 새로운 개념이나 돌발적인 정보가 나타나면 시스템은 이를 인식하지 못하고 누락시킵니다. 세상을 ‘흑과 백’으로만 구분해둔 지도에 ‘회색’이 나타나면 표시할 방법이 없는 것과 같습니다.

③ NLP 도구 기반 추출 (The Fast Way): “기계적인 분석으로 고속 도로를 뚫다”

마지막은 ‘광속의 자동 분류 시스템’이라 불리는 NLP 도구 기반 추출입니다. 앞선 방식들이 깊은 고민(LLM)이나 정교한 설계도(온톨로지)에 집중했다면, 이 방식의 핵심은 무엇보다 압도적인 처리 속도와 효율성에 있습니다. 전통적인 자연어 처리(NLP) 기술을 활용해 문장의 문법 구조를 기계적으로 분석하는 것이 특징인데요. 마치 컨베이어 벨트 위로 쏟아지는 수만 개의 부품을 로봇 팔이 주어, 동사, 목적어라는 정해진 공식에 맞춰 순식간에 분류해내는 것과 비슷합니다.

이 방식은 LLM 방식처럼 비싼 연산 비용이 들지 않아 산더미처럼 쌓인 대규모 문서를 아주 저렴하고 빠르게 그래프로 변환해야 할 때 최고의 가성비를 보여줍니다. 물론 문맥이 복잡하거나 대명사(그, 이것 등)가 섞여 있으면 관계를 조금 단순하게 파악한다는 한계는 있지만, 데이터의 전체적인 윤곽을 순식간에 파악하고 싶을 때 이보다 든든한 조력자는 없을 것입니다.

  • 작동 방식: 문장의 문법 구조를 분석하는 알고리즘을 사용합니다. “A가 B를 했다”는 문장에서 주어, 동사, 목적어를 기계적으로 찾아내어 [주체] – (행위) -> [대상] 식의 삼항 체계(Triple)를 즉각적으로 생성합니다.

  • 장점: 압도적인 속도와 효율성입니다. LLM처럼 심오한 고민을 하지 않기 때문에 산더미 같은 데이터를 순식간에 그래프로 변환할 수 있으며 비용도 거의 들지 않습니다. 대용량 실시간 데이터 처리에 최적화되어 있습니다.

  • 단점: 분석의 깊이가 얕습니다. 문장이 조금만 복잡해지거나 “그것”, “이것” 같은 대명사가 자주 등장하면 맥락을 잃고 관계가 꼬이기 쉽습니다. 전체적인 지형은 빠르게 그려내지만, 그 안에 담긴 깊은 통찰력까지 기대하기는 어렵습니다.

한눈에 비교하는 그래프 추출 방법론 >>


우리에게 맞는 ‘지도’는 무엇일까? 

“그렇다면 내 회사에 딱 맞는 GraphRAG를 구축하기 위해 어떤 방식을 골라야 할까요? 정답은 가진 데이터의 성격에 있습니다.

만약 처리해야 할 데이터가 ‘최신 기술 논문이나 복잡한 비즈니스 전략’처럼 맥락이 중요하다면 LLM 기반 방식을 추천합니다. 초기 비용은 다소 발생하더라도 그만큼 정교한 통찰을 얻을 수 있기 때문입니다. 반면, ‘의료 기록이나 제조 공정 매뉴얼’처럼 형식이 엄격하고 단 한 글자의 오차도 허용되지 않는다면 온톨로지 방식이 해답이 됩니다. 단순히 ‘방대한 뉴스 아카이브’를 빠르게 훑으며 트렌드를 파악하고 싶다면 NLP 기반 방식이 가장 경제적이고 효율적인 선택이 될 것입니다.

이러한 선택은 단순한 기술적 결정을 넘어, AI가 세상을 바라보는 방식을 결정하는 과정이기도 합니다. 과거의 AI가 단순히 ‘단어의 통계적 확률’로 말을 했다면, 이제 GraphRAG 시대의 AI는 데이터 사이의 ‘인과관계’를 이해하며 대화하기 시작했기 때문입니다. 데이터를 무의미한 조각으로 방치하는 것이 아니라, 서로 어떻게 연결되어 있는지 그 맥락을 파악하는 순간 AI의 지능은 비로소 한 단계 도약하게 됩니다.

결국 핵심은 “어떻게 하면 더 정확하고 의미 있는 연결 고리를 만들 것인가”에 달려 있습니다. 앞서 살펴본 세 가지 방식은 서로 경쟁 관계가 아닙니다. 최근에는 LLM의 유연함과 온톨로지의 정확성을 결합한 하이브리드 방식도 활발히 연구되고 있죠.

여러분의 데이터는 지금 어떤 상태로 잠들어 있나요? 그저 서버 어딘가에 쌓여 있는 차가운 텍스트 조각인가요, 아니면 서로 유기적으로 연결되어 숨 쉬는 ‘지식 그래프’인가요? AI가 여러분의 비즈니스를 완벽히 이해하게 만드는 여정, 그 위대한 시작은 바로 이 ‘그래프 만들기’에 있습니다.”


지도를 따라 정답을 찾는 과정: ‘Graph Retrieval’의 3단계

앞서 우리는 데이터라는 원재료에서 어떻게 ‘지식의 지도(Graph)’를 그려내는지 그 레시피를 살펴보았습니다. 하지만 정교한 지도를 그려두는 것만으로는 충분하지 않습니다. 보물지도 자체가 보물은 아니듯, 이 지도를 보고 실제로 정답이 숨겨진 곳을 찾아가는 과정, 즉 ‘그래프 검색(Graph Retrieval)’이 수행되어야 비로소 AI의 답변이 완성됩니다.

기존 RAG가 단순히 서점 매대에서 비슷한 책을 집어 오는 수준이었다면, GraphRAG의 검색은 유능한 탐정이 단서를 따라 사건의 전말을 파악하는 과정과 닮아 있습니다. 그 구체적인 과정을 이해하기 쉽게 풀어보겠습니다.

그래프 기반의 검색은 단순히 단어를 매칭하는 것이 아니라, ‘관계의 줄기’를 타는 과정이며, 다음과 같이 크게 세 단계로 작동합니다.

1단계: 단서 찾기 (Entity Linking & Initial Retrieval)

사용자가 질문을 던지면, 시스템은 먼저 질문 속에 담긴 핵심 키워드(엔티티)를 파악합니다. 예를 들어 “A 신약이 B 질환의 치료에 미치는 부작용은?”이라는 질문이 들어오면, 지식 그래프에서 ‘A 신약’과 ‘B 질환’이라는 노드를 먼저 찾아냅니다.

기존 RAG 방식은 ‘A 신약’, ‘B 질환’이 포함된 텍스트 조각을 검색 엔진처럼 찾습니다. 반면 GraphRAG는 미리 정의된 ‘노드’로 바로 접근하여, 해당 노드에 연결된 모든 정보를 한눈에 내려다볼 준비를 합니다.

2단계: 관계 추적하기 (Relational Traversal & Subgraph Extraction)

질문의 핵심 노드를 찾았다면, 이제는 그 주변에 뻗어 있는 관계망을 탐색할 차례입니다. 바로 이 지점이 그래프의 진가가 발휘되는 순간입니다. AI는 단순히 ‘A 신약’이라는 단어에 머물지 않고, 그 노드에서 뻗어 나간 선(엣지)들을 따라가며 질문과 연관된 정보를 입체적으로 수집하기 시작합니다.

먼저, 이 과정은 ‘맥락의 확장’을 가능하게 합니다. 예를 들어 사용자가 단순히 신약의 부작용을 물었을 때, 시스템은 ‘A 신약’ — [성분] → ‘X 물질’ — [반응] → ‘Y 수용체’ — [유발] → ‘어지럼증’으로 이어지는 논리적 경로를 추적합니다. 질문에 직접적으로 ‘수용체’나 ‘X 물질’이라는 단어가 언급되지 않았더라도, 그래프의 선을 따라가며 고구마 줄기를 캐듯 숨겨진 인과관계를 줄줄이 엮어낼 수 있는 것이죠.

이렇게 수집된 정보들은 질문에 최적화된 ‘서브그래프(Subgraph) 추출’ 단계로 이어집니다. 방대한 전체 지식 지도에서 이번 질문 답변에 꼭 필요한 노드와 관계들만 통째로 들어내어 ‘작은 맞춤형 지도’를 구성하는 것입니다. 덕분에 AI는 기존 RAG처럼 파편화된 문서 조각들을 짜맞추는 고충에서 벗어나, 논리적으로 완결된 하나의 맥락을 손에 쥔 채 훨씬 깊이 있고 정확한 답변을 내놓게 됩니다.

결국 검색의 깊이가 텍스트의 표면을 넘어 지식의 구조로 들어가는 과정입니다.

3단계: 전역적 맥락 파악 (Community Summarization & Global Search)

마지막 단계는 그래프의 개별 요소들을 넘어 전체적인 흐름을 파악하는 과정입니다. 마이크로소프트의 GraphRAG가 선보인 독보적인 강점 중 하나로, 그래프 내의 수많은 노드들이 서로 밀접하게 연결되어 형성하는 ‘커뮤니티(군집)’ 단위의 정보를 활용하는 것이 핵심입니다.

우선 시스템은 단순히 개별 데이터를 찾는 데 그치지 않고, 거대한 지식의 지도 속에서 관련 있는 정보들이 모인 군집별 요약본을 참고하여 ‘전체적인 흐름’을 읽어냅니다. 예를 들어, 질문이 “이 프로젝트의 전반적인 위험 요소는 무엇인가?”처럼 매우 광범위하고 포괄적일 때 그 진가가 발휘됩니다. 수천 개의 개별 노드를 일일이 대조하는 대신, 이미 ‘위험 관리’나 ‘공정 지연’ 등의 주제로 묶인 커뮤니티의 요약 정보를 먼저 파악함으로써 질문에 대한 거시적인 답변의 뼈대를 잡는 것이죠.

최종적으로 AI는 앞선 1, 2단계에서 확보한 세밀한 단서들과 3단계의 전역적인 맥락을 결합하여 ‘종합 답변’을 생성합니다. LLM(거대언어모델)은 이렇게 준비된 풍부한 ‘관계의 증거’들을 전달받아, 마치 해당 분야를 완전히 꿰뚫고 있는 전문가처럼 깊이 있고 논리 정연한 답변을 내놓게 됩니다. 결과적으로 사용자는 단편적인 정보의 나열이 아니라, 전체 맥락이 완벽히 반영된 수준 높은 인사이트를 얻을 수 있습니다.


왜 GraphRAG가 ‘RAG의 완성’이라 불리는가?

결국 Graph Retrieval의 핵심은 ‘연결성’과 ‘구조화’에 있습니다. 이해를 돕기 위해 기존 RAG와 GraphRAG의 활용 방식을 직관적으로 비교해 보겠습니다.

기존 RAG vs GraphRAG: 활용 시나리오 비교>>


GraphRAG가 만드는 기업의 3가지 극적 변화

단순히 문서를 ‘잘 찾는’ 수준에 머물러 계신가요? GraphRAG를 도입한다는 것은 기업의 데이터가 단순한 ‘기록물’에서 스스로 사고하는 ‘유기적 지능’으로 탈바꿈함을 의미합니다. 우리 조직의 경쟁력을 뒤바꿀 3가지 결정적인 정성적 변화를 소개합니다.

📍 잠자던 데이터가 서로 말을 걸기 시작합니다 

많은 기업이 부서 간 정보가 단절된 ‘데이터 사일로’ 현상 때문에 고전합니다. 기존 방식이 서류 뭉치를 창고에 쌓아두는 것이었다면, GraphRAG는 모든 데이터 사이에 ‘신경망’을 설치하는 작업입니다. 예를 들어, 신제품 개발팀이 과거의 실패 사례를 물었을 때, AI는 단순히 보고서를 찾아주는 데 그치지 않습니다. “당시 A 부품의 결함(원인)이 B 공급사의 재무 위기(배경)와 맞물려 C 공정의 전면 중단(결과)을 가져왔다”는 거대한 인과관계의 지도를 펼쳐 보입니다. 파편화된 정보들이 모여 하나의 살아있는 ‘기업용 브레인’으로 완성되는 순간입니다.

📍 ‘검색의 시대’가 저물고 ‘추론의 시대’가 열립니다

키워드를 맞히지 못해 원하는 정보를 놓치던 답답함은 이제 과거의 일이 됩니다. GraphRAG는 질문과 데이터 사이의 ‘논리적 거리’를 계산하기 때문입니다. “우리 회사에서 특정 신기술에 가장 정통한 적임자가 누구인가?”라는 질문에, AI는 단순히 이력서의 키워드를 훑지 않습니다. 대신 그 직원이 수행한 프로젝트의 난이도, 협업 관계, 보유 특허의 연관성을 입체적으로 분석합니다. AI가 단순한 정보 배달원이 아닌, 데이터의 맥락을 꿰뚫어 보고 최적의 해답을 제안하는 ‘노련한 전략 참모’로 변신하는 것입니다.

📍 조직의 ‘숨은 지식’이 영원히 살아 숨 쉬는 자산이 됩니다

베테랑 한 명이 퇴사할 때마다 그가 가진 수십 년의 노하우와 ‘업무 맥락’이 사라지는 것은 기업의 큰 손실입니다. GraphRAG는 전문가의 머릿속에만 존재하던 비정형 지식을 그래프 구조로 박제하여 보존합니다. 덕분에 이제 막 합류한 신입 사원도 “이 까다로운 규정이 왜 도입되었나?”라는 질문 하나로, 당시의 치열했던 회의록과 법령 변화, 최종 승인권자의 의도까지 한눈에 파악할 수 있습니다. 개인의 기억력에 의존하던 조직 역량이 시스템화된 ‘전사적 지능’으로 영구히 자산화되는 과정입니다.


검색을 넘어 ‘지능형 추론’으로

GraphRAG는 단순히 성능이 조금 더 좋은 RAG가 아닙니다. 정보를 바라보는 패러다임을 ‘키워드 중심’에서 ‘관계 중심’으로 완전히 바꾼 기술입니다.

기존 RAG가 “무엇(What)”을 찾는 데 집중했다면, GraphRAG는 “어떻게(How) 연결되어 있는가”에 대답합니다. 데이터가 많아질수록, 그리고 그 데이터 사이의 관계가 복잡해질수록 GraphRAG의 진가는 더욱 빛을 발할 것입니다.

여러분의 비즈니스 도메인에서도 단순한 검색 결과에 만족하지 못하고 계셨나요? 그렇다면 이제 데이터들 사이에 ‘관계의 선’을 그어줄 GraphRAG를 도입해 보실 때입니다.

댓글