라온피플

표준적인 검색 증강 생성(RAG) 시스템은 일반 텍스트 문서에서는 매우 효과적으로 작동합니다. 하지만 금융 보고서의 복잡한 표, 연구 논문의 차트, 또는 CAD 도면과 같은 비정형 데이터가 포함된 문서를 처리할 때는 상당한 어려움을 겪습니다. 이러한 시스템은 종종 데이터의 핵심적인 구조와 맥락을 놓치기 때문입니다.

이 글에서는 비정형 데이터 처리의 두 가지 핵심 과제를 심층적으로 다루고자 합니다. 첫째, 여러 행과 열에 걸쳐있는 복잡한 표에서 정확한 정보를 추출하는 기술, 둘째, CAD 도면과 청사진에 담긴 기하학적, 의미론적 정보를 올바르게 해석하는 기술입니다.

이러한 고질적인 문제들을 해결하기 위해 등장한 최신 기술 동향을 분석하고, 각 접근법의 작동 원리와 장단점을 알아보겠습니다.

1부: 복잡한 표(Table) 처리를 위한 RAG 기술의 진화

기존 RAG의 한계: 표 데이터가 손상되는 이유

전통적인 RAG 파이프라인이 왜 복잡한 표 처리에 실패하는지 이해하는 것이 중요합니다.
문제는 주로 두 가지 핵심적인 병목 현상에서 발생합니다.

구조 파괴: 단순 텍스트 분할기는 표의 구조적 무결성을 고려하지 않습니다. 그 결과, 표를 무의미한 조각으로 잘라내어 행과 열의 관계를 끊어버리고, 데이터의 본질적인 의미를 파괴합니다.
노이즈가 많은 임베딩(Noisy Embedding): 크고 복잡한 표의 원시 텍스트를 그대로 임베딩하면, 벡터에 너무 많은 정보가 뒤섞여 의미 검색에 비효율적인 “노이즈가 많은” 벡터가 생성됩니다. 이는 관련성 높은 정보를 정확히 찾아내는 의미 검색의 정확도를 심각하게 저하시킵니다.

접근법 1: 멀티-벡터 리트리버를 활용한 분리 전략

일반적인 RAG는 텍스트 덩어리(Chunk)를 임베딩해서 벡터 DB에 넣고, 검색되면 그 덩어리 자체를 LLM에게 줍니다. 하지만 “복잡한 표”나 “이미지”는 이 방식이 잘 통하지 않습니다. 표 내부의 숫자를 그대로 벡터화하면 의미가 희석되기 때문입니다.

멀티-벡터 리트리버는 이 고리를 끊습니다.

저장소 1 (Vector Store): 데이터의 ‘요약본(Summary)’만 벡터로 만들어 저장합니다. (검색용)
요약본 예: “이 표는 2025년 4분기 삼성전자의 부문별 매출액을 보여주며, 반도체 부문이 30% 성장했음을 나타낸다.”
저장소 2 (Doc Store): 데이터의 ‘원본(Raw Content)’을 그대로 저장합니다. (생성용)

이 접근법의 핵심은 데이터의 ‘검색용 표현’과 ‘생성용 표현’을 전략적으로 분리하는 것입니다. Unstructured 라이브러리와 ‘멀티-벡터 리트리버(Multi-Vector Retriever)’를 활용하여 이 문제를 해결할 수 있습니다. 결과적으로 멀티-벡터 리트리버는 “표는 요약으로 검색하고, 답변은 원본으로 한다”는 전략을 구현하는 기술적 모듈입니다.

프로세스 단계별 기술

1단계 (지능형 파싱)
Unstructured 라이브러리의 partition_pdf와 같은 도구를 이용하여 문서의 시각적 레이아웃을 분석합니다. 이를 통해 일반 텍스트와 표를 지능적으로 식별하고, ‘제목’이나 ‘소제목’을 기준으로 텍스트를 분할하여 문서의 논리적 구조를 보존합니다. 표는 표 그대로, 텍스트는 텍스트 덩어리로 깔끔하게 추출됩니다.
2단계 (요약 및 원본 저장)
검색 단계에서는 표와 텍스트 덩어리의 간결한 요약본을 생성하여 임베딩합니다. 이 요약본은 검색 효율성을 극대화합니다. 사용자의 질문과 가장 관련 있는 요약본이 검색되면, 답변 생성 단계에서는 LLM에게 요약본이 아닌 완전한 원본 표 또는 텍스트를 전달합니다. 이로써 LLM은 답변 생성에 필요한 모든 컨텍스트를 확보하게 됩니다.

기대 효과

이 접근법은 검색 효율성과 답변의 정확도를 동시에 높입니다. 요약본을 임베딩함으로써 “노이즈가 많은 임베딩” 문제를 해결하고, 생성 단계에서는 원본 데이터를 제공하여 LLM이 정확하고 상세한 답변을 만들 수 있도록 지원합니다. 이 접근법은 테이블의 크기가 매우 크고 내용이 복잡하여 전체를 임베딩할 경우 심각한 노이즈가 발생하는 금융 보고서나 과학 연구 데이터 처리에 특히 효과적입니다.

접근법 2: 컨텍스트 강화 및 표준화를 통한 정밀도 향상

두 번째 접근법은 데이터를 임베딩하기 전에 LLM을 활용하여 표 데이터 자체를 보강하고 표준화하는 데 초점을 맞춥니다. 핵심은 표의 가독성과 정보량을 극대화하여 LLM이 더 쉽게 이해할 수 있도록 만드는 것입니다.

프로세스 단계별 기술

1단계 (컨텍스트 강화):
LLM이 추출된 표뿐만 아니라 문서 전체의 주변 텍스트까지 분석합니다. 이를 바탕으로 해당 표가 어떤 맥락에서 사용되었는지 설명하는 풍부하고 상세한 ‘문맥적 설명’을 생성합니다.

2단계 (형식 표준화):
LLM이 추출된 표를 일관된 ‘마크다운(Markdown) 형식’으로 변환합니다. 마크다운은 구조가 명확하여 LLM의 이해도를 높이고, 이는 임베딩 효율성 향상으로 이어집니다.

3단계 (통합 임베딩):
위에서 생성된 ‘문맥적 설명’과 ‘마크다운 형식의 표’를 결합하여 하나의 정보 밀도가 높은 ‘테이블 청크(table chunk)’를 만듭니다. 이 청크가 최종적으로 임베딩되어 벡터 데이터베이스에 저장됩니다.

기대 효과

이 접근법은 원본 표에 존재할 수 있는 모호함을 줄여줍니다. 풍부한 문맥과 표준화된 형식을 통해, 검색 및 생성 단계에서 LLM이 표의 내용을 훨씬 더 정확하게 이해하고 활용하도록 돕습니다. 이 접근법은 표 자체만으로는 의미가 모호하여 문서의 다른 부분에 흩어져 있는 컨텍스트 정보가 필수적인 법률 계약서나 규제 관련 문서 처리에 특히 유용합니다.

표 처리 기술 요약 및 비교

2부: CAD 도면 처리 기술

픽셀을 넘어 벡터로: CAD 데이터의 본질

건축이나 기계 설계에 사용되는 복잡한 기술 도면은 수많은 선과 기호가 겹쳐 있습니다. 기존의 픽셀 기반 이미지 분석 방식(예: CNN)은 이러한 미세한 구조적 정보를 해석하는 데 명확한 한계를 가집니다.

이 문제를 해결하기 위해서는 패러다임의 전환이 필요합니다. 도면을 픽셀의 집합이 아닌, 기하학적 정보를 담고 있는 ‘벡터 데이터’ 자체로 다루어야 합니다.

접근법 1: 그래프 신경망(GNN)을 이용한 구조적 분석

RAG 시스템을 구축할 때 가장 골치 아픈 데이터가 바로 ‘건설/제조업의 도면 데이터’입니다. 기존 AI(CNN 방식)를 사용하면 도면을 이미지(그림)으로 인식했기 때문에 거기서 도면이 나타내고자 하는 정보를 끄집어 내기가 매우 어려웠습니다.

VectorGraphNet은 도면을 ‘그림’이 아닌 ‘선들의 연결 관계(그래프)’로 해석하여, 복잡한 설계도에서도 벽, 문, 창문 등을 아주 정확하게 찾아내는 AI 기술입니다. 이 접근법은 CAD 도면을 벡터 요소들 간의 관계를 나타내는 ‘그래프(Graph)’로 변환하고, 이를 그래프 신경망(GNN)으로 분석하여 구조적 의미를 파악합니다. 그래서 우리는 다음과 같은 것을 얻을 수 있게 됩니다.

정확도: 이미지를 눈으로 보는 것보다, 설계 데이터를 직접 뜯어보기 때문에 훨씬 정확하게 객체(벽, 창문, 배관 등)를 식별합니다.
가벼움: 거대한 이미지를 처리하는 것보다, 선들의 좌표 데이터만 처리하므로 연산량이 훨씬 적습니다.
응용: 도면 PDF를 넣으면 자동으로 3D 모델로 변환하거나, 특정 부품의 개수를 세는 작업에 활용될 수 있습니다.

프로세스 단계별 기술

1단계 (PDF에서 SVG로 변환):
먼저 도면의 벡터 데이터에 직접 접근하기 위해 PDF를 개방형 표준인 SVG(Scalable Vector Graphics) 형식으로 변환합니다. 이 과정에서 선, 사각형, 원 등 모든 개별 도형을 일관된 처리를 위해 기본적인 명령으로 표준화하는 것이 핵심입니다.

2단계 (그래프 구성): 도면을 그래프로 표현합니다.

노드(Nodes): 각각의 SVG (선, 곡선 등)가 그래프의 노드가 됩니다. 각 노드는 길이, 곡률 같은 기하학적 정보와 색상, 두께 같은 스타일 정보를 특징(feature)으로 가집니다.

엣지(Edges): 벡터 객체(노드) 간의 공간적 관계(예: 근접성)를 K-최근접 이웃(KNN) 알고리즘으로 계산하여 엣지로 연결합니다. 엣지는 두 객체 간의 각도, 교차점 수, 포함 관계 등의 정보를 특징으로 가집니다.

3단계 (GNN을 통한 의미 분할):
구성된 그래프를 ‘그래프 어텐션 네트워크(Graph Attention Network)’와 같은 GNN으로 분석합니다. GNN은 각 노드(선)의 기능적 역할을 예측하는 ‘의미 분할(semantic segmentation)’ (즉, 각 선에 ‘벽’, ‘문’, ‘치수선’과 같은 기능적 역할을 부여하는 작업)을 수행하여 도면의 내용을 구조적으로 이해합니다.

이 기법은 각 요소 간의 기하학적 관계가 매우 중요하며, 선 하나하나의 의미가 전체 구조를 결정하는 건축 설계 도면이나 복잡한 기계 부품도 분석에 최적화되어 있습니다.

접근법 2: 비전-언어 모델(VLM)을 이용한 시각적 이해

CAD 도면은 텍스트(치수, 주석)와 이미지(형상)가 복잡하게 섞여 있어 기존 OCR로는 처리가 거의 불가능한데, ColPali와 같은 VLM 기술을 사용하면 이 문제를 시각적으로 접근하여 해결합니다.

‘ColPali’ 사례를 중심으로 한 이 접근법은 “보는 것이 곧 검색하는 것(What you see is what you search)”이라는 개념에 기반합니다. 도면 페이지를 텍스트나 벡터의 집합이 아닌, 하나의 ‘이미지’로 취급하여 비전-언어 모델(VLM)로 직접 이해합니다. 그렇기 때문에 CAD 도면의 검색과 문맥 파악에 매우 강력하지만, 아주 정밀한 구조 분석에는 한계가 있어, 아직도 많은 연구가 진행이 되고 있는 상황입니다.

프로세스 단계별 기술

1단계 (이미지로 변환)
PDF 페이지를 PNG와 같은 이미지 형식으로 변환합니다.

2단계 (VLM으로 임베딩)
PaliGemma와 같은 VLM이 페이지 이미지를 입력받습니다. VLM은 텍스트 정보뿐만 아니라 레이아웃, 도형,표 등 시각적 요소를 모두 포함하는 컨텍스트화된 임베딩 그리드(패치)를 생성합니다.

3단계 (Late Interaction 검색)
‘Late Interaction'(또는 MaxSim)이라는 메커니즘을 통해 사용자 쿼리의 각 토큰을 문서의 모든 이미지 패치와 개별적으로 비교한 후, 가장 높은 유사도 점수들을 합산하여 최종 관련성을 계산하는 방식으로 가장 관련성 높은 페이지를 효율적으로 검색합니다.

기대 효과 및 장점

이 접근법은 복잡한 벡터 추출이나 그래프 구성 과정이 필요 없어 파이프라인을 획기적으로 단순화합니다. 특히 텍스트 뿐만 아니라 다이어그램, 도식, 복잡한 레이아웃이 중요한 문서 처리에 강력한 성능을 보입니다. 이 방법은 다양한 포맷의 문서(예: 송장, 기술 매뉴얼, 프리젠테이션 슬라이드)를 대규모로 처리해야 하고, 벡터 추출 및 그래프 구성의 복잡성을 피하면서 신속하게 파이프라인을 구축하는 것이 우선 순위일 때 가장 강력한 성능을 발휘합니다.

CAD 처리 기술 요약 및 비교

통합적 접근의 미래

지금까지 우리는 비정형 데이터 처리의 두 가지 주요 난제인 표와 CAD 도면을 해결하기 위한 최신 기술들을 살펴보았습니다.

표 처리 기술은 ‘검색과 생성 컨텍스트의 분리’를 통해 효율성과 정확성을 동시에 잡는 접근법과, ‘사전 데이터 강화’를 통해 LLM의 이해도를 근본적으로 높이는 접근법으로 나뉩니다.
CAD 도면 처리 기술은 GNN을 통해 ‘심층적인 구조적 분석’을 수행하는 접근법과, VLM을 통해 ‘단순화된 시각적 이해’를 추구하는 접근법 사이의 선택으로 귀결됩니다.

미래의 시스템은 단순히 기술을 나열하는 것을 넘어, GNN의 정밀한 구조 분석 능력과 VLM의 파이프라인 단순성 및 시각적 이해 능력 사이의 트레이드 오프를 동적으로 저울질 할 것입니다. 예를 들어, 부품 간의 정확한 연결 관계가 법적 효력을 갖는 항공기 설계 도면에서는 GNN 기반 분석이 필수적이지만, 빠른 시각적 참조가 중요한 마케팅 자료 내 다이어그램은 VLM으로 처리하는 것이 더 효율적일 수 있습니다. 이처럼 문서의 ‘목적’과 ‘내용’에 따라 최적의 기술을 지능적으로 선택하고 결합하는 능력이 차세대 문서 이해 시스템의 핵심 경쟁력이 될 것입니다.