분명히 PDF 안에 있는 내용인데, 왜 검색이 안 될까요?
복잡한 표나 그래프가 가득한 PDF 보고서에서 특정 수치를 찾으려 할 때, 혹은 스캔한 계약서에서 중요한 조항을 검색할 때, 분명히 문서 안에 있는 내용임에도 불구하고 검색 결과에 나타나지 않아 답답했던 경험이 누구나 한 번쯤 있을 것입니다. 이러한 문제가 발생하는 근본적인 원인은 기존의 검색 방식이 문서를 단순한 ‘글자의 나열’로만 취급하기 때문입니다. 광학 문자 인식(OCR) 기술을 사용해 이미지에서 텍스트를 추출하는 방식은 편리하지만, 그 과정에서 표의 구조, 그래프의 형태, 레이아웃과 같은 핵심적인 시각적 문맥을 대부분 잃어버립니다.
이 문제를 해결하기 위해 ColPali(ColPali: Efficient Document Retrieval with Vision Language Models, 2025년 2월)라는 혁신적인 기술이 등장했습니다. ColPali는 문서를 텍스트로 변환하지 않고 ‘이미지 그 자체’로 이해합니다. 이 글에서는 ColPali의 독특한 작동 방식과 그로부터 우리가 발견한 5가지 놀라운 사실을 통해 문서 검색의 미래를 엿보고자 합니다.

텍스트를 읽는 대신, 페이지를 ‘봅니다’
ColPali의 가장 혁신적인 특징은 데이터 처리 과정에서 OCR 단계를 완전히 제거했다는 점입니다.
기존 방식은 ‘이미지 → OCR → 텍스트 → 검색’이라는 여러 단계를 거쳤습니다. 이 과정에서 OCR 엔진이 ‘I(영어 알파벳)’를 ‘1(숫자)’로 잘못 인식하거나 복잡한 레이아웃의 순서를 뒤섞는 등 정보 손실과 오류가 발생할 위험이 항상 존재했습니다. 아무리 뛰어난 검색 모델이라도, 입력되는 텍스트가 잘못되었다면 정확한 결과를 낼 수 없습니다.
반면 ColPali는 문서 페이지를 수많은 작은 이미지 조각(패치)으로 나눈 뒤, 각 조각의 시각적 특징을 직접 이해합니다. 텍스트의 폰트 크기, 그래프의 모양, 표의 열과 행 배치 같은 시각적 문맥까지 그대로 보존하는 것입니다. 이는 단순히 글자를 넘어, 굵고 큰 글씨는 ‘제목’으로, 페이지 하단의 작은 글씨는 ‘각주’로, 특정 색상으로 강조된 부분은 ‘중요 데이터’로 인식하는, 인간과 유사한 수준의 시각적 이해를 의미합니다.
ColPali는 문서 검색 시스템을 단순한 텍스트 매칭기에서 시각적 의미론(Visual Semantics)을 이해하는 지능형 에이전트로 격상시키는 시도라 할 수 있다.

완벽한 기억력의 대가는 ‘엄청난 저장 공간’입니다
ColPali가 페이지의 모든 시각적 세부 정보를 보존하는 능력은 강력한 장점이지만, 동시에 치명적인 단점으로 이어집니다. 바로 인덱스 저장 공간의 폭발적인 증가입니다. ColPali는 한 페이지를 약 1,024개의 작은 이미지 조각으로 나누고, 각 조각을 개별적인 벡터로 변환하여 저장하는 ‘다중 벡터’ 방식을 사용합니다. 이는 페이지의 일부를 하나의 벡터로 압축하는 기존 방식과 비교했을 때 막대한 저장 공간을 필요로 합니다.
아래 표는 기존 밀집 검색 방식과 ColPali의 페이지당 인덱스 크기를 비교한 것입니다. 그 차이는 실로 엄청납니다.

ColPali의 인덱스 크기는 기존 방식에 비해 약 85배나 큽니다. 이는 수백만 페이지 이상의 문서를 다루는 기업 환경에서 스토리지 비용뿐만 아니라, 인덱스를 메모리에 올려야 하는 RAM 요구량까지 급격히 상승시켜 시스템 전체의 총소유비용(TCO, Total Cost of Ownership)을 높이는 직접적인 원인이 됩니다.
영리한 ‘압축 기술’로 비용 문제를 해결합니다
엄청난 저장 공간 문제는 ColPali의 실용화를 가로막는 가장 큰 장벽처럼 보입니다. 하지만 연구자들은 이 문제를 해결하기 위한 영리한 최적화 기술들을 개발했습니다.
첫 번째 해결책은 “이진 양자화(Binary Quantization)”입니다. 이 기술은 복잡한 실수(floating-point)로 이루어진 벡터 값을 ‘0 또는 1’이라는 두 가지 값으로 단순화하여 압축합니다. 이는 마치 수백만 가지 색상을 가진 고화질 사진을 핵심적인 윤곽만 남긴 흑백 스케치로 바꾸는 것과 같습니다. 약간의 세부 정보는 잃지만, 파일 크기는 극적으로 줄어들고 전체적인 형태는 거의 그대로 유지되는 원리입니다. 이를 통해 저장 공간을 무려 32배나 절약하면서도, 검색 정확도 손실은 최소화할 수 있습니다.

두 번째 해결책은 “토큰 풀링(Token Pooling)”입니다. 이 아이디어를 적용한 ‘Light-ColPali’ 라는 연구에서는 문서 페이지의 모든 조각이 중요한 정보를 담고 있는 것은 아니라는 점에 착안했습니다. 문서의 여백이나 배경처럼 의미 없는 이미지 조각을 식별하여 제거함으로써 저장해야 할 벡터 수를 크게 줄입니다. 놀랍게도 벡터 수를 9배나 줄여도(전체의 약 11%만 유지) 원본 성능의 98% 이상을 유지할 수 있음을 보여주었습니다.

이러한 최적화 기술 덕분에 ColPali는 단순한 연구 모델을 넘어, 실제 서비스 환경에 적용될 수 있는 경제성을 갖추게 되었습니다.
기술의 발전 속도: ColPali는 이미 추월당했습니다
AI 기술 분야의 발전 속도는 눈부실 정도입니다. ColPali가 제시한 혁신적인 아키텍처는 매우 강력하지만, 그 아이디어를 계승한 더 새로운 모델들이 이미 등장하여 성능을 뛰어넘고 있습니다.
대표적인 후속 모델은 ColQwen2(2025년 6월)입니다. 이 모델은 ColPali의 구조를 기반으로 하되, 더 최신이고 강력한 비전 언어 모델을 채택했습니다. ColQwen2의 핵심적인 발전은 동적 해상도(Dynamic Resolution) 처리 능력에 있습니다. ColPali가 모든 이미지를 고정된 크기로 조정하면서 긴 영수증 같은 비정형 문서의 정보 왜곡이 발생할 수 있었던 반면, ColQwen2는 원본 문서의 비율을 유지하며 처리하여 이러한 문제를 해결했습니다. 최근 공개된 시각적 문서 검색 성능 평가 벤치마크인 ‘ViDoRe(출시 목적: 기존 텍스트 중심 RAG 평가의 한계를 넘어, 비전-언어 모델이 문서의 시각적 구조까지 이해하는 능력을 측정)’의 결과는 이러한 세대교체를 명확히 보여줍니다.
- 1위: ColQwen2.5-3b (0.599)
- 4위: ColPali-v1.3 (0.546)
ViDoRe 벤치마크 리더보드에서 ColPali는 4위를 기록한 반면, ColQwen2 계열 모델들은 더 높은 점수로 1위를 차지했습니다. 이는 ColPali의 실패를 의미하는 것이 아닙니다. 오히려 ColPali가 개척한 ‘시각 중심 검색’이라는 새로운 길 위에서 더 뛰어난 모델들이 빠르게 등장하고 있음을 보여주는 긍정적인 신호입니다.

그럼에도 불구하고, ‘텍스트 검색’은 여전히 강력합니다
모든 문제에 시각 기반 검색이 정답은 아니라는 점도 기억해야 합니다. 놀랍게도 ViDoRe 벤치마크에서 VoyageAI라는 텍스트 기반 상용(Proprietary) 모델이 ColPali보다 높은 3위를 차지했습니다. 이 결과는 우리에게 중요한 통찰을 줍니다. 만약 처리하려는 문서에 복잡한 시각적 요소가 거의 없고, OCR의 성능이 매우 우수하다면, 잘 만들어진 전통적인 텍스트 기반 검색도 여전히 매우 강력하고 효율적일 수 있다는 것입니다.
결국 기술 선택에는 절대적인 정답이 없습니다. 해결하려는 문제의 종류와 다루는 데이터의 특성(텍스트 중심인지, 시각 중심인지)에 따라 최적의 접근법은 달라지기 마련입니다.
이제 우리는 ‘어떻게 볼 것인가’를 질문해야 합니다
ColPali와 그 후속 모델들이 가져온 가장 큰 변화는 문서 검색의 패러다임을 ‘텍스트 중심’에서 ‘시각 중심’으로 전환했다는 점입니다. 우리는 OCR의 한계에서 벗어나 문서의 시각적 뉘앙스와 구조를 온전히 활용할 수 있는 새로운 가능성을 확인했습니다.

물론, 저장 공간과 연산 비용이라는 새로운 과제가 등장했지만, 이진 양자화나 토큰 풀링 같은 최적화 기술을 통해 현실적인 문제들을 극복해 나가고 있습니다. ColPali의 등장은 우리에게 새로운 질문을 던집니다. 이제 개발자들의 고민은 더 이상 ‘어떻게 하면 텍스트를 더 잘 추출할까’에 머물러서는 안 됩니다.
연구자와 엔지니어들은 이제 “어떻게 텍스트를 더 잘 추출할 것인가”를 고민하는 대신, “어떻게 시각적 정보를 더 효율적으로 인덱싱하고 검색할 것인가”에 집중해야 할 시점입니다.