라온 커스텀 테마

로컬 퍼스트 AI 에이전트가 그리는 ‘주권적 AI’의 미래

1. 에이전틱 AI의 시대와 OpenClaw의 등장

LLM의 성능 향상이 어느 정도 완만해지면서, 이제 인공지능의 패러다임은 단순한 문장 생성을 넘어 사용자의 의도를 자율적으로 실행하는 ‘에이전틱 AI(Agentic AI)’로 완전히 넘어왔습니다.
이러한 변화의 최전선에는 2026년 초 등장과 함께 세상을 떠들썩하게 했던 ‘OpenClaw(오픈클로, 구 Clawdbot 및 Moltbot)’라는 오픈소스 프로젝트가 있습니다.

우리는 클라우드 기반 AI의 편리함 뒤에 숨겨진 비용, 즉 빅테크의 통제와 데이터 종속을 간과해 왔습니다. 제한된 도구 접근성이라는 한계 속에서, 중앙집중식 통제에 반기를 들며 등장한 프로젝트가 있습니다. 바로 ‘OpenClaw(오픈클로)’입니다.

오픈클로는 단순한 챗봇이 아닙니다. 사용자의 메신저(WhatsApp, Telegram 등)와 연동되어 직접 명령을 수행하고 파일을 관리하는 오픈 소스 자율형 AI 에이전트로서, 진정한 의미의 ‘행동하는 AI’를 구현합니다.

OpenClaw는 ‘내 데이터와 제어권은 내 하드웨어에 있어야 한다’는 ‘로컬 퍼스트(Local-First)’ 철학을 통해, 개인이 AI의 주인이 되는 ‘주권적 에이전트(Sovereign Agent)’의 시대를 열었습니다. 이 글에서는 OpenClaw의 파괴적 혁신(Disruptive Innovation)이 담긴 아키텍처와 그 미래, 그리고 보안의 새로운 패러다임을 분석해 보겠습니다.


2. 철학과 탄생: 피터 슈타인버거와 ‘바이브 코딩(Vibe Coding)’

OpenClaw의 성공 뒤에는 PSPDFKit의 창업자 피터 슈타인버거(Peter Steinberger)의 독특한 철학이 자리 잡고 있습니다. 참고로, PSPDFKit은 회사명이자 PDF SDK 브랜드명으로, 앱·웹·서버 환경에서 PDF 보기와 주석, 편집, 서명, 변환 기능을 손쉽게 구현할 수 있도록 지원했습니다. 다양한 플랫폼을 지원하며 금융, 법률, 의료 등 보안이 중요한 산업에서도 활용되었고, 현재는 Nutrient SDK라는 이름으로 리브랜딩되어 운영되고 있습니다.

바이브 코딩(Vibe Coding): 문법(Syntax)에서 설계(Design)로의 전환

피터 슈타인버거는 개발의 패러다임이 변화했음을 강조합니다. 개발자는 더 이상 세부적인 코드 문법에 매몰되지 않고, 시스템 아키텍처와 데이터 흐름, 즉 ‘사용자의 의도와 맥락(Vibe)’을 설계하는 데 집중해야 한다는 것입니다.구현은 LLM에게 위임하고, 개발자는 ‘엔지니어링적 사고(Engineering Thinking)’에 주력하는 이 접근법은 코딩의 정의를 ‘언어의 영역’에서 ‘설계의 영역’으로 확장시켰습니다.

탈피를 통한 진화: Clawdbot에서 OpenClaw까지 드라마틱한 진화 과정

OpenClaw의 발전 과정은 단순한 기능 확장이 아닌, 커뮤니티와 함께 성장한 ‘탈피(Molt)’와 진화의 기록입니다.

  • Clawdbot (2025.11): 챗-투-쉘(Chat-to-Shell)의 시작 왓츠앱(WhatsApp)을 인터페이스로 활용해 로컬 맥 미니(Mac Mini)를 제어하는 프로토타입으로 시작되었습니다. 메신저로 쉘 명령을 수행하는 직관적인 구조는 개발자들에게 큰 반향을 일으켰습니다.

  • Moltbot: 위기를 성장의 발판으로 초기 명칭이 앤스로픽(Anthropic)의 ‘Claude’와 유사하다는 상표권 이슈가 제기되자, 슈타인버거는 리브랜딩을 단행했습니다. ‘성장을 위해 껍질을 벗는다’는 의미의 ‘Molt(탈피)’를 채택하며 전화위복의 계기를 마련했고, 이 과정에서 가재(Lobster) 마스코트와 열성 팬덤 ‘Claw Crew’가 결집했습니다.

  • OpenClaw (2026.01): 개방형 생태계의 완성 특정 모델에 종속되지 않는(Model-Agnostic) 개방성을 천명하며, 2026년 1월 현재의 명칭으로 최종 확정되었습니다. 이제 OpenClaw는 단순한 봇을 넘어 자율형 에이전트 생태계를 지향합니다.

3. OpenClaw의 작동 원리: 내 컴퓨터 안의 진짜 비서

OpenClaw가 기존 AI 서비스들과 가장 다른 점은 ‘로컬 퍼스트(Local-First)’라는 철학입니다. 내 데이터와 연산의 주도권을 거대 클라우드 기업이 아닌, 내 책상 위 컴퓨터(Edge)에게 쥐여주는 것이죠. 이 구조가 어떻게 보안과 속도, 확장성을 모두 잡았는지 뜯어보겠습니다.

게이트웨이(Gateway): 로컬과 외부를 잇는 통역사

OpenClaw의 심장은 내 컴퓨터(맥 미니, 라즈베리 파이 등)에서 24시간 깨어 있는 프로그램, ‘게이트웨이’입니다. 게이트웨이는 메신저(WhatsApp 등)와 로컬 OS 사이의 통로 역할을 합니다. 사용자가 자연어로 명령하면 게이트웨이는 이를 즉각적인 쉘 명령어로 실시간 통역합니다. 이는 외부 인터넷과 내부망 사이의 보안 경계선 역할을 하며, 복잡한 VPN 없이도 안전한 원격 제어를 가능하게 합니다.

  • 예시: 사용자가 “다운로드 폴더의 PDF들을 정리해”라고 말하면, 게이트웨이는 find ~/Downloads -name “*.pdf” -exec mv…와 같은 명령을 실행하여 로컬 시스템을 직접 제어합니다.

이런 구조 덕분에 맥 미니처럼 전력을 적게 쓰면서 AI 연산(NPU)이 가능한 소형 PC가 단순한 컴퓨터를 넘어, 냉장고처럼 항상 켜져 있는 ‘필수 AI 가전’으로 떠오르고 있습니다.

레인(Lane) 시스템: 기다림 없는 멀티태스킹

기존 챗봇은 질문 하나를 던지면 답변이 나올 때까지 멍하니 기다려야 했습니다. 하지만 OpenClaw는 다릅니다. 기존 챗봇이 한 번에 하나의 작업만 처리하는 ‘동기식 블로킹(Blocking)’ 구조였던 것과 달리, OpenClaw는 파일 복사, 코드 컴파일, 웹 크롤링 등 장시간 소요되는 작업을 수행하면서도 사용자와의 대화 흐름을 유지해야 했습니다.

슈타인버거는 ‘레인(Lane)’이라는 개념을 도입했습니다. 마치 고속도로의 차선처럼 ‘채팅용 차선’, ‘파일 복사용 차선’, ‘웹 검색용 차선’을 따로 둔 것입니다. 덕분에 “이메일 7만 개 삭제해” 같은 무거운 작업을 시켜도, 봇은 버벅거리지 않고 “작업 시작했습니다. 현재 10% 진행 중입니다”라고 실시간으로 대화할 수 있습니다. 이것이 바로 답답함 없는 ‘비동기적 반응성’의 핵심입니다.

물론, 여러 작업이 동시에 한 파일을 건드려 꼬이는 문제(Race Condition)를 막기 위해, 각 차선 안에서는 순서대로 작업을 처리하는 안전장치도 잊지 않았습니다.


투명한 기억: “파일이 곧 진실이다(File is Truth)”

대다수 AI 시스템이 데이터를 블랙박스인 벡터 데이터베이스(Vector DB)에 저장하는 것과 달리, OpenClaw는 ‘급진적인 투명성(Radical Transparency)’을 택했습니다.

“파일이 곧 진실이다”라는 모토 아래, 봇이 기억하는 모든 대화와 정보는 우리가 메모장으로 열 수 있는 평범한 텍스트 파일로 저장됩니다. 봇이 나에 대해 뭘 알고 있는지 언제든 확인하고, 수정하고, 지울 수 있습니다. 데이터의 주인이 온전히 ‘나’에게 돌아오는 순간입니다.

웹사이트를 검색할 때도 화면 전체를 이미지로 찍어서 분석하는 비싼 방식 대신, 웹페이지의 글자 구조(텍스트 트리)만 쏙 뽑아서 읽는 기술을 씁니다. 이는 똑똑하고 알뜰한 눈(Semantic Snapshot)이 있는 것이나 마찬가지라고 생각하면 됩니다. 덕분에 처리 속도는 빨라지고 비용은 획기적으로 줄었습니다.

스킬(Skills): 앱스토어처럼 쉬운 확장

OpenClaw는 ‘스킬’을 통해 무한히 똑똑해집니다. 마치 스마트폰에 앱을 깔듯 기능을 추가할 수 있습니다.

커뮤니티 저장소인 ‘ClawHub’에는 이미 수천 개의 스킬이 올라와 있습니다. “스포티파이 스킬 깔아줘”라고 말 한마디만 하면, 내 봇이 음악 DJ가 됩니다. 슈타인버거는 최근 유행하는 복잡한 기술 표준(MCP 등)보다, 누구나 쉽게 만들고 고칠 수 있는 직관적인 도구 설계를 고집합니다. 복잡함은 줄이고, 인간이 확실하게 통제할 수 있는 ‘직관적인 도구’를 지향하기 때문입니다.



4. 비교 분석: OpenClaw vs. 클라우드 기반 에이전트

OpenClaw의 등장은 중앙 집중형 SaaS 에이전트(Claude Code, OpenAI Atlas)와 뚜렷한 대조를 이루며 AI 시장을 재편하고 있습니다. 이들의 가장 큰 차이는 ‘통제권(Control)’과 ‘접근 범위(Scope)’에 있습니다. 단순 자동화를 넘어 로컬 파이썬 스크립트의 실행, 시스템 설정 등 OS 레벨의 실질적 제어권을 제공합니다.

Claude Code와 비교

Claude Code는 앤스로픽이 제공하는 관리형 코딩 에이전트로, ‘애플(Apple)’과 같은 매끄러운 사용자 경험과 안전을 최우선으로 합니다. 별도의 하드웨어가 필요 없고, 기업의 보안 컴플라이언스를 준수하기 용이하여 팀 단위 도입에 적합합니다.

반면, OpenClaw는 ‘리눅스(Linux)’와 같습니다. 거칠지만 강력합니다. 사용자는 OpenClaw를 통해 자신의 로컬 깃(Git) 훅이나 비공개 서버, 홈 오토메이션 시스템 등 Claude Code가 보안 정책상 접근을 차단하는 영역까지 제어할 수 있습니다. 또한, ‘모델 불가지론(Model Agnostic)’을 채택하여, 비용 효율이 높은 중국의 DeepSeek 모델이나 Moonshot AI의 Kimi 모델을 연동해 API 비용을 절감할 수 있다는 점이 큰 매력으로 작용합니다.

OpenAI Atlas와 비교

OpenAI Atlas는 브라우저를 운영체제로 간주하고 웹 작업을 자동화하는 데 초점을 맞춥니다. 이는 ‘온라인 쇼핑’이나 ‘여행 예약’에는 최적화되어 있으나, 컴퓨터 자체를 제어하는 데는 한계가 있습니다.

OpenClaw는 웹뿐만 아니라 로컬 파일, 시스템 설정, 설치된 애플리케이션까지 제어 범위가 확장됩니다. 예를 들어, Atlas는 “웹에서 CSV를 다운로드”할 수 있지만, OpenClaw는 “다운로드한 CSV를 로컬 파이썬 스크립트로 가공하여, 로컬 메일 클라이언트로 전송하고, 완료되면 스피커로 알림음을 재생”할 수 있습니다.

“공짜의 역설”과 비용 구조

OpenClaw 소프트웨어 자체는 무료(MIT 라이선스)이지만, 운영 비용은 결코 저렴하지 않습니다. 에이전틱 워크플로우는 매우 ‘수다스럽습니다(Chatty)’. 하나의 버그를 수정하기 위해 에이전트는 수십 개의 파일을 읽고, 내부적으로 수차례의 추론(Thought Chain)을 거치며, 실패 시 재시도합니다. 이 과정에서 막대한 양의 토큰이 소모되며, 일부 헤비 유저들은 월 $500 이상의 API 요금 폭탄을 맞기도 했습니다. 이는 정액제 모델을 가진 경쟁 서비스들에 비해 예측 불가능한 비용 리스크를 안고 있습니다.


5. 생태계의 확장과 그림자: Moltbook 사태와 보안의 경고

OpenClaw의 기술적 성공은 곧 ‘Moltbook(몰트북)’이라는 전례 없는 사회적 실험으로 이어졌습니다. 2026년 1월, 맷 슐리히트(Matt Schlicht)가 런칭한 이 플랫폼은 “인간은 관전하고, 에이전트가 활동하는” AI 에이전트 전용 소셜 네트워크를 표방했습니다.

하지만 급격한 확장은 치명적인 보안 위기를 불러왔습니다. 150만 개 이상의 에이전트가 연결된 이 거대한 네트워크의 백엔드 데이터베이스가 행 수준 보안(RLS) 정책 없이 인터넷에 노출되어 있다는 사실이 보안 연구원 제임슨 오라일리에 의해 밝혀졌습니다. OpenClaw 에이전트는 사용자의 로컬 컴퓨터에 대한 쉘(Shell) 접근 권한을 가지고 있기에, API 키 유출은 단순한 데이터 침해를 넘어 파일 삭제나 무단 송금과 같은 물리적, 금전적 피해를 입힐 수 있는 ‘킬 스위치(Kill Switch)’ 시나리오를 의미했습니다. 이는 고권한(High-privilege)을 가진 탈중앙화 봇들을 중앙집중식 서버에 연결하는 것이 얼마나 위험한지를 보여주는 사례로 남았습니다.

기업 환경 또한 ‘섀도우 AI(Shadow AI)’의 확산으로 몸살을 앓고 있습니다. 생산성 향상을 원하는 임직원들이 IT 부서의 승인 없이 OpenClaw를 설치하여 방화벽과 DLP(데이터 유출 방지) 시스템을 우회하고 있기 때문입니다. 사내 데이터가 왓츠앱을 통해 개인 홈 서버로 흘러나가고, 반대로 해커가 직원의 개인 봇을 탈취해 기업 내부망으로 침투하는 백도어(Backdoor) 위협이 현실화되었습니다. 설상가상으로 오픈소스 스킬 저장소인 ClawHub에서는 인기 스킬을 가장한 악성 코드인 ‘슬롭스쿼팅(Slopsquatting)’과, 웹페이지의 숨겨진 텍스트로 에이전트를 조종하는 ‘간접 프롬프트 인젝션’ 공격이 등장했습니다. 이는 OpenClaw가 가진 자율성이 역으로 가장 큰 보안 취약점이 될 수 있음을 시사합니다.


6. 미래 전망: “GUI의 멸종”과 에이전트 경제

피터 슈타인버거는 AI가 기존 앱의 80%를 소멸시킬 것이라 전망했습니다. 대부분의 앱은 데이터베이스 접근을 위한 GUI에 불과하며, 에이전트가 API로 직접 통신하는 세상에서 인간의 개입은 불필요해지기 때문입니다. 이는 곧 화면 점유율에 기반한 ‘관심 경제(Attention Economy)’의 붕괴를 의미합니다. 사용자가 앱을 열지 않는 미래, 기업들은 광고 노출 대신 에이전트의 API 호출에 과금하는 새로운 수익 모델로 전환해야 할 것입니다.

이러한 흐름은 ‘에이전트 경제(Agent Economy)’의 부상으로 이어집니다. Moltbook 사태에도 불구하고, 에이전트 간 신원 검증 프로토콜인 ‘Clawlink’나 기계 간 결제를 위한 ‘ZERA’ 등의 시도는 계속되고 있습니다. 이제 에이전트는 고유한 지갑(Wallet)을 소유한 ‘금융 대리인’으로 진화 중입니다. 에이전트가 스스로 검색부터 결제까지 수행하는 완전 자율 소비 주체의 등장은, 단순한 편의성을 넘어 ‘폭주하는 에이전트’에 의한 자산 손실이라는 새로운 리스크 관리를 요구하고 있습니다.


7. 검증된 자율성을 향하여

OpenClaw는 AI 시대의 기술 소유권이 누구에게 있는가라는 근원적인 질문을 던졌습니다. 하지만 주권에는 반드시 책임이 따릅니다. 우리가 디지털 집사에게 열쇠를 맡기기 위해서는 샌드박싱의 고도화와 AI 전용 방화벽 도입을 통한 ‘검증된 자율성(Verified Autonomy)’ 확보가 선행되어야 합니다. OpenClaw가 불러온 이 혁명적 흐름이 보안의 악몽이 될지, 진정한 개인의 해방이 될지는 이제 우리의 관리 능력에 달려 있습니다.

시각-언어 모델(VLM)의 진화

시각과 언어의 만남, VLM의 정의와 위상

시각-언어 모델(Vision-Language Models, VLM)은 컴퓨터 비전(CV)과 자연어 처리(NLP)의 교차점에서 탄생했습니다. 기계가 시각적 세계를 지각하고 언어를 통해 그 의미를 추론하도록 돕는 VLM은 단순한 이미지 설명 단계를 넘어, 현재는 복잡한 논리적 추론과 자율적 행동이 가능한 ‘멀티모달 에이전트’로 진화하고 있습니다.

이 글에서는 지난 10여 년간의 기술적 도약을 CNN-RNN 파이프라인, 대조 학습의 혁명, 거대 언어 모델(LLM)과의 통합, 그리고 네이티브 멀티모달리티라는 핵심 시기를 중심으로 분석하며, 미래의 피지컬 AI 시대를 조망해 보고자 합니다.

[2014-2020] 시각-언어 통합의 서막: CNN-RNN 파이프라인

초기 VLM 연구는 특정 작업에 최적화된 모듈형 아키텍처가 주류를 이뤘습니다. 이 시기의 핵심은 ‘시각적 지각’과 ‘언어적 생성’을 물리적으로 연결하는 것이었습니다.

  • 기술적 메커니즘: 합성곱 신경망(CNN)을 시각 인코더로, 순환 신경망(RNN)을 언어 디코더로 결합한 구조가 대표적입니다. CNN(VGG, ResNet 등)이 이미지를 특징 벡터로 압축하면, LSTM이나 GRU가 이를 전달받아 문장을 생성합니다. 특히 m-RNN 모델은 CNN의 시각 특징을 RNN의 중간 계층에 직접 삽입하여 상호작용의 기초를 마련했습니다.
  • 주요 작업: 이미지 캡셔닝(Image Captioning)과 시각적 질의응답(VQA)이 핵심 연구 목표였으며, 2015년경부터는 문장의 파편과 이미지 영역을 정렬하는 기법이 도입되었습니다.

참고) m-RNN(Multimodal Recurrent Neural Network)은 이미지의 시각적 정보와 자연어의 언어적 정보를결합하여, 이미지에 대한 설명을 생성(Image Captioning)하거나 이미지와 텍스트 간의 유사도를 측정하기 위해 설계된 딥러닝 아키테처입니다.

이 모델은 2014~2015년경 Baidu Research 팀(Junhua Mao 등)에 의해 제안되었으며, 당시 컴퓨터 비전과 자연어 처리(NLP)를 연결하는 혁신적인 구조로 평가받았습니다.

초기 VLM의 기술적 특징 및 한계점

[2021] 대조 학습의 혁명: CLIP과 공통 임베딩 공간의 탄생

2021년 OpenAI의 CLIP(Contrastive Language-Image Pre-training) 등장은 지도 학습 중심의 패러다임을 인터넷 규모의 데이터 기반 ‘대조 학습(Contrastive Learning)’으로 전환시킨 일대 사건이었습니다.

  • 패러다임의 전환: 기존의 고정된 범주 레이블을 넘어, 웹상의 4억 개의 이미지-텍스트 쌍을 활용해 범용적인 표현을 학습하기 시작했습니다.
  • CLIP의 혁신: 텍스트와 시각 인코더(ViT)를 동일한 고차원 벡터 공간에 투영합니다. 매칭되는 쌍의 유사도는 높이고 나머지는 낮추는 대칭적 교차 엔트로피 손실(Symmetric Cross-entropy Loss)을 사용하며, 이를 통해 별도의 미세 조정 없이도 새로운 개념을 이해하는 ‘제로샷(Zero-shot) 전이 능력’을 확보했습니다.
  • 데이터 공학의 흐름: 이후 SigLIP(Sigmoid Loss for Language Image Pre-training)은 구글에서 제안한 모델로 CLIP의 성능과 효율성을 획기적으로 개선한 방식이다. 소프트맥스(Softmax) 대신 시그모이드(Sigmoid) 손실을 도입하여 배치 크기의 한계를 극복하고 학습 효율을 극대화했습니다. 이러한 흐름은 LAION-5B와 같은 초거대 오픈 데이터셋 구축으로 이어졌습니다.

참고) LAION-5B는 전 세계에서 가장 거대하고 대표적인 오픈 소스 멀티모달 데이터셋입니다. 독일의 비영리 단체인 LAION(Large-scale Artificial Intelligence Open Network)에서 제작했으며, 현대 생성형 AI(예: Stable Diffusion)의 폭발적인 발전을 가능하게 한 핵심 밑거름이 되었습니다.

[2022-2023] 거대 언어 모델(LLM)과의 통합 및 지시어 튜닝

2022년 하반기부터 2023년까지 VLM의 발전은 강력한 거대 언어 모델(LLM)을 멀티모달 인터페이스에 결합하는 방향으로 전개되었다. 이 시기의 모델들은 단순히 이미지를 설명하는 것을 넘어, 사용자의 복잡한 지시를 따르고 시각 정보에 기반해 추론하며 대화할 수 있는 능력을 갖추게 되었습니다.

게이트형 교차 주의 집중 (Flamingo)

DeepMind의 Flamingo는 고정된 LLM 계층 사이에 새로운 ‘교차 주의 집중(Cross-attention)’ 계층을 삽입하는 방식을 취했습니다. Flamingo는 시각적 특징을 키(Key)와 값(Value)으로, 텍스트 토큰을 쿼리(Query)로 사용하여 언어 모델이 텍스트 생성 과정에서 시각 정보를 직접 참조할 수 있게 합니다. 특히, 기존 언어 모델의 가중치를 파괴하지 않기 위해 학습 초기에는 시각 정보의 영향력을 0으로 설정했다가 점진적으로 늘리는 ‘tanh 게이팅’ 메커니즘을 도입하여 안정적인 학습을 도모하였습니다.

질의 트랜스포머 (BLIP-2)

BLIP-2는 시각 인코더와 LLM 사이에서 정보를 선택적으로 추출하여 전달하는 ‘Q-Former’ 모듈을 도입하였습니다. Q-Former는 학습 가능한 소수의 쿼리 토큰을 사용하여 이미지 인코더로부터 텍스트 생성에 가장 유용한 정보만을 추출한 뒤, 이를 LLM의 임베딩 공간으로 투영합니다. 이 방식은 시각 정보의 병목 현상을 해결하고, 매우 적은 수의 학습 매개변수만으로도 시각-언어 정렬을 가능케 하여 효율성 측면에서 큰 주목을 받았습니다.

선형 투영 및 MLP 어댑터 (LLaVA)

LLaVA는 가장 단순하면서도 강력한 ‘선형 투영(Linear Projection)’ 방식을 대중화하였습니다. LLaVA 아키텍처에서는 CLIP의 시각 특징 벡터를 단순한 선형 계층 또는 2계층 MLP를 통해 LLM의 입력 토큰 임베딩 공간으로 직접 매핑합니다. 이렇게 변환된 시각 토큰은 텍스트 토큰과 나란히 배열되어 LLM에 입력되며, 모델은 이를 일반적인 텍스트 시퀀스처럼 처리합니다. LLaVA 1.5와 LLaVA-NeXT는 더 나아가 고해상도 이미지를 여러 타일로 나누어 처리하는 기법을 도입하여 OCR 및 정밀 시각 추론 성능을 비약적으로 향상시켰습니다.

시각-언어 연결 아키텍처 비교 분석

  • 학습 전략: 단순히 캡션을 다는 수준을 넘어, GPT-4 등을 활용해 생성한 합성 데이터(Synthetic Data)가 핵심이 되었습니다. 특히 ShareGPT4V와 같은 데이터셋은 정밀한 시각 정보를 제공하여 모델이 미세한 공간 관계를 추론하도록 훈련시켰습니다.

[2024] 네이티브 멀티모달리티와 프런티어 모델의 패권

2024년은 모델 설계 단계부터 모든 모달리티를 통합 처리하는 ‘네이티브 멀티모달(Native Multimodal)’ 시대가 열렸습니다. 별도의 어댑터 없이 옴니모달 토큰화(Omni-modal Tokenization)를 통해 텍스트, 이미지, 오디오를 단일 공간에서 처리합니다.

아키텍처의 내재적 통합: 옴니모달 토큰화

네이티브 멀티모달 모델의 핵심은 더 이상 별도의 시각 인코더를 어댑터로 붙이는 방식이 아니라는 점입니다. 예를 들어, Google의 Gemini 1.5 Pro는 희소 혼합 전문가(Sparse Mixture-of-Experts, MoE) 트랜스포머 아키텍처를 기반으로 설계되었으며, 학습 초기 단계부터 텍스트, 이미지, 오디오, 비디오를 통합된 고차원 임베딩 공간에서 동시에 처리하도록 훈련되었습니다.

2024 프런티어 VLM 모델 분석

  • 핵심 기술: 입력 이미지의 종횡비에 맞춰 타일을 생성하는 동적 해상도 관리와 비디오를 오디오-비디오 토큰이 교차 배치된 병렬 스트림으로 처리하는 기술이 완성되었습니다.

[2025-2026] 실용성과 신뢰성: 엣지 AI 및 할루시네이션 완화

최신 VLM 연구는 거대화를 넘어 모바일 기기에서의 효율적 구동과 답변의 신뢰성(Grounding) 확보에 집중하고 있습니다.

  • 온디바이스 VLM: 메모리 대역폭 한계를 극복하기 위해 4비트 양자화가 표준이 되었으며, BitNet(1.58비트)과 같은 극단적 경량화 기술이 등장했습니다. 또한 작은 모델이 생성하고 큰 모델이 검증하는 투기적 디코딩과 경량 MoE 기술이 활용됩니다.
  • 신뢰성 지표: 시각적 할루시네이션을 측정하기 위해 다음 세 가지 지표가 중요해졌습니다.
    • CPS (Conditional Prompt Sensitivity): 프롬프트 구조 차이가 할루시네이션에 미치는 영향 측정.
    • CMV (Conditional Model Variability): 동일 프롬프트 내 모델 아키텍처의 취약성 측정.
    • JAS (Joint Attribution Score): 프롬프트와 아키텍처가 결합되어 오류를 증폭시키는 상호작용 측정.
  • 억제 전략: 외부 지식을 검색하는 RAG와 스스로 답변을 검토하는 CoVe(Chain-of-Verification) 기법이 적용됩니다.

[2026년 이후] 미래 전망: 피지컬 AI와 자율적 에이전트

VLM은 이제 디지털 세계를 넘어 물리적 세계에서 행동하는 인공지능으로 확장되고 있습니다.

  • VLA 모델의 등장: 시각-언어-행동(Vision-Language-Action) 모델은 시각적 피드백을 실시간으로 로봇의 제어 토크로 전환합니다. NVIDIA의 GR00T나 Physical Intelligence의 π₀와 같은 모델은 수조 개의 비디오를 학습하여 물리적 법칙을 익히고 있습니다.

  • 스케일링 법칙: 로보틱스 분야에서도 100B 이상의 대규모 모델 도입 시 언어 모델에서 보았던 ‘창발적 능력’이 물리 제어 영역에서 나타날 것으로 기대됩니다.

향후 주요 기술 동향 요약

  1. 자율 에이전트(Agentic AI): 감독 없는 복잡한 워크플로우 수행 및 자기 수정형 공장 구현.
  2. 피지컬 AI(Physical AI): 시각-언어-행동 통합을 통한 인간 수준의 로봇 손재주 구현.
  3. 세계 모델(World Models): 시각적 인과관계를 예측하여 사고를 방지하는 시뮬레이션 능력.
  4. 소버린 멀티모달(Sovereign AI): 지역 데이터 및 보안 규정에 특화된 의료·법률용 VLM.

마치며: 인간의 진정한 동반자로 거듭나는 VLM

지난 10년간 VLM은 파편화된 기술의 결합체에서 완전한 통합 지능으로 진화해 왔습니다. 단순히 이미지를 묘사하던 초기 단계를 지나, 이제는 네이티브 멀티모달 설계를 통해 인간처럼 감각을 융합하고 방대한 문맥 속에서 통찰을 도출하고 있습니다. VLM은 기계가 세상을 이해하는 방식을 근본적으로 변화시키고 있으며, 향후 우리 삶의 모든 기기에 내재된 개인 비서이자 물리적 노동을 돕는 로봇의 두뇌로서 인간의 진정한 동반자가 될 것입니다.

AI의 미래를 바꾸는 Mamba의 4가지 놀라운 진실

2017년 논문 ‘Attention is All You Need’가 발표된 이후, 트랜스포머(Transformer) 아키텍처는 인공지능 세계의 절대적인 지배자로 군림해 왔습니다. 하지만 이 강력한 아키텍처는 태생적인 한계를 안고 있었습니다. 바로 시퀀스 길이가 길어질수록 계산량이 기하급수적으로 늘어나는(O(L2)) ‘제곱의 벽(Quadratic Wall)’입니다. 현대 AI의 끝없는 문맥 욕구는 이 아키텍처를 한계점까지 밀어붙였습니다.

이 거대한 벽을 허물기 위해, 2023년 말 카네기 멜런 대학교의 Albert Gu와 Flash-Attention을 개발을 주도했던 프린스턴 대학교의 Tri Dao의 공동 연구로 발표된Mamba(Linear-Time Sequence Modeling with Selective State Spaces)라는 혁신적인 아키텍처가 등장했습니다. Mamba는 트랜스포머의 성능은 유지하면서도 계산 복잡도를 선형(O(L))으로 낮추며 AI의 새로운 패러다임을 제시했습니다.

이 글에서는 Mamba가 AI의 미래를 어떻게 바꾸고 있는지, 가장 놀랍고 중요한 4가지 진실을 통해 알아보겠습니다.


첫 번째 진실: Mamba의 진짜 혁신은 ‘속도’가 아닌 ‘선택성’에 있다

Mamba의 등장을 단순히 ‘더 빠른 모델’로만 이해한다면 핵심을 놓치는 것입니다. Mamba의 진정한 혁신은 속도가 아닌, ‘선택적 상태 공간(Selective State Space)’이라는 메커니즘을 통해 구현한 ‘선택성(Selectivity)’에 있습니다.

기존의 상태 공간 모델(SSM)은 입력 데이터와 상관없이 정보 처리 방식이 고정된 ‘선형 시불변(Linear Time-Invariant)’ 시스템이었습니다. 이 때문에 계산은 효율적이었지만, 문맥에 따라 어떤 정보가 더 중요한지 가려내는 능력이 부족했습니다.

반면 Mamba는 입력되는 데이터에 따라 실시간으로 어떤 정보를 기억하고 어떤 정보를 잊을지 스스로 ‘선택’하도록 설계되었습니다. 이는 기억을 업데이트하는 핵심 파라미터(B, C, Δ)들을 입력 토큰 자체에 따라 동적으로 바꾸는 방식으로 구현됩니다. 즉, 문맥의 흐름을 파악하고 중요한 정보에 집중하는 능력을 갖춘 것입니다. 바로 이 ‘선택성’ 덕분에 Mamba는 트랜스포머와 대등한 수준의 복잡한 추론 능력을 확보할 수 있었습니다.

트랜스포머의 attention은 입력 데이터의 모든 부분의 관계를 전부 살피기(기억하기) 때문에 연산량이 입력의 제곱에 비례하지만, Mamba는 중요하지 않다고 판단되는 부분은 버리기 때문에 매우 효율적이기는 하지만, 그런 이유로 세세한 부분까지 동일하게 기억하는 능력은 트랜스포머에 비해 떨어지는 것도 사실이다.


두 번째 진실: 메모리를 잡아먹던 ‘KV 캐시’의 종말

트랜스포머 모델이 문장을 생성(추론)할 때 가장 큰 골칫거리는 ‘KV 캐시’였습니다. 모델은 다음 단어를 예측하기 위해 이전에 등장한 모든 단어의 정보를 키(Key)와 값(Value) 형태로 저장해야 했는데, 문맥이 길어질수록 이 캐시가 GPU 메모리를 기하급수적으로 차지하는 병목 현상이 발생했습니다.

Mamba는 이 문제를 근본적으로 해결합니다. 과거의 모든 정보를 일일이 저장하는 대신, 고정된 크기의 ‘상태 벡터(State Vector)’ 하나에 핵심 정보를 압축하여 저장합니다. 따라서 문맥이 아무리 길어져도 Mamba가 사용하는 메모리 양은 거의 일정하게 유지됩니다.
이 차이가 가져오는 이점은 막대합니다. 동일한 하드웨어에서 훨씬 더 많은 동시 접속자를 처리할 수 있고, 추론 처리량은 최대 5배까지 높아집니다. 이는 AI 서비스의 운영 비용을 극적으로 낮추는 전략적 이점으로 직결될 뿐만 아니라, 스마트폰이나 노트북 같은 저사양 기기에서도 강력한 대규모 모델을 구동할 수 있는 가능성을 열었습니다.


세 번째 진실: 가장 놀라운 반전, Mamba와 어텐션은 사실 같은 원리였다

오랫동안 Mamba와 트랜스포머는 서로 다른 철학을 가진 경쟁 관계로 여겨졌습니다. 하지만 2024년 공개된 Mamba-2(Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality)연구는 이 통념을 완전히 뒤엎었습니다. 바로 ‘상태 공간 이중성(State Space Duality)’ 이라는 놀라운 개념을 통해, 두 아키텍처가 수학적으로 동일한 원리에 기반하고 있음을 증명한 것입니다.

이는 Mamba의 순환적 상태 업데이트 방식과 트랜스포머의 어텐션 방식이 본질적으로 같은 계산을 다른 방식으로 풀어내는 것에 불과하다는 의미입니다. 마치 같은 목적지를 가기 위해 한쪽은 순환 도로를, 다른 한쪽은 모든 지점을 연결하는 직선 도로를 이용하는 것과 같습니다.

이는 트랜스포머와 Mamba가 서로 다른 아키텍처가 아니라, 동일한 선형 변환을 하나는 직접적인 위치 간 상호작용(어텐션)으로, 다른 하나는 재귀적 상태 업데이트(SSM)로 계산하는 것임을 의미한다.

이 발견은 두 아키텍처의 장점을 결합한 하이브리드 모델의 이론적 토대를 마련했으며, AI 하드웨어 설계에도 새로운 방향을 제시하고 있습니다.


4. 언어를 넘어 유전체와 의료 영상까지, Mamba가 여는 새로운 AI의 지평


Mamba의 선형 스케일링(O(L)) 특성은 단순히 언어 모델의 효율을 높이는 데 그치지 않습니다. 기존 트랜스포머가 메모리 한계로 인해 제대로 다루지 못했던 ‘초장거리 시퀀스 데이터’ 분야에서 진정한 혁신을 일으키고 있습니다.

  • 유전체학: Caduceus 같은 Mamba 기반 모델은 30억 염기쌍의 인간 게놈 전체를 단절된 조각이 아닌, 하나의 거대한 책으로 취급합니다. 덕분에 이전에는 계산적으로 불가능했던 미묘하고 장거리적인 유전적 서사를 발견하여 질병과의 연관성을 밝혀내고 있습니다.
  • 의료 영상 분석: 수백 장의 슬라이스로 구성된 3D CT나 MRI 같은 방대한 데이터를 효율적으로 처리하여 정밀한 장기 분할 및 진단을 수행합니다. 이는 방대한 데이터를 클라우드로 전송할 필요 없이 병원의 로컬 하드웨어에서 실시간 진단 보조 도구를 구현할 가능성을 열어줍니다.
  • 오디오 처리: Samba-ASR 모델은 매우 긴 연설이나 회의 녹취록을 실시간으로, 그리고 더 적은 오류로 텍스트로 변환합니다. 기존 모델들이 긴 오디오 처리 시 겪던 속도 저하나 환각 현상을 크게 개선했습니다.

마치며: ‘제곱에서 선형으로’, AI의 새로운 패러다임

Mamba는 트랜스포머의 단순한 대체재가 아닙니다. 이는 AI 아키텍처의 패러다임이 비효율적인 ‘제곱 복잡도’에서 효율적인 ‘선형 복잡도’로 이동하고 있음을 보여주는 가장 강력한 증거입니다. 물론 Mamba가 모든 면에서 완벽한 것은 아니며, 특정 정보를 정확히 짚어내는 능력 등에서는 여전히 트랜스포머가 강점을 보입니다. 이 때문에 앞으로는 Mamba의 효율성과 트랜스포머의 정교함을 결합한 Jamba나 Hymba와 같은 하이브리드 모델이 AI 시장의 대세가 될 것입니다.

더 나아가, 거대 모델의 막대한 전력 소비가 사회적 문제로 대두되는 시대에 Mamba의 효율성은 중요한 의미를 갖습니다. 추론 단계에서 압도적인 에너지 효율을 보이는 Mamba는 AI 성능을 높이면서도 탄소 발자국을 줄일 수 있는 ‘그린 AI’의 핵심 기술로 주목받고 있습니다. 이는 단순한 기술적 승리를 넘어, 지속 가능한 AI를 향한 중요한 발걸음입니다.

AI가 거대한 데이터 센터를 넘어 우리 손안의 기기 속으로 들어오는 미래에, Mamba의 급진적인 효율성, 즉 단편적인 에너지 비용으로 지능을 제공하는 능력은 과연 ‘스마트함’의 새로운 표준이 될 수 있을까요? AI 패러다임의 거대한 전환은 이미 시작되었습니다.

PDF 검색의 답답함을 끝낼 ‘ColPali’의 등장

분명히 PDF 안에 있는 내용인데, 왜 검색이 안 될까요?

복잡한 표나 그래프가 가득한 PDF 보고서에서 특정 수치를 찾으려 할 때, 혹은 스캔한 계약서에서 중요한 조항을 검색할 때, 분명히 문서 안에 있는 내용임에도 불구하고 검색 결과에 나타나지 않아 답답했던 경험이 누구나 한 번쯤 있을 것입니다. 이러한 문제가 발생하는 근본적인 원인은 기존의 검색 방식이 문서를 단순한 ‘글자의 나열’로만 취급하기 때문입니다. 광학 문자 인식(OCR) 기술을 사용해 이미지에서 텍스트를 추출하는 방식은 편리하지만, 그 과정에서 표의 구조, 그래프의 형태, 레이아웃과 같은 핵심적인 시각적 문맥을 대부분 잃어버립니다.

이 문제를 해결하기 위해 ColPali(ColPali: Efficient Document Retrieval with Vision Language Models, 2025년 2월)라는 혁신적인 기술이 등장했습니다. ColPali는 문서를 텍스트로 변환하지 않고 ‘이미지 그 자체’로 이해합니다. 이 글에서는 ColPali의 독특한 작동 방식과 그로부터 우리가 발견한 5가지 놀라운 사실을 통해 문서 검색의 미래를 엿보고자 합니다.


텍스트를 읽는 대신, 페이지를 ‘봅니다’

ColPali의 가장 혁신적인 특징은 데이터 처리 과정에서 OCR 단계를 완전히 제거했다는 점입니다.
기존 방식은 ‘이미지 → OCR → 텍스트 → 검색’이라는 여러 단계를 거쳤습니다. 이 과정에서 OCR 엔진이 ‘I(영어 알파벳)’를 ‘1(숫자)’로 잘못 인식하거나 복잡한 레이아웃의 순서를 뒤섞는 등 정보 손실과 오류가 발생할 위험이 항상 존재했습니다. 아무리 뛰어난 검색 모델이라도, 입력되는 텍스트가 잘못되었다면 정확한 결과를 낼 수 없습니다.
반면 ColPali는 문서 페이지를 수많은 작은 이미지 조각(패치)으로 나눈 뒤, 각 조각의 시각적 특징을 직접 이해합니다. 텍스트의 폰트 크기, 그래프의 모양, 표의 열과 행 배치 같은 시각적 문맥까지 그대로 보존하는 것입니다. 이는 단순히 글자를 넘어, 굵고 큰 글씨는 ‘제목’으로, 페이지 하단의 작은 글씨는 ‘각주’로, 특정 색상으로 강조된 부분은 ‘중요 데이터’로 인식하는, 인간과 유사한 수준의 시각적 이해를 의미합니다.

ColPali는 문서 검색 시스템을 단순한 텍스트 매칭기에서 시각적 의미론(Visual Semantics)을 이해하는 지능형 에이전트로 격상시키는 시도라 할 수 있다.


완벽한 기억력의 대가는 ‘엄청난 저장 공간’입니다

ColPali가 페이지의 모든 시각적 세부 정보를 보존하는 능력은 강력한 장점이지만, 동시에 치명적인 단점으로 이어집니다. 바로 인덱스 저장 공간의 폭발적인 증가입니다. ColPali는 한 페이지를 약 1,024개의 작은 이미지 조각으로 나누고, 각 조각을 개별적인 벡터로 변환하여 저장하는 ‘다중 벡터’ 방식을 사용합니다. 이는 페이지의 일부를 하나의 벡터로 압축하는 기존 방식과 비교했을 때 막대한 저장 공간을 필요로 합니다.

아래 표는 기존 밀집 검색 방식과 ColPali의 페이지당 인덱스 크기를 비교한 것입니다. 그 차이는 실로 엄청납니다.

ColPali의 인덱스 크기는 기존 방식에 비해 약 85배나 큽니다. 이는 수백만 페이지 이상의 문서를 다루는 기업 환경에서 스토리지 비용뿐만 아니라, 인덱스를 메모리에 올려야 하는 RAM 요구량까지 급격히 상승시켜 시스템 전체의 총소유비용(TCO, Total Cost of Ownership)을 높이는 직접적인 원인이 됩니다.


영리한 ‘압축 기술’로 비용 문제를 해결합니다

엄청난 저장 공간 문제는 ColPali의 실용화를 가로막는 가장 큰 장벽처럼 보입니다. 하지만 연구자들은 이 문제를 해결하기 위한 영리한 최적화 기술들을 개발했습니다.

첫 번째 해결책은 “이진 양자화(Binary Quantization)”입니다. 이 기술은 복잡한 실수(floating-point)로 이루어진 벡터 값을 ‘0 또는 1’이라는 두 가지 값으로 단순화하여 압축합니다. 이는 마치 수백만 가지 색상을 가진 고화질 사진을 핵심적인 윤곽만 남긴 흑백 스케치로 바꾸는 것과 같습니다. 약간의 세부 정보는 잃지만, 파일 크기는 극적으로 줄어들고 전체적인 형태는 거의 그대로 유지되는 원리입니다. 이를 통해 저장 공간을 무려 32배나 절약하면서도, 검색 정확도 손실은 최소화할 수 있습니다.

두 번째 해결책은 “토큰 풀링(Token Pooling)”입니다. 이 아이디어를 적용한 ‘Light-ColPali’ 라는 연구에서는 문서 페이지의 모든 조각이 중요한 정보를 담고 있는 것은 아니라는 점에 착안했습니다. 문서의 여백이나 배경처럼 의미 없는 이미지 조각을 식별하여 제거함으로써 저장해야 할 벡터 수를 크게 줄입니다. 놀랍게도 벡터 수를 9배나 줄여도(전체의 약 11%만 유지) 원본 성능의 98% 이상을 유지할 수 있음을 보여주었습니다.

이러한 최적화 기술 덕분에 ColPali는 단순한 연구 모델을 넘어, 실제 서비스 환경에 적용될 수 있는 경제성을 갖추게 되었습니다.


기술의 발전 속도: ColPali는 이미 추월당했습니다

AI 기술 분야의 발전 속도는 눈부실 정도입니다. ColPali가 제시한 혁신적인 아키텍처는 매우 강력하지만, 그 아이디어를 계승한 더 새로운 모델들이 이미 등장하여 성능을 뛰어넘고 있습니다.

대표적인 후속 모델은 ColQwen2(2025년 6월)입니다. 이 모델은 ColPali의 구조를 기반으로 하되, 더 최신이고 강력한 비전 언어 모델을 채택했습니다. ColQwen2의 핵심적인 발전은 동적 해상도(Dynamic Resolution) 처리 능력에 있습니다. ColPali가 모든 이미지를 고정된 크기로 조정하면서 긴 영수증 같은 비정형 문서의 정보 왜곡이 발생할 수 있었던 반면, ColQwen2는 원본 문서의 비율을 유지하며 처리하여 이러한 문제를 해결했습니다. 최근 공개된 시각적 문서 검색 성능 평가 벤치마크인 ‘ViDoRe(출시 목적: 기존 텍스트 중심 RAG 평가의 한계를 넘어, 비전-언어 모델이 문서의 시각적 구조까지 이해하는 능력을 측정)’의 결과는 이러한 세대교체를 명확히 보여줍니다.

  • 1위: ColQwen2.5-3b (0.599)
  • 4위: ColPali-v1.3 (0.546)

ViDoRe 벤치마크 리더보드에서 ColPali는 4위를 기록한 반면, ColQwen2 계열 모델들은 더 높은 점수로 1위를 차지했습니다. 이는 ColPali의 실패를 의미하는 것이 아닙니다. 오히려 ColPali가 개척한 ‘시각 중심 검색’이라는 새로운 길 위에서 더 뛰어난 모델들이 빠르게 등장하고 있음을 보여주는 긍정적인 신호입니다.


그럼에도 불구하고, ‘텍스트 검색’은 여전히 강력합니다

모든 문제에 시각 기반 검색이 정답은 아니라는 점도 기억해야 합니다. 놀랍게도 ViDoRe 벤치마크에서 VoyageAI라는 텍스트 기반 상용(Proprietary) 모델이 ColPali보다 높은 3위를 차지했습니다. 이 결과는 우리에게 중요한 통찰을 줍니다. 만약 처리하려는 문서에 복잡한 시각적 요소가 거의 없고, OCR의 성능이 매우 우수하다면, 잘 만들어진 전통적인 텍스트 기반 검색도 여전히 매우 강력하고 효율적일 수 있다는 것입니다.

결국 기술 선택에는 절대적인 정답이 없습니다. 해결하려는 문제의 종류와 다루는 데이터의 특성(텍스트 중심인지, 시각 중심인지)에 따라 최적의 접근법은 달라지기 마련입니다.


이제 우리는 ‘어떻게 볼 것인가’를 질문해야 합니다

ColPali와 그 후속 모델들이 가져온 가장 큰 변화는 문서 검색의 패러다임을 ‘텍스트 중심’에서 ‘시각 중심’으로 전환했다는 점입니다. 우리는 OCR의 한계에서 벗어나 문서의 시각적 뉘앙스와 구조를 온전히 활용할 수 있는 새로운 가능성을 확인했습니다.

물론, 저장 공간과 연산 비용이라는 새로운 과제가 등장했지만, 이진 양자화나 토큰 풀링 같은 최적화 기술을 통해 현실적인 문제들을 극복해 나가고 있습니다. ColPali의 등장은 우리에게 새로운 질문을 던집니다. 이제 개발자들의 고민은 더 이상 ‘어떻게 하면 텍스트를 더 잘 추출할까’에 머물러서는 안 됩니다.

연구자와 엔지니어들은 이제 “어떻게 텍스트를 더 잘 추출할 것인가”를 고민하는 대신, “어떻게 시각적 정보를 더 효율적으로 인덱싱하고 검색할 것인가”에 집중해야 할 시점입니다.

표와 CAD도면을 이해하는 AI: 최신 비정형 데이터 처리 기술 심층 분석

표준적인 검색 증강 생성(RAG) 시스템은 일반 텍스트 문서에서는 매우 효과적으로 작동합니다. 하지만 금융 보고서의 복잡한 표, 연구 논문의 차트, 또는 CAD 도면과 같은 비정형 데이터가 포함된 문서를 처리할 때는 상당한 어려움을 겪습니다. 이러한 시스템은 종종 데이터의 핵심적인 구조와 맥락을 놓치기 때문입니다.

이 글에서는 비정형 데이터 처리의 두 가지 핵심 과제를 심층적으로 다루고자 합니다. 첫째, 여러 행과 열에 걸쳐있는 복잡한 표에서 정확한 정보를 추출하는 기술, 둘째, CAD 도면과 청사진에 담긴 기하학적, 의미론적 정보를 올바르게 해석하는 기술입니다.

이러한 고질적인 문제들을 해결하기 위해 등장한 최신 기술 동향을 분석하고, 각 접근법의 작동 원리와 장단점을 알아보겠습니다.


1부: 복잡한 표(Table) 처리를 위한 RAG 기술의 진화

기존 RAG의 한계: 표 데이터가 손상되는 이유

전통적인 RAG 파이프라인이 왜 복잡한 표 처리에 실패하는지 이해하는 것이 중요합니다. 
문제는 주로 두 가지 핵심적인 병목 현상에서 발생합니다.

  • 구조 파괴: 단순 텍스트 분할기는 표의 구조적 무결성을 고려하지 않습니다. 그 결과, 표를 무의미한 조각으로 잘라내어 행과 열의 관계를 끊어버리고, 데이터의 본질적인 의미를 파괴합니다.

  • 노이즈가 많은 임베딩(Noisy Embedding): 크고 복잡한 표의 원시 텍스트를 그대로 임베딩하면, 벡터에 너무 많은 정보가 뒤섞여 의미 검색에 비효율적인 “노이즈가 많은” 벡터가 생성됩니다. 이는 관련성 높은 정보를 정확히 찾아내는 의미 검색의 정확도를 심각하게 저하시킵니다.

접근법 1: 멀티-벡터 리트리버를 활용한 분리 전략

일반적인 RAG는 텍스트 덩어리(Chunk)를 임베딩해서 벡터 DB에 넣고, 검색되면 그 덩어리 자체를 LLM에게 줍니다. 하지만 “복잡한 표”나 “이미지”는 이 방식이 잘 통하지 않습니다. 표 내부의 숫자를 그대로 벡터화하면 의미가 희석되기 때문입니다.

멀티-벡터 리트리버는 이 고리를 끊습니다.

  • 저장소 1 (Vector Store): 데이터의 ‘요약본(Summary)’만 벡터로 만들어 저장합니다. (검색용)
    요약본 예: “이 표는 2025년 4분기 삼성전자의 부문별 매출액을 보여주며, 반도체 부문이 30% 성장했음을 나타낸다.”

  • 저장소 2 (Doc Store): 데이터의 ‘원본(Raw Content)’을 그대로 저장합니다. (생성용)

이 접근법의 핵심은 데이터의 ‘검색용 표현’과 ‘생성용 표현’을 전략적으로 분리하는 것입니다. Unstructured 라이브러리와 ‘멀티-벡터 리트리버(Multi-Vector Retriever)’를 활용하여 이 문제를 해결할 수 있습니다. 결과적으로 멀티-벡터 리트리버는 “표는 요약으로 검색하고, 답변은 원본으로 한다”는 전략을 구현하는 기술적 모듈입니다.

프로세스 단계별 기술

  • 1단계 (지능형 파싱)
    Unstructured 라이브러리의 partition_pdf와 같은 도구를 이용하여 문서의 시각적 레이아웃을 분석합니다. 이를 통해 일반 텍스트와 표를 지능적으로 식별하고, ‘제목’이나 ‘소제목’을 기준으로 텍스트를 분할하여 문서의 논리적 구조를 보존합니다. 표는 표 그대로, 텍스트는 텍스트 덩어리로 깔끔하게 추출됩니다.

  • 2단계 (요약 및 원본 저장) 
    검색 단계에서는 표와 텍스트 덩어리의 간결한 요약본을 생성하여 임베딩합니다. 이 요약본은 검색 효율성을 극대화합니다. 사용자의 질문과 가장 관련 있는 요약본이 검색되면, 답변 생성 단계에서는 LLM에게 요약본이 아닌 완전한 원본 표 또는 텍스트를 전달합니다. 이로써 LLM은 답변 생성에 필요한 모든 컨텍스트를 확보하게 됩니다.

기대 효과

이 접근법은 검색 효율성과 답변의 정확도를 동시에 높입니다. 요약본을 임베딩함으로써 “노이즈가 많은 임베딩” 문제를 해결하고, 생성 단계에서는 원본 데이터를 제공하여 LLM이 정확하고 상세한 답변을 만들 수 있도록 지원합니다. 이 접근법은 테이블의 크기가 매우 크고 내용이 복잡하여 전체를 임베딩할 경우 심각한 노이즈가 발생하는 금융 보고서나 과학 연구 데이터 처리에 특히 효과적입니다.


접근법 2: 컨텍스트 강화 및 표준화를 통한 정밀도 향상

두 번째 접근법은 데이터를 임베딩하기 전에 LLM을 활용하여 표 데이터 자체를 보강하고 표준화하는 데 초점을 맞춥니다. 핵심은 표의 가독성과 정보량을 극대화하여 LLM이 더 쉽게 이해할 수 있도록 만드는 것입니다.

프로세스 단계별 기술

  • 1단계 (컨텍스트 강화):
    LLM이 추출된 표뿐만 아니라 문서 전체의 주변 텍스트까지 분석합니다. 이를 바탕으로 해당 표가 어떤 맥락에서 사용되었는지 설명하는 풍부하고 상세한 ‘문맥적 설명’을 생성합니다.
  • 2단계 (형식 표준화): 
    LLM이 추출된 표를 일관된 ‘마크다운(Markdown) 형식’으로 변환합니다. 마크다운은 구조가 명확하여 LLM의 이해도를 높이고, 이는 임베딩 효율성 향상으로 이어집니다.
  • 3단계 (통합 임베딩): 
    위에서 생성된 ‘문맥적 설명’과 ‘마크다운 형식의 표’를 결합하여 하나의 정보 밀도가 높은 ‘테이블 청크(table chunk)’를 만듭니다. 이 청크가 최종적으로 임베딩되어 벡터 데이터베이스에 저장됩니다.

기대 효과

이 접근법은 원본 표에 존재할 수 있는 모호함을 줄여줍니다. 풍부한 문맥과 표준화된 형식을 통해, 검색 및 생성 단계에서 LLM이 표의 내용을 훨씬 더 정확하게 이해하고 활용하도록 돕습니다. 이 접근법은 표 자체만으로는 의미가 모호하여 문서의 다른 부분에 흩어져 있는 컨텍스트 정보가 필수적인 법률 계약서나 규제 관련 문서 처리에 특히 유용합니다.

표 처리 기술 요약 및 비교


2부: CAD 도면 처리 기술

픽셀을 넘어 벡터로: CAD 데이터의 본질

건축이나 기계 설계에 사용되는 복잡한 기술 도면은 수많은 선과 기호가 겹쳐 있습니다. 기존의 픽셀 기반 이미지 분석 방식(예: CNN)은 이러한 미세한 구조적 정보를 해석하는 데 명확한 한계를 가집니다.

이 문제를 해결하기 위해서는 패러다임의 전환이 필요합니다. 도면을 픽셀의 집합이 아닌, 기하학적 정보를 담고 있는 ‘벡터 데이터’ 자체로 다루어야 합니다.

접근법 1: 그래프 신경망(GNN)을 이용한 구조적 분석

RAG 시스템을 구축할 때 가장 골치 아픈 데이터가 바로 ‘건설/제조업의 도면 데이터’입니다. 기존 AI(CNN 방식)를 사용하면 도면을 이미지(그림)으로 인식했기 때문에 거기서 도면이 나타내고자 하는 정보를 끄집어 내기가 매우 어려웠습니다.

VectorGraphNet은 도면을 ‘그림’이 아닌 ‘선들의 연결 관계(그래프)’로 해석하여, 복잡한 설계도에서도 벽, 문, 창문 등을 아주 정확하게 찾아내는 AI 기술입니다. 이 접근법은 CAD 도면을 벡터 요소들 간의 관계를 나타내는 ‘그래프(Graph)’로 변환하고, 이를 그래프 신경망(GNN)으로 분석하여 구조적 의미를 파악합니다. 그래서 우리는 다음과 같은 것을 얻을 수 있게 됩니다.

  1. 정확도: 이미지를 눈으로 보는 것보다, 설계 데이터를 직접 뜯어보기 때문에 훨씬 정확하게 객체(벽, 창문, 배관 등)를 식별합니다.
  2. 가벼움: 거대한 이미지를 처리하는 것보다, 선들의 좌표 데이터만 처리하므로 연산량이 훨씬 적습니다.
  3. 응용: 도면 PDF를 넣으면 자동으로 3D 모델로 변환하거나, 특정 부품의 개수를 세는 작업에 활용될 수 있습니다.

프로세스 단계별 기술

  • 1단계 (PDF에서 SVG로 변환): 
    먼저 도면의 벡터 데이터에 직접 접근하기 위해 PDF를 개방형 표준인 SVG(Scalable Vector Graphics) 형식으로 변환합니다. 이 과정에서 선, 사각형, 원 등 모든 개별 도형을 일관된 처리를 위해 기본적인  명령으로 표준화하는 것이 핵심입니다.
  • 2단계 (그래프 구성): 도면을 그래프로 표현합니다.

    노드(Nodes): 각각의 SVG (선, 곡선 등)가 그래프의 노드가 됩니다. 각 노드는 길이, 곡률 같은 기하학적 정보와 색상, 두께 같은 스타일 정보를 특징(feature)으로 가집니다.

    엣지(Edges): 벡터 객체(노드) 간의 공간적 관계(예: 근접성)를 K-최근접 이웃(KNN) 알고리즘으로 계산하여 엣지로 연결합니다. 엣지는 두 객체 간의 각도, 교차점 수, 포함 관계 등의 정보를 특징으로 가집니다.
  • 3단계 (GNN을 통한 의미 분할): 
    구성된 그래프를 ‘그래프 어텐션 네트워크(Graph Attention Network)’와 같은 GNN으로 분석합니다. GNN은 각 노드(선)의 기능적 역할을 예측하는 ‘의미 분할(semantic segmentation)’ (즉, 각 선에 ‘벽’, ‘문’, ‘치수선’과 같은 기능적 역할을 부여하는 작업)을 수행하여 도면의 내용을 구조적으로 이해합니다.

이 기법은 각 요소 간의 기하학적 관계가 매우 중요하며, 선 하나하나의 의미가 전체 구조를 결정하는 건축 설계 도면이나 복잡한 기계 부품도 분석에 최적화되어 있습니다.


접근법 2: 비전-언어 모델(VLM)을 이용한 시각적 이해

CAD 도면은 텍스트(치수, 주석)와 이미지(형상)가 복잡하게 섞여 있어 기존 OCR로는 처리가 거의 불가능한데, ColPali와 같은 VLM 기술을 사용하면 이 문제를 시각적으로 접근하여 해결합니다.

‘ColPali’ 사례를 중심으로 한 이 접근법은 “보는 것이 곧 검색하는 것(What you see is what you search)”이라는 개념에 기반합니다. 도면 페이지를 텍스트나 벡터의 집합이 아닌, 하나의 ‘이미지’로 취급하여 비전-언어 모델(VLM)로 직접 이해합니다. 그렇기 때문에 CAD 도면의 검색과 문맥 파악에 매우 강력하지만, 아주 정밀한 구조 분석에는 한계가 있어, 아직도 많은 연구가 진행이 되고 있는 상황입니다.

프로세스 단계별 기술

1단계 (이미지로 변환)
PDF 페이지를 PNG와 같은 이미지 형식으로 변환합니다.

2단계 (VLM으로 임베딩)
PaliGemma와 같은 VLM이 페이지 이미지를 입력받습니다. VLM은 텍스트 정보뿐만 아니라 레이아웃, 도형,표 등 시각적 요소를 모두 포함하는 컨텍스트화된 임베딩 그리드(패치)를 생성합니다.

3단계 (Late Interaction 검색)
‘Late Interaction'(또는 MaxSim)이라는 메커니즘을 통해 사용자 쿼리의 각 토큰을 문서의 모든 이미지 패치와 개별적으로 비교한 후, 가장 높은 유사도 점수들을 합산하여 최종 관련성을 계산하는 방식으로 가장 관련성 높은 페이지를 효율적으로 검색합니다.

기대 효과 및 장점

이 접근법은 복잡한 벡터 추출이나 그래프 구성 과정이 필요 없어 파이프라인을 획기적으로 단순화합니다. 특히 텍스트 뿐만 아니라 다이어그램, 도식, 복잡한 레이아웃이 중요한 문서 처리에 강력한 성능을 보입니다. 이 방법은 다양한 포맷의 문서(예: 송장, 기술 매뉴얼, 프리젠테이션 슬라이드)를 대규모로 처리해야 하고, 벡터 추출 및 그래프 구성의 복잡성을 피하면서 신속하게 파이프라인을 구축하는 것이 우선 순위일 때 가장 강력한 성능을 발휘합니다.

CAD 처리 기술 요약 및 비교


통합적 접근의 미래

지금까지 우리는 비정형 데이터 처리의 두 가지 주요 난제인 표와 CAD 도면을 해결하기 위한 최신 기술들을 살펴보았습니다.

  • 표 처리 기술은 ‘검색과 생성 컨텍스트의 분리’를 통해 효율성과 정확성을 동시에 잡는 접근법과, ‘사전 데이터 강화’를 통해 LLM의 이해도를 근본적으로 높이는 접근법으로 나뉩니다.
  • CAD 도면 처리 기술은 GNN을 통해 ‘심층적인 구조적 분석’을 수행하는 접근법과, VLM을 통해 ‘단순화된 시각적 이해’를 추구하는 접근법 사이의 선택으로 귀결됩니다.

미래의 시스템은 단순히 기술을 나열하는 것을 넘어, GNN의 정밀한 구조 분석 능력과 VLM의 파이프라인 단순성 및 시각적 이해 능력 사이의 트레이드 오프를 동적으로 저울질 할 것입니다. 예를 들어, 부품 간의 정확한 연결 관계가 법적 효력을 갖는 항공기 설계 도면에서는 GNN 기반 분석이 필수적이지만, 빠른 시각적 참조가 중요한 마케팅 자료 내 다이어그램은 VLM으로 처리하는 것이 더 효율적일 수 있습니다. 이처럼 문서의 ‘목적’과 ‘내용’에 따라 최적의 기술을 지능적으로 선택하고 결합하는 능력이 차세대 문서 이해 시스템의 핵심 경쟁력이 될 것입니다.

단순 RAG를 넘어: Agentic RAG 워크플로우로 복잡한 질문 해결하기

왜 기본적인 RAG(검색 증강 생성)만으로는 부족한가?

기본적인 RAG(Retrieval-Augmented Generation) 시스템은 간단한 사실 조회에는 매우 효과적입니다. 하지만 재무 보고서(SEC 10-K, 10-Q), 연구 논문, 제품 매뉴얼처럼 표와 텍스트가 복잡하게 혼합된 문서나 여러 단계의 추론이 필요한 질문 앞에서는 종종 한계를 드러냅니다. 예를 들어, “지난 분기에 갱신한 기업 고객 중 SSO 관련 지원 티켓을 연 고객은 누구인가?”와 같은 질문은 단일 정보 조각 검색만으로는 답변하기 어렵습니다.

이러한 한계는 다음과 같은 핵심 질문으로 이어집니다. “어떻게 하면 RAG 시스템이 문서의 구조를 더 잘 이해하고, 복잡한 질문에 대해 더 정확하고 신뢰할 수 있는 답변을 생성하게 할 수 있을까?”

이 질문에 대한 해답으로 ‘Agentic RAG’라는 고급 접근 방식이 주목받고 있습니다. 이 방식은 정적인 데이터 검색을 넘어, LLM 에이전트가 동적으로 추론하고 증거를 수집하는 과정을 통해 기존 RAG의 한계를 극복하는 열쇠를 제공합니다. 흔히 ‘Agentic Chunking’이라는 용어가 새로운 문서 분할 기법으로 오해되기도 하지만, 이는 사실상 정적인 청킹을 뛰어넘어 LLM 에이전트가 동적으로 추론하고 증거를 수집하는 ‘Agentic RAG’ 프로세스 그 자체를 의미합니다.


기존 RAG 파이프라인의 명확한 한계

일반적인 RAG 파이프라인은 문서 수집(Ingest), 인덱싱(Index), 검색(Retrieve), 생성(Generate)의 4단계로 구성됩니다. 이 구조는 단순하지만, 실제 운영 환경에서는 여러 가지 문제에 부딪히게 됩니다.

기본적인 RAG 시스템이 실패하는 일반적인 원인은 다음과 같습니다.

  • 단순한 청킹(Naive Chunking)
    문서를 고정된 크기나 간단한 규칙으로 분할하는 방식은 표나 목록과 같은 의미 있는 구조를 파괴하여 중요한 컨텍스트를 손실시킵니다. 예를 들어, 잘 구성된 표가 중간에 잘려나가면 그 안의 데이터는 가치를 잃게 됩니다.

  • 벡터 검색의 한계
    의미적 유사성에만 의존하는 벡터 검색은 ‘SKU-123’과 같은 고유 식별자나 ‘SSO’ 같은 희귀한 약어를 놓치기 쉽습니다. 이러한 용어는 문서 내 발생 빈도가 낮아 임베딩 공간에서 의미를 제대로 포착하기 어렵기 때문입니다.

  • 재순위화(Reranking)의 부재
    초기 검색 결과는 단순히 쿼리와의 의미적 유사도(Cosine Similarity)에 따라 순위가 매겨집니다. 이로 인해 쿼리에 대한 실제 유용성이나 관련성이 높은 정보 조각이 후순위로 밀려날 수 있습니다.

  • 제한된 컨텍스트 창 
    LLM이 한 번에 처리할 수 있는 정보의 양은 제한적입니다. 이 때문에 검색된 중요한 정보가 요약되거나 일부가 누락된 채로 LLM에 전달되어, 모델이 전체적인 맥락을 파악하지 못하고 부정확한 답변을 생성할 위험이 있습니다. 이렇게 빈약하게 검색된 정보는 모델이 근거 없는 세부 사항을 추측하고 채워 넣도록 만들어 환각(hallucination)의 직접적인 원인이 됩니다.

Agentic Chunking의 재정의: 정적 분할에서 동적 오케스트레이션으로

‘Agentic Chunking’은 문서를 사전에 분할하는 새로운 기술이 아닙니다. 이는 복잡한 질문을 해결하기 위해 에이전트(Agent)가 실시간으로 검색 과정을 계획하고 조율(Orchestration)하는 동적인 접근 방식입니다. 즉, 정적으로 잘라 놓은 ‘청크(Chunk)’를 찾는 것을 넘어선 ‘지능형 정보 수집’ 과정이라고 할 수 있습니다.

이러한 패러다임 전환은 RAG의 작동 방식을 근본적으로 바꿉니다. 기존 RAG가 ‘사전에 잘라 놓은 정보 조각을 찾는 것’에 집중했다면, Agentic RAG는 ‘질문에 맞춰 필요한 정보 조각들을 동적으로 찾고, 연결하고, 검증하는 것’으로의 전환을 의미합니다. 에이전트는 복잡한 질문을 해결하기 위한 전략을 스스로 수립하고, 다양한 도구를 활용하여 필요한 증거를 체계적으로 수집합니다.


Agentic RAG의 핵심 워크플로우: Plan-Route-Act-Verify-Stop

Agentic RAG의 에이전트는 복잡한 질문을 처리하기 위해 다음과 같은 5단계의 체계적인 워크플로우를 따릅니다.

1. 계획 (Plan) 
에이전트는 먼저 복잡한 질문을 해결 가능한 여러 개의 하위 질문(sub-questions)으로 분해합니다. 예를 들어, “지난 분기에 갱신한 기업 고객 중 SSO 관련 지원 티켓을 연 고객은 누구인가?”라는 질문은 다음과 같이 분해될 수 있습니다.

  1. 1. 지난 분기에 갱신한 기업 고객 목록을 찾는다.
  2. 2. SSO 관련 지원 티켓을 생성한 고객 목록을 찾는다.
  3. 3. 두 목록을 비교하여 교차하는 고객을 식별한다.

2. 라우팅 및 실행 (Route & Act) 
분해된 각 하위 질문에 가장 적합한 도구(Tool)를 선택하여 실행합니다. 예를 들어, 고객과 계약, 지원 티켓 간의 관계를 파악해야 하는 하위 질문에는 ‘지식 그래프 검색(GraphRAG)’이 효과적입니다. 이는 단순히 유사한 텍스트를 찾는 것을 넘어, 데이터의 ‘맥락(context)’ 자체를 검색할 수 있게 해줍니다. 예를 들어, ‘A 고객이 B 제품 계약을 갱신했고, C 지원 티켓을 열었다’는 관계를 직접 조회할 수 있어 다단계 추론에 필수적입니다. 반면, 특정 날짜나 사실 관계를 확인해야 할 때는 ‘하이브리드 검색(Hybrid Search)’을 사용하여 정확한 정보를 찾습니다.

3. 검증 (Verify) 
각 단계에서 수집된 증거의 품질을 확인하고, 여러 소스에서 얻은 정보가 서로 충돌하지 않는지 검토합니다. 만약 수집된 증거가 불충분하거나 신뢰도가 낮다고 판단되면, 에이전트는 다른 도구를 사용하거나 검색 범위를 넓히는 등 추가적인 정보 수집을 시도합니다.

4. 중단 및 종합 (Stop & Synthesize) 
모든 하위 질문에 대한 충분한 증거를 수집했거나, 미리 정해진 예산(최대 도구 호출 수, 토큰 사용량 등)에 도달하면 정보 수집 과정을 중단합니다. 이후, 수집된 모든 증거들을 종합하여 최종 답변을 생성합니다. 이때 각 주장에 대한 명확한 출처(citation)를 함께 제시하여 답변의 신뢰성과 투명성을 극대화하는 것이 중요합니다.


Agentic RAG를 구동하는 핵심 기술들

Agentic RAG 워크플로우가 효과적으로 작동하기 위해서는 다음과 같은 기반 기술들이 필요합니다.

  • 지능적인 데이터 파싱 (Intelligent Data Parsing)
    Unstructured 라이브러리의 partition_pdf와 같은 도구는 PDF 문서의 레이아웃을 분석하여 텍스트와 표를 깨끗하게 분리합니다. 이를 통해 원본 문서의 구조를 보존하고, 각 요소의 의미를 잃지 않은 상태로 데이터를 처리할 수 있습니다.

  • 다중 벡터 검색 (Multi-Vector Retrieval)
    연구 논문과 같이 복잡한 문서에서 특히 유용한 이 방식은 검색 효율성과 답변 품질을 동시에 높이는 전략입니다. 검색 단계에서는 간결한 ‘요약문’의 임베딩을 사용하여 관련성 높은 후보군을 빠르게 찾고, 이후 LLM에 컨텍스트를 제공할 때는 해당 요약문에 연결된 ‘원본 전체’를 전달합니다. 이를 통해 LLM은 풍부한 맥락 속에서 정확한 답변을 생성할 수 있습니다.

  • 하이브리드 검색 (Hybrid Retrieval) 
    의미 기반의 벡터 검색(Semantic Search)과 키워드 기반의 텍스트 검색(Lexical Search, e.g., BM25)을 결합하는 방식입니다. 벡터 검색이 놓치기 쉬운 고유 명사(SKU-123)나 약어(SSO)는 텍스트 검색이 포착하고, 텍스트 검색이 파악하기 어려운 문맥적 의미(예: ‘수익성 악화 원인’)는 벡터 검색이 보완하는 상호 보완적 관계입니다. 이를 통해 의미적 맥락과 특정 용어를 모두 포착하여 검색의 정밀도와 재현율을 높일 수 있습니다.

  • 지식 그래프 검색 (GraphRAG)
    문서 내의 개체(사람, 제품, 회사 등)와 그들 사이의 관계를 그래프 형태로 모델링합니다. 벡터 검색이 특정 문서 내의 ‘지역적(local)’ 정보 조회에 강점이 있다면, 지식 그래프는 여러 문서에 흩어져 있는 사실들을 연결하여 ‘전역적(global)’ 질문이나 ‘다단계(multi-hop)’ 관계를 추론하는 데 필수적입니다. 이를 통해 단순 텍스트 검색으로는 파악하기 어려운 ‘데이터 간의 복잡한 연결성’과 ‘심층적인 맥락’을 효과적으로 검색할 수 있습니다.

  • 교정 RAG (Corrective RAG – CRAG)
    답변을 생성하기 전에, 검색된 컨텍스트가 질문에 답변하기에 충분히 유용한지 시스템이 스스로 평가하는 피드백 루프입니다. 만약 컨텍스트의 품질이 낮다고 판단되면, 시스템은 자동으로 추가 검색을 실행하여 더 나은 증거를 확보한 후 답변 생성을 진행합니다.

Agentic RAG로 더 똑똑한 AI 시스템 구축하기

이 글에서는 기존 RAG 시스템이 가진 명확한 한계점에서 출발하여, Agentic RAG가 어떻게 이러한 문제들을 해결하는지 살펴보았습니다. Agentic RAG는 정적인 정보 조각을 찾는 것을 넘어, LLM 에이전트가 동적으로 계획을 수립하고 지식 그래프, 하이브리드 검색 등 다양한 고급 기술을 조율하여 복잡한 질문에 대한 답을 찾아가는 능동적인 프로세스입니다.

Agentic RAG를 도입함으로써 우리는 다음과 같은 이점을 기대할 수 있습니다.

  • 정확도 향상: 다단계 추론이나 여러 문서에 걸친 정보 종합이 필요한 복잡한 질문에 대해 훨씬 더 정확한 답변을 제공합니다.

  • 신뢰성 및 설명 가능성 증대: 모든 답변이 어떤 증거(출처)에 기반하여 생성되었는지 명확하게 추적하고 인용(citation)을 제시할 수 있어 결과의 신뢰도를 높입니다.

결론적으로 Agentic RAG는 단순한 기술적 개선을 넘어, AI가 정보를 이해하고 활용하는 방식을 근본적으로 바꾸는 중요한 패러다임의 전환입니다. 이를 통해 우리는 더 정교하고 신뢰할 수 있으며, 비즈니스 질문의 복잡한 ‘의도’까지 파악하여 스스로 해결 전략을 수립하는 진정한 의미의 지능형 AI 시스템을 구축할 수 있을 것입니다.

RAG의 상식을 뒤엎는 4가지 놀라운 진실

RAG, 정말 거대 컨텍스트 창만 있으면 될까?

검색 증강 생성(Retrieval-Augmented Generation, RAG)은 이제 AI 분야의 핵심 기술로 확고히 자리 잡았습니다. LLM이 사전 훈련 데이터에만 의존하지 않고, 외부의 최신 정보를 바탕으로 더 정확하고 신뢰성 있는 답변을 생성하게 해주는 강력한 접근법이죠. 최근에는 Gemini, Claude 등 ‘거대 컨텍스트 창’을 자랑하는 모델들이 속속 등장하면서, 일각에서는 “이제 수많은 문서를 통째로 컨텍스트에 넣으면 되니, 복잡한 검색 과정은 필요 없어지는 것 아닌가?” 하는 기대 섞인 목소리가 나오고 있습니다.

하지만 정말 그것만으로 충분할까요? RAG의 세계는 우리가 생각하는 것보다 훨씬 더 깊고 흥미로운 비밀을 품고 있습니다. 성공적인 RAG 시스템은 단순히 컨텍스트 창 크기에 의존하는 것을 넘어, 데이터의 본질을 꿰뚫는 정교한 전략을 요구합니다. 이 글에서는 평범한 프로토타입을 넘어 운영 가능한 지능형 애플리케이션으로 RAG 시스템을 성숙시키는 여정을 함께하며, 기존 통념을 깨는 4가지 놀라운 진실을 파헤쳐 보겠습니다.


거대 컨텍스트 창이 만능 해결책은 아니다.”

모델 성능을 압도하청킹과 검색의 시너지

거대 컨텍스트 창의 등장이 검색(Retrieval)의 종말을 고할 것이라는 예측이 무성했지만, 실제 연구 결과는 정반대의 이야기를 들려줍니다. Snowflake의 금융 문서 분석 사례 연구에 따르면, 최종 답변 품질에 가장 큰 영향을 미친 것은 생성 모델(LLM) 자체의 성능이 아니라, 청킹(chunking)과 검색 전략 간의 정교한 상호작용이었습니다.

이는 매우 강력한 메시지를 전달합니다. 심지어 성능이 약간 낮은 모델이라도 우수한 검색 파이프라인과 결합하면, 빈약한 검색 시스템을 사용하는 최상위 모델을 능가할 수 있다는 것입니다.

실험 결과는 더욱 구체적인 사실을 보여줍니다. 많은 이들이 컨텍스트 창이 크니 청크(chunk) 크기도 최대한 키우는 게 좋다고 생각하지만, 이는 오히려 함정입니다. 너무 큰 청크(예: 14,400자)를 사용하면 핵심 정보가 수많은 부가 정보에 희석되어 ‘컨텍스트 혼란(context confusion)’을 야기합니다. LLM이 엉뚱한 연도의 정보를 가져오거나 비슷한 용어를 혼동하는 등의 오류를 일으키며 최종 답변의 정확도가 약 10%~20%까지 하락했습니다.

반면, 적절한 크기(예: 1,800자)의 청크를 더 많이(예: 상위 50개) 검색하여 LLM에게 제공했을 때 훨씬 더 높은 성능을 보였습니다. 즉, 무작정 많이 넣는 것보다 ‘잘’ 골라서 ‘적절히’ 넣는 영리한 전략이 훨씬 중요하다는 것입니다. 검색의 중요성이 여전하다면, 이제 우리는 어떻게 더 ‘잘’ 검색할 수 있을지 고민해야 합니다.


문서는 ‘텍스트’가 전부가 아니다.”

페이지 전체를 이미지로 ‘보는’ 새로운 접근법

검색이 핵심이라면, 우리는 과연 문서의 정보를 올바르게 검색하고 있을까요? 기존 RAG 시스템은 문서를 단순한 텍스트의 나열로 취급하는 근본적인 한계를 가집니다. 하지만 금융 보고서, 연구 논문, 기술 매뉴얼을 떠올려 보십시오. 복잡한 표, 그래프, 다이어그램, 그리고 이 모든 것을 아우르는 페이지 레이아웃 자체가 중요한 정보를 담고 있습니다. 기존 방식은 이 모든 시각적 맥락을 놓치고 맙니다.

이러한 한계를 극복하기 위해 ColPali라는 혁신적인 접근법이 등장했습니다. 이 방법은 OCR, 텍스트 추출, 레이아웃 분석과 같은 복잡하고 오류가 발생하기 쉬운 파이프라인을 완전히 생략합니다. 대신, 문서 페이지를 통째로 하나의 ‘이미지’로 취급합니다.

이는 RAG의 패러다임을 “추출한 것을 검색하는 것(What you extract is what you search)”에서 “보는 것을 검색하는 것(What you see is what you search)”으로 전환시킵니다. 그 작동 원리는 비전-언어 모델(VLM, Vision Language Model)이 페이지 이미지를 32×32 격자와 같은 작은 패치(patch)들의 그리드로 처리하는 데 있습니다. 모델은 각 패치에 대해 주변의 시각적, 텍스트적 맥락을 모두 이해하는 임베딩을 생성하여 페이지의 공간적, 구조적 정보를 벡터에 그대로 보존합니다. 덕분에 표의 구조나 그래프의 추세 같은 정보가 임베딩에 녹아들어, 시각적으로 복잡한 문서에서 기존 텍스트 기반 RAG는 절대 따라올 수 없는 강력한 성능을 발휘합니다.


모든 것을 임베딩하는 것이 최선은 아니다.”

‘요약’으로 검색하고, ‘원본’으로 답하다

이제 우리는 문서의 시각적 구조까지 이해하게 되었습니다. 하지만 검색을 위해 모든 정보를 하나의 벡터로 압축하는 것이 항상 최선일까요? 일반적인 RAG에서는 문서의 원본 청크를 그대로 임베딩하여 검색에 사용합니다. 하지만 수십 개의 행과 열로 이루어진 복잡한 표나 여러 주제를 담고 있는 긴 텍스트 블록을 하나의 벡터로 압축하면 핵심 의미는 희석되고 ‘노이즈가 많은’ 벡터가 생성됩니다. 이는 결국 검색 성능을 심각하게 저하시키는 원인이 됩니다.

이 문제에 대한 우아한 해결책이 바로 ‘다중 벡터 리트리버(multi-vector retriever)’ 기법입니다. 이 기법의 핵심 아이디어는 검색 단계와 생성 단계에 사용하는 데이터의 형태를 분리하는 것입니다.

  • 검색 단계: 원본 텍스트 청크나 표의 ‘간결한 요약’을 LLM을 통해 생성하거나, 또는 내용을 대표하는 가상 질문 같은 다른 대표 벡터를 만들어 냅니다. 검색 시에는 바로 이 ‘요약 임베딩’을 사용해 가장 관련성 높은 문서 조각을 찾습니다.

  • 생성 단계: 요약본을 통해 가장 관련성 높은 원본 문서의 ID를 찾았다면, 벡터 저장소가 아닌 별도의 문서 저장소(docstore)에서 해당 ID를 가진 ‘온전한 원본(full, raw)’ 텍스트나 표를 가져옵니다. 그리고 이 완전한 원본 데이터를 LLM에게 전달하여 최종 답변을 생성하게 합니다.

이 방식은 검색에 최적화된 간결한 벡터로 정확성을 높이고, 답변 생성에는 풍부한 원본 정보를 제공하여 품질을 높이는, 두 마리 토끼를 모두 잡는 효과적인 전략입니다. 특히 다양한 형식이 섞인 반정형(semi-structured) 데이터를 다룰 때 그 진가가 드러납니다.


“의미론적 검색만으로는 부족하다.”

‘키워드’와 ‘관계’를 더하여 완성도를 높여라

지금까지 우리는 검색할 정보의 ‘형태’를 최적화했습니다. 하지만 검색 ‘방식’ 자체는 어떨까요? 벡터 기반의 의미론적 검색(semantic search)은 RAG의 심장이지만, 실제 운영 환경의 복잡한 질문에 답하기엔 그것만으로 부족할 때가 많습니다.

  • 하이브리드 검색 (Hybrid Search): 의미론적 검색은 ‘SSO’, ‘SKU-123’과 같은 드문 약어나 특정 제품 ID를 놓치는 경향이 있습니다. 왜냐하면 이런 용어들은 문서 전체에서 등장 빈도가 낮아, 벡터 공간에서 그 중요성이 제대로 표현되지 않기 때문입니다. 이를 해결하기 위해 전통적인 키워드 기반 검색(lexical search, 예: BM25)을 결합하는 ‘하이브리드 검색’이 필수적입니다. 키워드 검색으로 정확한 용어를 잡아내고, 의미론적 검색으로 문맥적 유사성을 파악하여 두 결과를 결합하면 검색의 완성도를 극적으로 높일 수 있습니다.

  • 지식 그래프 RAG (GraphRAG): 벡터 검색은 유사한 텍스트 조각을 찾는 ‘지역적 조회(local lookup)’에는 강하지만, 여러 문서에 흩어진 정보를 연결하고 다단계 추론이 필요한 ‘전체적 질문(global question)’에는 무력합니다. 예를 들어 다음과 같은 질문을 생각해 봅시다.

“지난 분기에 계약을 갱신한 기업 고객 중 SSO 관련 지원 티켓을 연 고객은 누구인가?”

이 질문에 답하려면 유사한 텍스트 조각을 찾는 것을 넘어, ‘고객’, ‘계약 갱신’, ‘지원 티켓’이라는 개체(entity)들 사이의 관계를 파악해야 합니다. 바로 이 지점에서 데이터셋 전체에 걸친 관계망을 탐색하는 지식 그래프(Knowledge Graph)가 강력한 힘을 발휘합니다. GraphRAG는 텍스트가 아닌 ‘관계’ 자체를 탐색하여, 기존 RAG로는 불가능했던 복잡한 분석적 질문에 대한 답을 찾아냅니다.


RAG, 더 깊게 이해하고 현명하게 활용하기

우리는 RAG 시스템을 한 단계 성숙시키기 위한 4가지 핵심 전략을 탐험했습니다.

  1. 거대 컨텍스트 창에만 의존하지 마십시오.
    청킹과 검색 전략의 시너지가 모델 자체의 성능보다 더 중요할 수 있습니다.

  2. 문서의 시각적 구조를 활용하십시오.
    텍스트를 넘어 이미지로 문서를 ‘보는’ 접근법은 숨겨진 맥락을 찾아줍니다.

  3. 전략적으로 요약과 원본을 분리하여 임베딩하십시오.
    검색 효율과 답변 품질을 동시에 잡을 수 있습니다.

  4. 의미론적 검색을 키워드 및 그래프로 보완하십시오.
    지역적 검색과 전체적 검색을 결합하여 질문의 깊이를 더하십시오.

결론적으로, 최고의 RAG 시스템은 단순히 최신, 최대의 모델을 사용하는 데서 비롯되지 않습니다. 우리가 다루고자 하는 데이터의 본질을 깊이 이해하고, 그 특성에 맞는 다각적이고 창의적인 전략을 구사하는 데서 진정한 성능 향상이 이루어집니다.

Titan의 ‘테스트 타임 학습’ 혁명 파헤치기

건망증에 걸린 천재 AI들

시를 쓰고 코드를 짜는 천재 AI 모델들이 사실은 방금 나눈 대화조차 잊어버리는 ‘심각한 건망증(Profoundly Amnesic)’에 걸려있다는 사실을 아시나요? 이 역설은 현재 초거대 AI 모델들이 가진 본질적인 한계입니다. 아무리 많은 정보를 한 번에 입력 받아도, 그 기억은 대화가 끝나면 사라지는 휘발성 정보에 불과합니다.

이 문제에 대한 해답은 놀랍게도 순수한 컴퓨터 공학이 아닌, 인간의 ‘뇌’와 ‘인지과학’에서 영감을 받은 Google의 ‘Titan’ 아키텍처에서 나왔습니다. 그리고 그 결과는 충격적이었습니다. 170M(1억 7천만) 파라미터에 불과한 소형 Titan 모델이, 장기 기억 추론 능력을 평가하는 BABILong 벤치마크에서 수조 개의 파라미터를 가진 GPT-4를 능가하는 ‘다윗과 골리앗’의 싸움을 증명해 보였습니다. Titan은 AI가 정보를 기억하고 학습하는 방식 자체를 근본적으로 바꾸는 혁명을 제안합니다.

이 글에서는 다음과 같은 핵심 질문들을 통해 Titan의 혁신을 파헤쳐 보겠습니다.

  • Test-time 학습이란 무엇인가?
  • 기존 모델의 기억 방식과 무엇이 다른가?
  • 뇌를 모방한 심층 신경망 메모리의 동작 원리
  • ‘놀라움(Surprise)’을 통해 기억을 업데이트하는 방법

1. Test-Time 추론이란 무엇인가?: AI가 대화하며 성장하는 시대

‘테스트 타임 학습(Test-Time Training, TTT)’은 기존 AI 개발의 ‘학습 → 동결 → 배포’라는 고정된 패러다임을 완전히 뒤집는 개념입니다. 지금까지의 모델은 한번 배포되면 지능이 변하지 않았지만, Titan은 사용자와 상호작용하는 ‘추론(Test) 시점’에도 모델이 계속해서 학습하고 진화합니다.

Titan의 핵심 철학은 “기억은 데이터가 아니라, 파라미터의 변화다” 라는 한 문장으로 요약됩니다. 기존 모델과 Titan의 차이는 다음과 같은 비유로 명확히 설명할 수 있습니다.

  • 기존 모델: 대화 내용을 ‘노트’에 받아 적는 방식입니다. 모든 내용을 그대로 저장하기에 정확하지만, 노트가 꽉 차면(Context Window 한계) 더 이상 쓸 수 없습니다.

  • Titan 모델: 대화 내용을 이해해서 ‘뇌의 지식’으로 만드는 방식입니다. 정보가 들어올 때마다 뇌의 시냅스 연결(가중치)이 변하는 것이므로, 용량 제한 없이 정보를 압축하고 축적할 수 있습니다.

2. 기존 모델과의 근본적인 차이점: 기억을 다루는 세 가지 방식

AI가 과거 정보를 기억하는 방식은 Google이 제시한 MIRAS (Memorization, Information Retrieval, and Associative Systems) 프레임워크를 통해 명확히 분류할 수 있습니다. MIRAS는 ‘기억’을 단순히 데이터를 저장하는 문제가 아니라, 손실 함수를 최소화하는 최적화(Optimization) 문제로 재정의합니다. 이 관점에서 세 가지 대표 모델을 ‘시험공부하는 학생’에 비유하면 그 차이점이 극명해집니다.

  • 트랜스포머 (Transformer): “오픈북 테스트” 교과서 전체를 펼쳐놓고 답을 찾는 방식입니다. 펼쳐놓은 교과서는 바로 KV Cache이며, 책 내용 그대로이니 정확합니다. 하지만 책이 두꺼워질수록(데이터가 많아질수록) 책상이 모자라고(메모리 폭발) 답을 찾는 데 오래 걸립니다. 이를 MIRAS는 ‘비모수적(Non-parametric) 연관 기억’이라고 부릅니다.

  • RNN/SSM: “요약 노트 한 장” 모든 내용을 작은 쪽지 하나에 계속 덮어쓰며 요약하는 방식입니다. 이 쪽지는 고정된 크기의 상태 벡터(Hidden State)이며, 가볍고 빨라서 효율적입니다. 하지만 옛날 내용은 뭉개져서 사라져 버리는 정보 손실이 발생합니다. 이를 ‘손실(Lossy) 연관 기억’이라고 합니다.

  • Titan: “완벽한 암기왕” 교과서 내용을 완전히 이해하고 암기하여 자기 지식으로 만드는 방식입니다. 책을 들고 다닐 필요도 없이, 학습된 뇌, 즉 메모리 모듈의 학습 가능한 파라미터에서 바로 정답이 튀어나옵니다. 정확하면서도 가볍고 효율적입니다. 이를 ‘모수적(Parametric) 연관 기억’이라고 부릅니다.

세 가지 기억 방식의 차이점은 아래 표와 같습니다.


3. Titan의 심장: 뇌를 모방한 심층 신경망 메모리

3.1. 구현 방법: 뇌를 닮은 3중 기억 시스템

Titan 아키텍처의 핵심은 인간의 인지 시스템을 모방한 세 가지 분리된 메모리 모듈에 있습니다.

  • Core (어텐션 / 작업 기억): 현재 작업에 즉각적으로 집중합니다. 우리가 대화할 때 방금 들은 단어와 문장을 처리하는 작업 기억(Working Memory)과 같습니다.

  • Neural Long-term Memory (LMM / 장기 기억): 실시간으로 변하는 경험과 대화 내용을 자신의 파라미터에 압축 저장합니다. 이는 새로운 경험을 빠르게 기록하는 뇌의 해마(Hippocampus)와 유사합니다.

  • Persistent Memory (영구 기억): 언어 규칙, 기본 상식 등 사전 학습된 후 변하지 않는 지식을 담고 있습니다. 이는 뇌의 대뇌피질(Neocortex)에 저장된 의미 기억과 같습니다.

이 복잡한 3중 구조는 운영 관점에서 두 가지 역할로 단순화할 수 있습니다. 이는 “유능하지만 지식은 고정된 교수님”과 “실시간으로 노트를 필기하며 성장하는 조교”의 협업과 같습니다.

  • Frozen Main Brain (고정된 주 두뇌):
    • 정체: Core와 Persistent Memory 모듈이 합쳐진 부분으로, 일반적인 Transformer 모델과 유사합니다.
    • 상태: 동결됨 (Frozen). 사전 학습 후 파라미터가 변하지 않습니다.
    • 역할: 언어를 이해하고 추론하며, 가장 중요하게는 LMM에 “이거 외워!”라고 명령을 내리는 관리자 역할을 합니다.

  • Fluid Memory Module (유동적인 기억 저장소):
    • 정체: Neural Long-term Memory (LMM)에 해당하는 작고 단순한 MLP 신경망입니다.
    • 상태: 계속 변함 (Fluid). 추론 중에도 실시간으로 파라미터가 업데이트됩니다.
    • 역할: 과거의 정보를 자신의 가중치에 압축하여 저장하는 ‘살아있는 메모리’입니다.

3.2. 동작 원리 및 인지과학과의 유사점

이 시스템은 크게 ‘읽기(Recall)’와 ‘쓰기(Memorize)’ 두 단계로 작동합니다. 새로운 정보가 들어오면, 주 두뇌는 먼저 LMM에 저장된 과거 기억을 ‘읽어서’ 현재 정보와 종합해 답변을 생성합니다.

그 후 ‘쓰기’ 단계가 진행됩니다. 이때 주 두뇌는 방금 들어온 정보가 얼마나 예상 밖이었는지, 즉 ‘놀라움(Surprise)’의 정도를 측정합니다. 만약 놀라움이 크다면, 주 두뇌는 LMM의 파라미터를 크게 업데이트하도록 명령합니다. 이 과정은 인간의 뇌에서 놀라운 사건이 발생했을 때 ‘노르아드레날린’이 분비되어 기억을 강하게 각인시키는 원리와 놀랍도록 유사합니다.


4. 살아있는 파라미터: 테스트 타임에 학습된 기억의 관리

테스트 타임 학습의 결과로, ‘메모리 파라미터’는 고정되지 않고 사용자와의 상호작용에 따라 여러 버전으로 갈라질 수 있습니다. Titan의 해법은 ‘플러그 앤 플레이(Plug & Play)’ 방식입니다. 거대한 본체 모델은 서버에 하나만 두고, 사용자별 또는 주제별로 작게 분리된 ‘메모리 모듈의 가중치’만 파일처럼 저장하고 불러와서 교체하는 것입니다.

이는 기존의 RAG(검색 증강 생성) 방식과 근본적인 차이를 보입니다.

  • RAG: 내 하드디스크에 PDF 파일들을 폴더별로 정리해 두는 것.
  • Titans: 내 AI에게 끼워줄 ‘관심사별 뇌 조각(메모리 칩)’을 서랍에 정리해 두는 것.

5. ‘놀라움(Surprise)’이 기억을 만드는 원리

정답지가 없는 추론 상황에서 어떻게 학습이 가능할까요? 그 해답은 ‘자가 지도 학습(Self-Supervised Learning)’ 원리에 있습니다. 언어 모델의 세계에서는 “다음에 올 단어가 곧 정답지”가 됩니다.

‘놀라움 지표(Surprise Metric)’는 기술적으로 손실 함수의 기울기(Gradient of Loss)를 의미하며, 이는 모델의 ‘예측과 실제의 차이’를 나타냅니다. 파라미터 업데이트는 이 놀라움의 크기에 따라 두 가지 경우로 나뉩니다.

  • Case A (뻔한 내용): 모델의 예측(“나는 학교에”)이 실제 입력(“간다”)과 거의 일치합니다. 이때 놀라움(오차)은 거의 0에 가까워 파라미터는 변하지 않습니다. 이는 “이미 아는 내용은 기억할 필요 없다”는 효율적인 기억 관리 방식입니다.

  • Case B (새로운 정보): 모델이 전혀 예상치 못한 정보(“나는 학교에 갑자기 춤을 추는 고양이”)가 들어옵니다. 예측이 실제와 크게 다르므로 놀라움(오차)이 커지고, 파라미터는 크게 변합니다. 이는 “몰랐던 정보는 뇌리에 강하게 새긴다”는 원리를 구현한 것입니다.

혹시 “아무말 대잔치” 같은 쓸모없는 정보가 들어와 메모리가 오염될 수 있다는 우려가 있을 수 있습니다. 하지만 Titan은 방어 기제를 갖추고 있습니다. 입력된 정보가 문맥에 맞지 않으면 주 두뇌가 게이트를 닫아 업데이트를 막거나, 수학적 패턴이 없는 순수한 노이즈는 학습되기 어려워 자연스럽게 걸러집니다.

하지만 Titan에도 한계는 존재합니다. 인지과학의 상보적 학습 시스템(Complementary Learning Systems, CLS) 이론에 따르면, 인간의 진정한 학습은 빠른 기억을 담당하는 ‘해마’와 느리게 지식을 구조화하는 ‘대뇌피질’의 상호작용으로 이루어집니다. Titan처럼 기억 모듈(해마)만 계속 변하고 주 두뇌(대뇌피질)가 고정되어 있다면, 진정한 의미의 ‘이해’나 ‘지식의 일반화’에는 한계가 있을 수 있다는 점은 앞으로 해결해야 할 과제입니다.


진정한 의미의 ‘학습하는 기계’를 향하여

Titan이 제시한 패러다임은 AI가 더 이상 ‘공장에서 찍어낸 고정된 제품’이 아니라, 사용자와 함께 상호작용하며 성장하는 ‘유기체적 소프트웨어’가 될 것임을 예고합니다. 사용자와의 대화 하나하나가 모델의 뇌 구조를 미세하게 바꾸며, 쓸수록 더 똑똑해지는 진정한 의미의 ‘학습하는 기계’가 탄생하는 것입니다.

Titan의 한계를 보완한 후속 연구 ‘Atlas’는 고차원 특징 매핑을 통해 메모리 포화 문제를 해결하는 등, 이 기술은 이미 빠르게 진화하고 있습니다. 이는 단순히 컨텍스트 창을 늘리는 기술적 개선을 넘어, AI가 정보를 기억하고, 학습하고, 진화하는 방식 자체를 근본적으로 바꾼 혁명이라 할 수 있습니다. 우리는 이제 막 기억 상실을 끝낸 AI와 함께 새로운 시대를 맞이하고 있습니다.