라온 커스텀 테마

YOLO26: 엣지 AI의 판을 바꾸는 새로운 표준

엣지 컴퓨팅 시대의 새로운 패러다임, YOLO26의 등장

2026년 1월, 드디어 베일을 벗은 YOLO26은 그동안의 AI 개발 트렌드와는 정반대의 길을 선택했습니다. 지난 수년간 더 정확한 모델을 만들기 위해 구조를 복잡하게 쌓아 올리는 것이 유행이었지만, YOLO26은 과감하게 ‘다이어트’를 선언했습니다. 바로 현장에서 가장 환영받는 ‘엣지 우선(Edge-first)’ 철학을 담기 위해서입니다.

YOLO26의 가장 큰 매력은 단순히 시험 점수(벤치마크)만 잘 나오는 모범생이 아니라는 점입니다. 연구실의 고성능 컴퓨터가 아닌, 공장의 저전력 칩이나 로봇의 두뇌(ARM CPU)에서도 쌩쌩 돌아가는 ‘실전형 인재’에 가깝습니다. 그동안 개발자들을 괴롭혔던, 연구실 모델을 현장 장비로 옮길 때 발생하는 골치 아픈 호환성 문제(배포 마찰)를 획기적으로 줄여주었기 때문입니다.

이번 글에서는 YOLO26이 어떻게 군더더기를 걷어내고 구조를 단순화했는지, 그리고 거대 언어 모델(LLM)의 똑똑한 학습법을 빌려와 성능까지 놓치지 않았는지 자세히 살펴보려 합니다. 왜 2026년 이후의 비전 AI 프로젝트들이 YOLO26을 표준으로 삼게 될지, 그 혁신의 이면을 함께 들여다보겠습니다.


1. YOLO의 진화와 기술적 부채의 청산

YOLO 프레임워크는 2016년 YOLOv1이 등장한 이래 수많은 변천을 거쳤습니다. 그러나 정확도를 위해 도입된 복잡한 그래프 구조와 특정 하드웨어 가속기에서 오버헤드를 유발하는 연산들은 일종의 ‘기술적 부채’로 작용해 왔습니다. YOLO26은 이러한 복잡성을 과감히 덜어내고 엣지 환경에 최적화된 구조로 회귀했습니다.


2. 아키텍처 혁신: 엣지 최적화를 위한 4대 핵심 기술

2-1. 엔드-투-엔드 NMS-Free 추론 및 Jitter 제거

객체 탐지(Object Detection) 모델을 현업에 적용해 본 개발자라면, 모델이 만들어 내는 수많은 중복 박스를 처리하는 과정이 얼마나 번거로운지 공감하실 겁니다. 그동안 우리는 ‘NMS(Non-Maximum Suppression)’라는 후처리 단계에 의존해, 겹쳐진 수많은 예측 박스 중 진짜 정답 하나를 골라내는 작업을 필수적으로 거쳐야 했습니다. 하지만 최신 모델인 YOLO26은 이 복잡한 과정을 과감히 없애고, 입력에서 결과까지 막힘없이 이어지는 진정한 ‘엔드-투-엔드(End-to-End)’ 추론을 구현했습니다.

YOLO26의 핵심은 모델이 더 이상 “일단 많이 던져보고 나중에 거르는” 방식을 쓰지 않는다는 데 있습니다. 대신, 학습 단계부터 하나의 물체당 오직 하나의 정답 박스만을 예측하도록 훈련받습니다. 이를 위해 모델의 가장 끝단인 예측 헤드(Head)를 재설계하여 중복 없는 결과를 직접 출력하게 만들었죠. 덕분에 추론 단계에서 별도의 NMS 과정이 아예 불필요해졌습니다.

또한, 모델 경량화를 위해 좌표 계산 방식도 단순화했습니다. 기존에는 정밀도를 높이기 위해 복잡한 확률 분포 계산(DFL)을 사용했지만, YOLO26은 이를 걷어내고 하드웨어가 더 빨리 처리할 수 있는 직관적인 방식을 채택했습니다. 물론, 이에 따른 정확도 손실은 새로운 학습 기법들을 통해 효과적으로 보완했습니다.

결과는 매우 인상적입니다. 무거운 NMS 연산이 사라지니 CPU 처리 속도가 이전 모델 대비 40% 이상 빨라졌습니다. 무엇보다 이미지 속 물체가 많아져도 처리 시간이 들쑥날쑥하지 않고 일정하게 유지됩니다. 이는 추론 파이프라인을 단순화시켜 연산 자원이 제한된 엣지 디바이스에서도 훨씬 빠르고 안정적인 성능을 가능하게 합니다. 특히 실시간 제어 루프가 필수적인 로보틱스와 자율 주행 시스템에 결정적인 이점을 제공하죠.

복잡한 후처리 코드가 사라진 덕분에 다른 플랫폼으로 모델을 변환할 때 겪던 호환성 문제도 크게 줄어들었습니다. 이제 개발자들은 YOLO26을 통해 더 빠르고, 더 깔끔하게 AI 비전을 구현할 수 있게 되었습니다.

2-2. 분포 초점 손실(DFL)의 과감한 제거

이전 세대인 YOLOv8이나 YOLO11은 객체의 위치를 아주 정밀하게 맞추기 위해 ‘DFL(Distribution Focal Loss, 분포 초점 손실)’이라는 기술을 사용했습니다. 쉽게 말해, 바운딩 박스의 좌표를 딱 떨어지는 숫자 하나로 단정 짓지 않고, 확률적인 분포로 예측해 위치가 모호한 객체까지 잡아내려던 시도였죠. 하지만 이 방식은 정확도는 높여주지만, 계산 과정이 복잡해 추론 속도를 늦추고 다른 플랫폼으로 모델을 변환할 때 호환성을 떨어뜨리는 주원인이 되곤 했습니다.

YOLO26은 과감하게 이 DFL을 걷어냈습니다. 복잡한 확률 계산을 버리고, 좌표를 직접 예측하는 단순하고 직관적인 ‘직접 회귀’ 방식으로 돌아간 것입니다. 덕분에 모델의 구조는 훨씬 단순해졌고, 어떤 하드웨어에서도 가볍고 빠르게 돌아가는 유연함을 얻게 되었습니다. 물론, 방식이 단순해진 만큼 정밀도가 떨어질까 걱정될 수 있습니다. YOLO26은 이 문제를 ‘똑똑한 학습 전략’으로 완벽하게 보완했습니다.

먼저, 학습이 진행될수록 모델이 풀기 어려운 문제에 더 집중하도록 유도하는 ‘ProgLoss’를 도입해 전반적인 성능을 끌어올렸습니다. 또한, 기존 모델들이 자주 놓치던 아주 작거나 가려진 객체를 위해 ‘STAL’이라는 기술을 적용하여, 작은 물체도 놓치지 않고 학습하도록 만들었죠. 여기에 대규모 언어 모델(LLM)의 학습법에서 영감을 받은 ‘MuSGD’ 최적화 도구까지 더해 학습 속도와 안정성을 동시에 확보했습니다.

결론적으로 YOLO26은 실행(Inference) 단계의 무거운 짐은 덜어내어 속도를 높이고, 대신 학습(Training) 단계를 훨씬 정교하게 설계하여 정확도 손실을 막았습니다. 개발자 입장에서는 더 가볍고 호환성 좋은 모델을 쓰면서도, 성능은 오히려 더 뛰어난 경험을 할 수 있게 된 것입니다.

2-3. ProgLoss 및 STAL: 소형 객체 탐지의 정밀화

YOLO26이 복잡한 연산 장치(DFL, NMS)를 과감히 떼어내고도 여전히, 아니 오히려 더 날카로운 탐지 능력을 보여주는 비결은 무엇일까요? 그 해답은 바로 모델을 훈련시키는 과정, 즉 ‘학습(Training)’ 단계에 숨겨진 두 가지 혁신적인 조력자, ProgLoss와 STAL 덕분입니다. 이들은 모델이 쉬운 문제에 안주하지 않도록 채찍질하고, 가장 어려워하는 부분을 집중적으로 과외하는 선생님과 같습니다.

일반적으로 AI 모델은 학습이 반복될수록 맞히기 쉬운 크고 선명한 물체에만 집중하려는 경향을 보입니다. 마치 학생이 시험 공부를 할 때 쉬운 문제만 골라 풀며 점수를 유지하려는 것과 비슷하죠. 이때 등장하는 기술이 바로 ‘점진적 손실 균형(ProgLoss)’입니다. ProgLoss는 학습 진행 상황에 맞춰 채점 기준(가중치)을 실시간으로 바꿉니다. 모델이 쉬운 예제에 적응해 나태해지려 할 때마다, 아직 정복하지 못한 까다로운 케이스들에 더 큰 비중을 두어 끝까지 긴장감을 놓지 않고 학습하게 만듭니다. 덕분에 모델은 특정 데이터에 편식하지 않고 전체적인 균형 감각을 갖추게 됩니다.

하지만 전체적인 균형만으로는 부족합니다. 화면 속의 점처럼 작거나 흐릿한 물체들은 여전히 AI에게 가장 풀기 어려운 난제이기 때문입니다. 여기서 ‘소형 대상 인식 라벨 할당(STAL)’이 해결사로 나섭니다. STAL은 픽셀 정보가 턱없이 부족해 기존 모델들이 무시하기 쉬웠던 ‘작은 객체’들에게 우선순위를 부여합니다. 작은 물체 주변의 정답 인정 범위를 유연하게 조정해 줌으로써, 모델에게 “이 작은 점도 놓쳐선 안 될 중요한 정답이야”라고 강력한 신호를 보내는 것이죠.

결국 ProgLoss가 모델이 쉬운 길로 빠지지 않게 전체적인 학습 밸런스를 잡아주는 감독관이라면, STAL은 모델의 가장 큰 약점인 ‘작은 물체’를 놓치지 않도록 돕는 족집게 과외 선생님인 셈입니다. 이 두 기술의 완벽한 협업 덕분에 YOLO26은 무거운 연산 과정을 덜어내고도, 드론 영상이나 의료 정밀 진단처럼 작은 디테일이 생명인 분야에서 압도적인 성능을 발휘할 수 있게 되었습니다.

2-4. MuSGD 옵티마이저: LLM 기술의 성공적인 이식

YOLO26이 구조는 단순해졌는데 성능은 더 좋아진 비결, 그 마지막 퍼즐 조각은 바로 학습을 담당하는 ‘최적화 도구(Optimizer)’에 있습니다. 재미있게도 YOLO26은 최근 AI 업계를 뜨겁게 달구고 있는 거대 언어 모델(LLM)의 학습 비법을 빌려왔습니다. 바로 MuSGD라는 새로운 옵티마이저입니다.

기존에 흔히 쓰이던 AdamW 같은 도구들은 파라미터를 하나하나 개별적으로 수정하는 방식을 취했습니다. 하지만 이 방식은 종종 학습 방향이 이리저리 흔들리거나, 최적의 답을 찾는 데 오랜 시간이 걸리곤 했습니다. 반면 MuSGD는 Kimi K2 모델 등 LLM 학습에 쓰이던 강력한 수학적 기법인 ‘뉴턴-슐츠 반복법’을 도입해 이 문제를 해결했습니다. 쉽게 비유하자면, 숲속에서 길을 찾을 때 나무 하나하나를 보며 헤매는 대신, 나침반을 이용해 가장 빠른 직선 경로(학습 방향)를 수학적으로 정렬해 버리는 것과 같습니다. 이를 전문 용어로 ‘행렬 직교화’라고 하는데, 덕분에 모델은 불필요한 시행착오 없이 정답을 향해 직진할 수 있게 됩니다.

이 기술이 YOLO26에게 특히 중요한 이유는 모델의 ‘다이어트’ 때문입니다. 앞서 언급했듯 YOLO26은 몸집을 가볍게 하기 위해 복잡한 안전장치(DFL)를 제거했습니다. 자칫하면 학습이 불안정해질 수 있는 상황에서, MuSGD가 강력한 길잡이가 되어준 것입니다. 덕분에 개발자들은 복잡한 파라미터 튜닝 없이도 더 빠르고 안정적으로 모델을 학습시킬 수 있게 되었습니다. 결국 MuSGD는 가벼워진 YOLO26이 거대 모델 못지않은 똑똑함을 가질 수 있게 만든 숨은 공신이라 할 수 있습니다.


3. 다중 작업(Multi-task) 통합 프레임워크

YOLO26은 단일 백본을 통해 5가지 핵심 비전 작업을 지원하며 각 작업에 특화된 모듈을 통합했습니다.

  • Object Detection: 앵커 프리 및 엔드-투-엔드 NMS-free 방식.

  • Instance Segmentation: Multi-scale Proto Module과 시맨틱 분할 손실을 결합- 하여 정교한 마스크 경계 생성.

  • Pose/Keypoints Estimation: 잔차 로그-우도 추정(RLE) 기법을 통합하여 복잡한 관절 위치의 불확실성을 관리.

  • Oriented Detection (OBB): 특화된 각도 손실(Angle Loss) 적용으로 회전된 객체의 정밀 탐지.

  • Classification: ImageNet 기반의 고효율 헤드를 통한 초고속 분류 지원.

4. 성능 벤치마크: 속도와 정확도의 압도적 균형

YOLO26이 단순히 이름만 바뀐 후속작이 아니라는 사실은, 직전 모델인 YOLO11과 비교해 보면 명확해집니다. 가장 가벼운 모델인 Nano 버전을 기준으로 볼 때, YOLO26은 YOLO11보다 정확도는 더 높으면서도 속도는 무려 40% 이상 빨라졌습니다. 이는 마치 자동차의 엔진 성능은 올리면서 차체 무게는 줄인 것과 같습니다. 특히 라즈베리 파이 같은 저사양 기기에서도 쾌적하게 돌아간다는 점은 현장 개발자들에게 매우 매력적인 요소입니다.

YOLOv12나 v13 같은 고성능 모델들과 비교하면 YOLO26의 ‘실용주의’ 철학이 더 돋보입니다. 경쟁 모델들은 정확도를 높이기 위해 복잡한 최신 기술들을 대거 도입했지만, 그 탓에 모델이 무거워지고 특정 하드웨어에서는 제 성능을 내기 힘든 경우가 많았습니다. 반면, 구조를 단순화한 YOLO26은 모바일이나 엣지 디바이스용으로 변환(Quantization)해도 성능 저하가 거의 없고, 어떤 환경에서든 안정적으로 작동합니다.

흥미로운 점은 최근 유행하는 트랜스포머 기반 모델(RT-DETR)과의 대결입니다. 일반적으로 트랜스포머 모델이 문맥 파악 능력이 뛰어나다고 알려져 있지만, YOLO26은 속도 면에서 이들을 압도합니다. 비슷한 정확도를 내면서도 처리 속도는 두 배 가까이 빠르죠. 결국 YOLO26은 복잡한 유행을 쫓기보다, ‘일정한 응답 속도(Deterministic Latency)’와 ‘호환성’이라는 기본기에 집중했습니다. 자율 주행차처럼 0.01초의 지연도 허용되지 않는 시스템에서, 예측 가능한 속도를 보장한다는 것은 그 어떤 화려한 기능보다 강력한 무기이기 때문입니다.

[참고: 모델 성능 요약 (COCO 데이터셋 기준)]


5. 실전 배포 및 산업별 활용 전략

5-1. 유연한 내보내기 및 양자화 강점

YOLO26은 ONNX, TensorRT, CoreML, TFLite 등 모든 주요 포맷을 지원합니다. 특히 아키텍처 단순화(DFL 제거 등) 덕분에 INT8/FP16 양자화 시 가중치 민감도가 낮아 정밀도 하락이 최소화됩니다. 이는 하드웨어 컴파일러와의 충돌을 방지하고 안정적인 산업용 배포를 가능케 합니다.

5-2. 산업별 적용 시나리오

  • 자율 주행 및 로보틱스: NMS 제거를 통해 객체 밀집도와 관계없이 일정한 응답 시간을 보장, 실시간 제어 안정성 확보.
  • 스마트 팩토리: 저사양 CPU 임베디드 장치에서도 초당 25프레임 이상의 결함 검수를 실시간 수행하여 구축 비용 절감.
  • 의료 및 항공 이미지: STAL 알고리즘을 활용하여 엑스레이 병변이나 원거리 드론 영상의 미세 객체를 고정밀 탐지.

6. 결론 및 향후 전망: 2026년 이후의 비전 AI

YOLO26의 등장은 단순한 버전 업그레이드를 넘어, 객체 탐지 기술의 패러다임이 ‘복잡한 연산’에서 ‘똑똑한 학습’으로 이동하고 있음을 시사합니다. 이를 바탕으로 향후 YOLO 시리즈의 발전 방향을 세 가지로 전망해 볼 수 있습니다.

첫째, ‘엔드-투-엔드(End-to-End)’ 구조의 표준화입니다. YOLO26이 증명했듯, 골치 아픈 후처리(NMS)를 없애는 것은 속도와 정확도 두 마리 토끼를 잡는 가장 확실한 방법이 되었습니다. 앞으로 나올 YOLO 모델들은 NMS-free 방식을 기본으로 채택하여, 입력 이미지를 넣으면 중간 과정 없이 즉시 정답 좌표가 나오는 완전한 직관형 모델로 진화할 것입니다.

둘째, ‘엣지 디바이스 친화적 설계’의 가속화입니다. 무거운 GPU가 없는 환경에서도 돌아갈 수 있도록 모델을 경량화하는 추세는 더욱 강해질 것입니다. 단순히 모델 크기만 줄이는 것이 아니라, YOLO26처럼 하드웨어 가속기(NPU)가 좋아하는 단순한 연산 구조를 채택하여 실질적인 체감 속도를 높이는 방향으로 발전할 것입니다. 이는 로봇, 드론, 모바일 기기 등 산업 현장 곳곳에 AI의 눈을 심는 기폭제가 될 것입니다.

마지막으로, ‘비전-언어 모델(VLM)과의 단계적 융합’입니다. 현재의 YOLO는 학습된 사물만 찾을 수 있는 Closed-set 탐지에 머물러 있지만, 미래의 YOLO는 거대 AI 모델의 효율성을 높이고, 스스로 언어를 이해하는 방향으로 진화할 것입니다.

마지막으로, ‘비전-언어 모델(VLM)과의 단계적 융합’입니다. 현재의 YOLO는 학습된 사물만 찾을 수 있는 Closed-set 탐지에 머물러 있지만, 미래의 YOLO는 거대 AI 모델의 효율성을 높이고, 스스로 언어를 이해하는 방향으로 진화할 것입니다.

우선, YOLO는 무거운 VLM의 연산 부하를 획기적으로 줄여주는 ‘실시간 프리 필터(Pre-filter)’ 역할을 수행하게 될 것입니다. 모든 이미지 처리를 거대 모델에 맡기는 것은 비용과 속도 면에서 비효율적입니다. 따라서 빠르고 가벼운 YOLO가 먼저 관심 객체의 위치를 1차적으로 걸러내고, VLM은 선별된 영역만 깊이 있게 분석하는 ‘하이브리드 파이프라인’이 보편화될 것입니다. 이를 통해 시스템 전체의 추론 속도를 확보하면서도 VLM의 고도화된 인식 능력을 활용할 수 있습니다.

좀 과한 전망일 수도 있지만, 더 나아가, YOLO는 ‘오픈 어휘 탐지(Open-Vocabulary Detection)’ 능력을 자체적으로 갖춘 모델로 진화할 것입니다. 텍스트로 “빨간 모자를 쓴 사람을 찾아줘”라고 명령하면, 별도의 추가 학습 없이도(Zero-shot) 즉시 대상을 찾아내는 방식입니다. 이를 위해 자기 지도 학습(Self-supervised Learning)과 CNN, 트랜스포머의 장점을 결합한 지능형 하이브리드 아키텍처가 도입될 것입니다.

결국 YOLO는 단순한 객체 탐지기를 넘어, 범용 비전 파운데이션 모델(Vision Foundation Model)로 거듭날 것입니다. 인간의 언어를 이해하고 맥락을 파악하는 거대 AI 에이전트의 빠르고 정확한 ‘눈’이 되는 것, 그것이 바로 YOLO가 나아갈 미래입니다.

오픈 소스 멀티모달 AI의 선두 주자 LLaVA

텍스트를 넘어 시각의 시대로 (LMM의 등장 배경)

인공지능 연구의 패러다임이 대규모 언어 모델(LLM)의 성공을 넘어, 시각 정보를 통합적으로 처리하는 멀티모달 대규모 모델(LMM, Large Multimodal Models)로 빠르게 이동하고 있습니다. 초기 멀티모달 연구가 단순히 이미지 캡셔닝이나 단답형 질의응답(VQA)에 국한되었다면, 이제는 복잡한 인간의 지시어를 시각적 맥락 속에서 파악하고 논리적으로 추론하는 능력이 핵심이 되었습니다.

이러한 흐름 속에서 등장한 LLaVA(Large Language-and-Vision Assistant)는 독점적인 거대 모델에 대항하여 오픈 소스 생태계를 선도하는 상징적인 모델입니다. LLaVA는 단순한 이미지 설명 도구가 아닌, 인간의 의도를 시각적 맥락에서 파악하는 ‘범용 시각 보조 모델’의 기틀을 마련했으며, 투명한 데이터와 가중치 공개를 통해 기술 민주화를 이끌고 있습니다.


LLaVA의 뼈대: 미니멀리즘 아키텍처 이해하기

LLaVA의 설계 철학은 복잡한 시스템을 구축하기보다 ‘구조적 단순함’과 ‘결합의 효율성’에 집중하는 데 있습니다. 이를 위해 서로 다른 역할을 수행하는 세 가지 핵심 요소를 유기적으로 연결하여, 가볍고도 강력한 멀티모달 성능을 구현했습니다.

가장 먼저 이미지를 받아들이는 시각 인코더(Vision Encoder)로는 OpenAI의 CLIP(ViT-L/14) 모델을 채택했습니다. CLIP은 이미 방대한 이미지-텍스트 쌍을 학습하여 시각적 개념을 언어적 표현으로 연결하는 능력이 매우 뛰어난데, LLaVA는 특히 마지막 레이어의 그리드 특징(Grid Features)을 활용해 이미지 내 객체들의 공간적 구조를 정교하게 보존합니다.

이렇게 추출된 시각 정보는 투사 레이어(Projection Layer)라는 가교를 거치게 됩니다. 이 레이어의 역할은 시각 특징 벡터를 언어 모델이 이해할 수 있는 임베딩 공간으로 매핑하는 것입니다. 초기 모델에서는 단순한 선형 행렬(Linear Layer)을 사용했으나, 모델이 진화함에 따라 현재는 시각 정보와 언어 정보 사이의 복잡한 비선형 관계를 더욱 잘 포착할 수 있는 MLP(Multi-Layer Perceptron) 구조로 발전했습니다.

마지막으로 시스템의 두뇌 역할을 담당하는 언어 모델(LLM)은 Meta의 LLaMA를 기반으로 대화 성능을 최적화한 Vicuna 모델이 맡습니다. 투사 레이어를 통과한 ‘시각 토큰’과 사용자의 ‘텍스트 지시어’를 동시에 입력받은 LLM은, 이를 하나의 문맥으로 파악하여 자동회귀(Auto-regressive) 방식으로 가장 자연스럽고 정확한 응답을 생성해냅니다.

“LLaVA의 설계 철학은 미니멀리즘과 효율성에 기반합니다. 복잡한 설계 대신 ‘얕고 간결한 정렬(Shallow Alignment, 깊고 복잡한 통합 대신 최소한의 연결만으로 시각과 언어를 매핑한다는 의미)’을 통해 시각과 언어를 연결한 것은, 새로운 SOTA 언어 모델이 등장할 때마다 이를 즉각적으로 이식할 수 있는 강력한 유연성을 제공합니다.”

이는 초창기 OpenAI에서 CLIP 모델이 발표될 때에 비해, 이미 언어 모델 성능이 크게 향상되었기 때문에, 언어와 비전을 통합하여 대조학습을 통해 정렬시키는 대신에, 이미 잘 학습된 언어 모델에 비전 모델을 투사 레이어를 통해 연결시키는 비교적 쉬운 방법으로 학습이 가능하며, 좋은 모델이 나올 때마다 교환할 수 있는 유연함과 편리함을 얻을 수 있다는 의미입니다.

이러한 전략은 컴퓨팅 자원 효율성에서도 빛을 발합니다. LLaVA는 CC3M(Conceptual Captions 3M) 데이터셋 에서 필터링된 약 595K개의 이미지-텍스트 쌍을 사용하는 1단계 사전 학습을 8장의 A100 GPU로 6시간 이내에 완료할 수 있습니다. 이는 CogVLM과 같이 모델 내부에 별도의 ‘시각 전문가’ 모듈을 삽입하는 ‘깊은 융합(Deep Fusion)’ 방식과 비교했을 때, 구현 비용이 낮으면서도 반복적인 기술 개선 속도가 월등히 빠르다는 전략적 우위를 점하게 합니다.

참고로, CC3M이란 구글(Google)에서 공개한 ‘Conceptual Captions’ 데이터셋의 약자로, 웹상에서 수집한 약 300만 개(3M)의 이미지와 그에 대응하는 설명(Caption)으로 구성된 방대한 데이터 묶음을 말합니다. 단순히 양만 많은 것이 아니라, 이미지 내의 구체적인 고유 명사를 일반적인 개념(Conceptual)으로 변환하여 AI가 사물의 본질적인 특징을 더 잘 학습하도록 설계된 것이 특징입니다. LLaVA는 이 방대한 데이터 중 품질이 좋은 약 60만 개를 선별해 사용함으로써, 시각적 특징과 언어적 개념을 연결하는 ‘정렬(Alignment)’ 과정을 매우 빠르고 효율적으로 수행해 냅니다.


성능의 비밀: 시각적 지시어 튜닝과 데이터 생성

최근 멀티모달 모델의 발전 과정을 지켜보면, 모델의 성능을 결정짓는 본질은 화려한 아키텍처보다 결국 ‘데이터의 품질’에 있다는 점을 실감하게 됩니다. LLaVA 연구진 역시 이 지점에 주목했습니다. 이들은 AI의 시각적 지능을 한 단계 끌어올리기 위해, 텍스트 전용 모델인 GPT-4로부터 지식을 추출하는 ‘지식 증류(Knowledge Distillation)’ 기법을 활용하여 158K개의 고품질 시각적 지시어 튜닝 데이터를 구축했습니다.

흥미로운 점은 데이터 생성 당시(2023년) GPT-4가 이미지를 직접 볼 수 없는 텍스트 전용 모델이었다는 사실입니다. 연구진은 이미지 파일 대신, 이미지의 캡션과 객체 위치 정보(Bounding Boxes)를 텍스트로 가공해 GPT-4에게 전달했습니다. 그러자 GPT-4는 마치 머릿속으로 이미지를 그려내듯, 주어진 텍스트 메타데이터를 바탕으로 매우 정교하고 논리적인 질문과 답변을 생성해냈습니다.

이러한 방식은 기술적으로나 비용적으로 매우 영리한 선택이었습니다. 고해상도 이미지를 AI에게 직접 입력해 데이터를 생성하는 과정은 비용이 많이 들고 속도도 느립니다.

반면 LLaVA는 기존 COCO 데이터셋 등의 메타데이터를 활용해 “이 사진에는 [사람, 자전거]가 이런 좌표에 위치해 있어. 이 정보를 바탕으로 사진을 보고 나누는 대화를 생성해 줘”라는 식의 프롬프트를 던지는 방식을 취했습니다. 이미지 토큰을 직접 처리하지 않으므로 API 비용을 획기적으로 낮추면서도 처리 속도를 비약적으로 높인 것이죠.

이렇게 탄생한 158K개의 데이터셋은 단순히 눈앞의 사물을 묘사하는 수준을 넘어, 모델에게 다음 세 가지 핵심 역량을 학습시킵니다.

물론 한계도 존재합니다. 텍스트 메타데이터에 포함되지 않은 미세한 색상이나 질감 등에 대해서는 GPT-4가 ‘상상력’을 발휘하다 보니, 실제 이미지와 다른 답변을 내놓는 환각(Hallucination) 현상이 발생할 수 있습니다. 하지만 이러한 한계에도 불구하고, 고품질 데이터를 효율적으로 대량 생성하여 모델의 ‘두뇌’를 깨웠다는 점은 LLaVA가 거둔 가장 큰 성과 중 하나입니다.

이후 GPT-4V API가 공개되면서(2024년) VLM의 학습 방법론은 또 한 번의 획기적인 전환점을 맞이합니다. 바로 ‘Teacher-Student 증류(Distillation)’ 방식의 등장입니다. 이 방식은 LLaVA-NeXT를 비롯해 Qwen-VL-Plus 등 최신 고성능 VLM들의 실질적인 표준(De facto Standard)으로 빠르게 자리 잡았습니다.

앞서 언급한 초기 방식(LLaVA)이 텍스트 메타데이터에 의존했다면, 이 전략은 GPT-4o나 Gemini 1.5 Pro와 같이 시각 지능이 정점에 도달한 최상위 상용 모델(Teacher)을 직접 활용합니다. 우리가 구현하고자 하는 로컬 모델(Student)을 위해, 선생 격인 모델이 고품질의 학습 데이터를 ‘찍어내듯’ 생성해주는 것이 핵심입니다.

작동 원리는 매우 직관적입니다. 먼저 기업이나 연구실에서 실제 해결하고자 하는 도메인의 원본 이미지(예: CCTV 프레임, 공장 설비 사진, 의료 영상 등)를 준비합니다. 그 다음, 이미지 이해도가 뛰어난 Teacher 모델에게 이 이미지를 직접 입력하며 정교한 미션을 부여합니다. 예를 들어 “이 이미지의 모든 디테일을 아주 상세하게 묘사해줘”라고 요청하거나, 산업 현장에 맞춰 “이 상황에서 발생할 수 있는 안전 문제에 대한 Q&A를 5개 생성해줘”와 같은 구체적인 지시를 내리는 식입니다.

이렇게 생성된 [이미지-고품질 텍스트] 쌍은 그대로 로컬 VLM의 강력한 학습 자료가 됩니다. 이 방식이 가진 가장 큰 매력은 바로 ‘데이터의 밀도(Density)’에 있습니다.

실제로 ShareGPT4V 연구 결과에 따르면, 단순히 “남자가 자전거를 타고 있다”와 같은 파편화된 짧은 캡션 10만 개를 학습시키는 것보다, 이미지 하나하나의 맥락을 집요하게 파고드는 상세한 긴 캡션(Dense Caption) 1만 개를 학습시키는 것이 모델의 성능 향상에 훨씬 효과적이었습니다. 결국 VLM 학습의 성패를 가르는 것은 데이터의 단순한 ‘양’이 아니라, 그 안에 담긴 정보의 ‘밀도’라는 점을 명확히 보여주는 사례라고 할 수 있습니다.


2단계 학습 프로토콜: 효율적인 학습 전략

LLaVA는 자원을 효율적으로 사용하면서 모델을 안정적으로 수렴시키기 위해 전략적인 2단계 학습을 채택합니다.

  • 1단계 (사전 학습 – Feature Alignment): 시각 인코더와 언어 모델을 고정한 채 오직 투사 레이어만 학습시킵니다. CC3M 데이터셋(595K 쌍)을 사용하여 모달리티 간 정렬을 수행하며, 이는 8장의 A100 GPU로 단 6시간 만에 완료될 정도로 매우 효율적입니다.

  • 2단계 (미세 조정 – End-to-End Fine-tuning): 시각 인코더는 고정하되 투사 레이어와 언어 모델 전체의 가중치를 업데이트합니다. 158K개의 지시어 데이터를 통해 실제 사용자의 복잡한 요구사항을 처리하는 전문적인 과업 수행 능력을 확보합니다.

효율성과 성능 표준의 정립: LLaVA-1.5

LLaVA-1.5(2023년)는 단순한 업그레이드를 넘어 오픈소스 멀티모달 모델의 실질적인 표준을 제시했습니다. 핵심은 구조적 개선과 데이터의 질적 향상에 있습니다. 기존의 단순 선형 레이어를 비선형 MLP 커넥터로 교체하고 이미지 해상도를 336px로 높여 시각적 이해도를 정교화했습니다.

특히 학술적 VQA 데이터와 공유 데이터셋(ShareGPT4V) 등 고품질 데이터를 전략적으로 믹스하여 학습 효율을 극대화했습니다. 그 결과, 수천억 개의 파라미터를 가진 거대 상용 모델들과 비교해도 손색없는 성능을 단 13B 규모의 모델로 증명해내며 자원 효율성의 정점을 보여주었습니다.


한계를 넘어선 진화: LLaVA-Next(v1.6)

LLaVA-NeXT(v1.6, 2024년)는 기존의 한계를 넘어 상용 모델인 Gemini Pro와 견줄 만큼 강력한 진화를 이뤄냈습니다. 가장 큰 혁신은 ‘AnyRes’ 알고리즘의 도입입니다. 이 기술은 고해상도 이미지를 고정된 크기가 아닌 {2×2, 1×2, 2×1, 1×3, 3×1, 1×4, 4×1} 등 동적 그리드로 유연하게 분할하여 처리합니다. 전체 구도를 파악하는 글로벌 뷰와 세부 패치를 분석하는 로컬 뷰를 결합함으로써, 작은 텍스트를 읽어내는 OCR 능력과 복잡한 도표 분석 성능을 비약적으로 끌어올렸습니다.

또한 LLaVA-NeXT는 Mistral-7B, Llama-3(8B), 그리고 대규모 모델인 Qwen-1.5(72B/110B) 등 최신 언어 모델을 백본으로 채택하며 성능의 폭을 넓혔습니다. 특히 Qwen 기반 모델은 강력한 중국어 제로샷 능력을 보여주며 글로벌 범용성까지 확보했습니다. 이러한 구조적 유연성 덕분에 이미지뿐만 아니라 비디오 이해 능력까지 확장되어, 영상의 흐름을 논리적으로 파악하는 제로샷(Zero-shot) 역량까지 갖추게 되었습니다. LLaVA-NeXT는 이처럼 강력한 백본과 혁신적인 시각 분석 기술을 결합하여 오픈소스 VLM의 정점을 보여줍니다.


시각을 넘어 시간의 맥락으로: LLaVA-Video

LLaVA-Video(2024년)는 이미지 중심의 멀티모달 모델을 넘어, 시간의 흐름을 파악해야 하는 비디오 도메인에서도 혁신적인 성능을 보여줍니다. 이 모델의 핵심은 AnyRes 기술을 비디오 프레임 단위로 확장한 ‘AnyRes-Video’ 전략에 있습니다. 고해상도 영상을 단순히 줄이는 것이 아니라, 프레임을 동적으로 분할하여 세부 패치를 분석함으로써 영상 속 아주 작은 움직임이나 텍스트까지 정교하게 포착해냅니다.

기술적으로 가장 흥미로운 점은 이미지 데이터로만 학습된 모델이 비디오 작업을 즉시 수행하는 ‘제로샷 전이 능력’입니다. LLaVA-Video는 여기에 더해 약 178K개의 고품질 비디오 지시어 튜닝 데이터를 결합하여, 단순한 장면 묘사를 넘어 영상의 전체 맥락을 추론하고 복잡한 질문에 답하는 능력을 갖췄습니다. 또한 선형 스케일링 기법을 통해 LLM의 최대 토큰 길이를 극복함으로써, 장시간의 영상도 끊김 없이 이해할 수 있는 길이 일반화(Length Generalization) 능력을 보여줍니다. 결과적으로 오픈소스 모델임에도 불구하고 비디오 벤치마크에서 상용 모델인 Gemini Pro를 상회하는 결과를 기록하며 영상 이해 모델의 새로운 기준을 세웠습니다.


멀티모달의 완전체: LLaVA-OneVision

LLaVA-OneVision(2024년)은 단일 이미지, 다중 이미지(Multi-image), 그리고 비디오라는 세 가지 핵심 시나리오를 하나의 모델로 통합하며 오픈소스 멀티모달 모델(LMM)의 새로운 지평을 열었습니다. 이 모델의 가장 큰 혁신은 ‘AnyRes-Max’ 전략을 통해 고해상도 이미지 처리 능력을 극대화한 것과, 이미지에서 학습된 지능을 비디오와 다중 이미지 시나리오로 자연스럽게 전이시키는 Task Transfer 능력에 있습니다.

기술적으로는 SigLIP 시각 인코더와 Qwen2 언어 백본을 결합하여 강력한 기초 체력을 확보했습니다. 특히 동적 그리드 구성을 더욱 정교화하여 복잡한 차트 분석이나 여러 장의 이미지를 동시에 비교하는 추론 능력에서 상용 모델인 GPT-4o와 Gemini Pro 1.5에 필적하는 성능을 보여줍니다. 또한, 비디오 데이터 학습 시 토큰 효율성을 최적화하는 풀링(Pooling) 전략을 도입하여, 계산 자원을 절약하면서도 영상의 세부 디테일을 놓치지 않는 정교함을 갖췄습니다.

가장 놀라운 점은 이 모든 성능이 철저히 공개된 프레임워크와 효율적인 학습 파이프라인을 통해 구현되었다는 것입니다. LLaVA-OneVision은 대규모 큐레이션 데이터셋(85M)을 활용한 3단계 학습 과정을 거치며, 단순한 시각 인식을 넘어 실제 환경의 복잡한 문제를 해결하는 ‘에이전트’로서의 가능성을 증명했습니다. 이제 개발자들은 하나의 모델만으로 정지 영상부터 실시간 비디오 분석까지 아우르는 진정한 의미의 ‘OneVision’ 솔루션을 구축할 수 있게 되었습니다.


라이벌 분석: LLaVA vs. 타 VLM 모델

2026년 현재, 오픈소스 VLM 시장은 상용 모델에 필적하는 성능을 갖춘 세 계열이 각자의 설계 철학에 따라 시장을 삼분하고 있습니다.

주요 모델별 포지셔닝

  • Qwen-VL (2.5 시리즈): ‘글로벌 범용성’의 강자입니다. 수억 개의 파라미터를 가진 시각 리샘플러로 정보 밀도를 극대화하며 비디오·오디오까지 통합합니다. 뛰어난 다국어 처리 능력 덕분에 글로벌 에이전트 서비스에 주로 활용됩니다.

  • InternVL (2.5+): ‘압도적 스케일’을 지향합니다. 6B급 거대 시각 인코더를 탑재해 이미지 추출 단계부터 딥러닝 수준의 추론을 수행합니다. 초고해상도 OCR이나 정밀 의료 영상 분석 등 GPT-4o의 대안이 필요한 산업 현장에 적합합니다.

  • LLaVA (OneVision/Video): ‘효율성의 상징’이자 오픈소스의 표준입니다. 구조적 단순함을 유지하면서도 고품질 데이터 증류 기술을 통해 적은 자원으로 최적의 성능을 냅니다. 커스터마이징이 쉬워 온디바이스(On-device) 모델 구축 시 기업들이 가장 먼저 찾는 모델입니다.

아키텍처 관점의 차별점

LLaVA의 독보적인 위치는 타 모델과의 아키텍처 비교에서 더욱 선명해집니다.

  • vs CogVLM (Deep Fusion): CogVLM이 모델 내부에 별도의 ‘시각 전문가’ 모듈을 삽입하는 깊은 융합 방식을 취한다면, LLaVA는 투사 레이어를 통해 정보를 섞는 얕은 정렬(Shallow Alignment)을 선택했습니다. 이는 복잡한 구현 비용을 획기적으로 낮추는 결과로 이어집니다.
  • vs Qwen/InternVL (Scaling): Qwen과 InternVL이 거대 리샘플러와 인코더 스케일링으로 승부할 때, LLaVA는 상대적으로 작은 CLIP 인코더를 사용합니다. 대신 데이터 정렬의 정교함을 극대화하여 8B 이하 중소규모 모델 시장에서 압도적인 효율성을 입증하고 있습니다.

요약: 당신의 프로젝트에 적합한 모델은?

결국 범용 서비스에는 Qwen, 정밀 분석에는 InternVL, 그리고 특화 도메인 최적화와 실전 배포에는 LLaVA가 최적의 선택입니다. LLaVA는 ‘복잡한 설계보다 정교한 데이터가 본질’임을 증명하며, 실전 지향적 VLM의 표준으로서 그 가치를 더해가고 있습니다.


실무 적용 및 향후 전망

실무 환경에서 LLaVA를 성공적으로 구축하고 운영하기 위해서는 아키텍처의 이해를 넘어선 구체적인 최적화 전략이 필수적입니다. 특히 한정된 자원 내에서 성능을 극대화하려는 개발자들에게 몇 가지 핵심 팁은 실무의 난이도를 획기적으로 낮춰줍니다.

먼저 하드웨어 효율성 측면에서는 DeepSpeed와 LoRA(Low-Rank Adaptation)의 결합이 권장됩니다. 이 방식을 활용하면 파라미터 전체를 업데이트하지 않고도 메모리 사용량을 최소화할 수 있어, RTX 3090과 같은 소비자용 GPU에서도 7B 규모의 모델을 원활하게 구동할 수 있습니다. 이는 고가의 기업용 장비 없이도 고성능 멀티모달 환경을 구축할 수 있는 높은 접근성을 제공합니다.

추론 단계에서는 SGLang 엔진의 도입을 적극 고려해야 합니다. SGLang은 복잡한 프롬프트 구조를 최적화하여 기존 대비 최대 5배 빠른 추론 속도를 실현합니다. 이는 특히 대규모 비디오 캡셔닝이나 실시간 모니터링처럼 빠른 응답성이 요구되는 프로젝트에서 실질적인 생산성 향상으로 이어집니다.

만약 극단적인 효율성이 필요한 온디바이스 환경이라면 LLaVA-Mini가 훌륭한 대안이 됩니다. 이미지당 단 하나의 시각 토큰만 사용하는 압축 기술을 통해, 24GB VRAM 환경에서도 3시간 이상의 긴 영상을 처리할 수 있는 놀라운 자원 효율성을 보여줍니다.

앞으로 LLaVA는 스스로 응답의 오류를 교정하는 LLaVA-Critic이나 강화 학습이 결합된 자율 에이전트 형태로 진화할 전망입니다. LLaVA는 이제 단순한 오픈소스 모델의 단계를 넘어, 시각적 세계와 언어를 연결하는 인공지능 생태계의 핵심 인프라로 굳건히 자리 잡고 있습니다.

로컬 퍼스트 AI 에이전트가 그리는 ‘주권적 AI’의 미래

1. 에이전틱 AI의 시대와 OpenClaw의 등장

LLM의 성능 향상이 어느 정도 완만해지면서, 이제 인공지능의 패러다임은 단순한 문장 생성을 넘어 사용자의 의도를 자율적으로 실행하는 ‘에이전틱 AI(Agentic AI)’로 완전히 넘어왔습니다.
이러한 변화의 최전선에는 2026년 초 등장과 함께 세상을 떠들썩하게 했던 ‘OpenClaw(오픈클로, 구 Clawdbot 및 Moltbot)’라는 오픈소스 프로젝트가 있습니다.

우리는 클라우드 기반 AI의 편리함 뒤에 숨겨진 비용, 즉 빅테크의 통제와 데이터 종속을 간과해 왔습니다. 제한된 도구 접근성이라는 한계 속에서, 중앙집중식 통제에 반기를 들며 등장한 프로젝트가 있습니다. 바로 ‘OpenClaw(오픈클로)’입니다.

오픈클로는 단순한 챗봇이 아닙니다. 사용자의 메신저(WhatsApp, Telegram 등)와 연동되어 직접 명령을 수행하고 파일을 관리하는 오픈 소스 자율형 AI 에이전트로서, 진정한 의미의 ‘행동하는 AI’를 구현합니다.

OpenClaw는 ‘내 데이터와 제어권은 내 하드웨어에 있어야 한다’는 ‘로컬 퍼스트(Local-First)’ 철학을 통해, 개인이 AI의 주인이 되는 ‘주권적 에이전트(Sovereign Agent)’의 시대를 열었습니다. 이 글에서는 OpenClaw의 파괴적 혁신(Disruptive Innovation)이 담긴 아키텍처와 그 미래, 그리고 보안의 새로운 패러다임을 분석해 보겠습니다.


2. 철학과 탄생: 피터 슈타인버거와 ‘바이브 코딩(Vibe Coding)’

OpenClaw의 성공 뒤에는 PSPDFKit의 창업자 피터 슈타인버거(Peter Steinberger)의 독특한 철학이 자리 잡고 있습니다. 참고로, PSPDFKit은 회사명이자 PDF SDK 브랜드명으로, 앱·웹·서버 환경에서 PDF 보기와 주석, 편집, 서명, 변환 기능을 손쉽게 구현할 수 있도록 지원했습니다. 다양한 플랫폼을 지원하며 금융, 법률, 의료 등 보안이 중요한 산업에서도 활용되었고, 현재는 Nutrient SDK라는 이름으로 리브랜딩되어 운영되고 있습니다.

바이브 코딩(Vibe Coding): 문법(Syntax)에서 설계(Design)로의 전환

피터 슈타인버거는 개발의 패러다임이 변화했음을 강조합니다. 개발자는 더 이상 세부적인 코드 문법에 매몰되지 않고, 시스템 아키텍처와 데이터 흐름, 즉 ‘사용자의 의도와 맥락(Vibe)’을 설계하는 데 집중해야 한다는 것입니다.구현은 LLM에게 위임하고, 개발자는 ‘엔지니어링적 사고(Engineering Thinking)’에 주력하는 이 접근법은 코딩의 정의를 ‘언어의 영역’에서 ‘설계의 영역’으로 확장시켰습니다.

탈피를 통한 진화: Clawdbot에서 OpenClaw까지 드라마틱한 진화 과정

OpenClaw의 발전 과정은 단순한 기능 확장이 아닌, 커뮤니티와 함께 성장한 ‘탈피(Molt)’와 진화의 기록입니다.

  • Clawdbot (2025.11): 챗-투-쉘(Chat-to-Shell)의 시작 왓츠앱(WhatsApp)을 인터페이스로 활용해 로컬 맥 미니(Mac Mini)를 제어하는 프로토타입으로 시작되었습니다. 메신저로 쉘 명령을 수행하는 직관적인 구조는 개발자들에게 큰 반향을 일으켰습니다.

  • Moltbot: 위기를 성장의 발판으로 초기 명칭이 앤스로픽(Anthropic)의 ‘Claude’와 유사하다는 상표권 이슈가 제기되자, 슈타인버거는 리브랜딩을 단행했습니다. ‘성장을 위해 껍질을 벗는다’는 의미의 ‘Molt(탈피)’를 채택하며 전화위복의 계기를 마련했고, 이 과정에서 가재(Lobster) 마스코트와 열성 팬덤 ‘Claw Crew’가 결집했습니다.

  • OpenClaw (2026.01): 개방형 생태계의 완성 특정 모델에 종속되지 않는(Model-Agnostic) 개방성을 천명하며, 2026년 1월 현재의 명칭으로 최종 확정되었습니다. 이제 OpenClaw는 단순한 봇을 넘어 자율형 에이전트 생태계를 지향합니다.

3. OpenClaw의 작동 원리: 내 컴퓨터 안의 진짜 비서

OpenClaw가 기존 AI 서비스들과 가장 다른 점은 ‘로컬 퍼스트(Local-First)’라는 철학입니다. 내 데이터와 연산의 주도권을 거대 클라우드 기업이 아닌, 내 책상 위 컴퓨터(Edge)에게 쥐여주는 것이죠. 이 구조가 어떻게 보안과 속도, 확장성을 모두 잡았는지 뜯어보겠습니다.

게이트웨이(Gateway): 로컬과 외부를 잇는 통역사

OpenClaw의 심장은 내 컴퓨터(맥 미니, 라즈베리 파이 등)에서 24시간 깨어 있는 프로그램, ‘게이트웨이’입니다. 게이트웨이는 메신저(WhatsApp 등)와 로컬 OS 사이의 통로 역할을 합니다. 사용자가 자연어로 명령하면 게이트웨이는 이를 즉각적인 쉘 명령어로 실시간 통역합니다. 이는 외부 인터넷과 내부망 사이의 보안 경계선 역할을 하며, 복잡한 VPN 없이도 안전한 원격 제어를 가능하게 합니다.

  • 예시: 사용자가 “다운로드 폴더의 PDF들을 정리해”라고 말하면, 게이트웨이는 find ~/Downloads -name “*.pdf” -exec mv…와 같은 명령을 실행하여 로컬 시스템을 직접 제어합니다.

이런 구조 덕분에 맥 미니처럼 전력을 적게 쓰면서 AI 연산(NPU)이 가능한 소형 PC가 단순한 컴퓨터를 넘어, 냉장고처럼 항상 켜져 있는 ‘필수 AI 가전’으로 떠오르고 있습니다.

레인(Lane) 시스템: 기다림 없는 멀티태스킹

기존 챗봇은 질문 하나를 던지면 답변이 나올 때까지 멍하니 기다려야 했습니다. 하지만 OpenClaw는 다릅니다. 기존 챗봇이 한 번에 하나의 작업만 처리하는 ‘동기식 블로킹(Blocking)’ 구조였던 것과 달리, OpenClaw는 파일 복사, 코드 컴파일, 웹 크롤링 등 장시간 소요되는 작업을 수행하면서도 사용자와의 대화 흐름을 유지해야 했습니다.

슈타인버거는 ‘레인(Lane)’이라는 개념을 도입했습니다. 마치 고속도로의 차선처럼 ‘채팅용 차선’, ‘파일 복사용 차선’, ‘웹 검색용 차선’을 따로 둔 것입니다. 덕분에 “이메일 7만 개 삭제해” 같은 무거운 작업을 시켜도, 봇은 버벅거리지 않고 “작업 시작했습니다. 현재 10% 진행 중입니다”라고 실시간으로 대화할 수 있습니다. 이것이 바로 답답함 없는 ‘비동기적 반응성’의 핵심입니다.

물론, 여러 작업이 동시에 한 파일을 건드려 꼬이는 문제(Race Condition)를 막기 위해, 각 차선 안에서는 순서대로 작업을 처리하는 안전장치도 잊지 않았습니다.


투명한 기억: “파일이 곧 진실이다(File is Truth)”

대다수 AI 시스템이 데이터를 블랙박스인 벡터 데이터베이스(Vector DB)에 저장하는 것과 달리, OpenClaw는 ‘급진적인 투명성(Radical Transparency)’을 택했습니다.

“파일이 곧 진실이다”라는 모토 아래, 봇이 기억하는 모든 대화와 정보는 우리가 메모장으로 열 수 있는 평범한 텍스트 파일로 저장됩니다. 봇이 나에 대해 뭘 알고 있는지 언제든 확인하고, 수정하고, 지울 수 있습니다. 데이터의 주인이 온전히 ‘나’에게 돌아오는 순간입니다.

웹사이트를 검색할 때도 화면 전체를 이미지로 찍어서 분석하는 비싼 방식 대신, 웹페이지의 글자 구조(텍스트 트리)만 쏙 뽑아서 읽는 기술을 씁니다. 이는 똑똑하고 알뜰한 눈(Semantic Snapshot)이 있는 것이나 마찬가지라고 생각하면 됩니다. 덕분에 처리 속도는 빨라지고 비용은 획기적으로 줄었습니다.

스킬(Skills): 앱스토어처럼 쉬운 확장

OpenClaw는 ‘스킬’을 통해 무한히 똑똑해집니다. 마치 스마트폰에 앱을 깔듯 기능을 추가할 수 있습니다.

커뮤니티 저장소인 ‘ClawHub’에는 이미 수천 개의 스킬이 올라와 있습니다. “스포티파이 스킬 깔아줘”라고 말 한마디만 하면, 내 봇이 음악 DJ가 됩니다. 슈타인버거는 최근 유행하는 복잡한 기술 표준(MCP 등)보다, 누구나 쉽게 만들고 고칠 수 있는 직관적인 도구 설계를 고집합니다. 복잡함은 줄이고, 인간이 확실하게 통제할 수 있는 ‘직관적인 도구’를 지향하기 때문입니다.



4. 비교 분석: OpenClaw vs. 클라우드 기반 에이전트

OpenClaw의 등장은 중앙 집중형 SaaS 에이전트(Claude Code, OpenAI Atlas)와 뚜렷한 대조를 이루며 AI 시장을 재편하고 있습니다. 이들의 가장 큰 차이는 ‘통제권(Control)’과 ‘접근 범위(Scope)’에 있습니다. 단순 자동화를 넘어 로컬 파이썬 스크립트의 실행, 시스템 설정 등 OS 레벨의 실질적 제어권을 제공합니다.

Claude Code와 비교

Claude Code는 앤스로픽이 제공하는 관리형 코딩 에이전트로, ‘애플(Apple)’과 같은 매끄러운 사용자 경험과 안전을 최우선으로 합니다. 별도의 하드웨어가 필요 없고, 기업의 보안 컴플라이언스를 준수하기 용이하여 팀 단위 도입에 적합합니다.

반면, OpenClaw는 ‘리눅스(Linux)’와 같습니다. 거칠지만 강력합니다. 사용자는 OpenClaw를 통해 자신의 로컬 깃(Git) 훅이나 비공개 서버, 홈 오토메이션 시스템 등 Claude Code가 보안 정책상 접근을 차단하는 영역까지 제어할 수 있습니다. 또한, ‘모델 불가지론(Model Agnostic)’을 채택하여, 비용 효율이 높은 중국의 DeepSeek 모델이나 Moonshot AI의 Kimi 모델을 연동해 API 비용을 절감할 수 있다는 점이 큰 매력으로 작용합니다.

OpenAI Atlas와 비교

OpenAI Atlas는 브라우저를 운영체제로 간주하고 웹 작업을 자동화하는 데 초점을 맞춥니다. 이는 ‘온라인 쇼핑’이나 ‘여행 예약’에는 최적화되어 있으나, 컴퓨터 자체를 제어하는 데는 한계가 있습니다.

OpenClaw는 웹뿐만 아니라 로컬 파일, 시스템 설정, 설치된 애플리케이션까지 제어 범위가 확장됩니다. 예를 들어, Atlas는 “웹에서 CSV를 다운로드”할 수 있지만, OpenClaw는 “다운로드한 CSV를 로컬 파이썬 스크립트로 가공하여, 로컬 메일 클라이언트로 전송하고, 완료되면 스피커로 알림음을 재생”할 수 있습니다.

“공짜의 역설”과 비용 구조

OpenClaw 소프트웨어 자체는 무료(MIT 라이선스)이지만, 운영 비용은 결코 저렴하지 않습니다. 에이전틱 워크플로우는 매우 ‘수다스럽습니다(Chatty)’. 하나의 버그를 수정하기 위해 에이전트는 수십 개의 파일을 읽고, 내부적으로 수차례의 추론(Thought Chain)을 거치며, 실패 시 재시도합니다. 이 과정에서 막대한 양의 토큰이 소모되며, 일부 헤비 유저들은 월 $500 이상의 API 요금 폭탄을 맞기도 했습니다. 이는 정액제 모델을 가진 경쟁 서비스들에 비해 예측 불가능한 비용 리스크를 안고 있습니다.


5. 생태계의 확장과 그림자: Moltbook 사태와 보안의 경고

OpenClaw의 기술적 성공은 곧 ‘Moltbook(몰트북)’이라는 전례 없는 사회적 실험으로 이어졌습니다. 2026년 1월, 맷 슐리히트(Matt Schlicht)가 런칭한 이 플랫폼은 “인간은 관전하고, 에이전트가 활동하는” AI 에이전트 전용 소셜 네트워크를 표방했습니다.

하지만 급격한 확장은 치명적인 보안 위기를 불러왔습니다. 150만 개 이상의 에이전트가 연결된 이 거대한 네트워크의 백엔드 데이터베이스가 행 수준 보안(RLS) 정책 없이 인터넷에 노출되어 있다는 사실이 보안 연구원 제임슨 오라일리에 의해 밝혀졌습니다. OpenClaw 에이전트는 사용자의 로컬 컴퓨터에 대한 쉘(Shell) 접근 권한을 가지고 있기에, API 키 유출은 단순한 데이터 침해를 넘어 파일 삭제나 무단 송금과 같은 물리적, 금전적 피해를 입힐 수 있는 ‘킬 스위치(Kill Switch)’ 시나리오를 의미했습니다. 이는 고권한(High-privilege)을 가진 탈중앙화 봇들을 중앙집중식 서버에 연결하는 것이 얼마나 위험한지를 보여주는 사례로 남았습니다.

기업 환경 또한 ‘섀도우 AI(Shadow AI)’의 확산으로 몸살을 앓고 있습니다. 생산성 향상을 원하는 임직원들이 IT 부서의 승인 없이 OpenClaw를 설치하여 방화벽과 DLP(데이터 유출 방지) 시스템을 우회하고 있기 때문입니다. 사내 데이터가 왓츠앱을 통해 개인 홈 서버로 흘러나가고, 반대로 해커가 직원의 개인 봇을 탈취해 기업 내부망으로 침투하는 백도어(Backdoor) 위협이 현실화되었습니다. 설상가상으로 오픈소스 스킬 저장소인 ClawHub에서는 인기 스킬을 가장한 악성 코드인 ‘슬롭스쿼팅(Slopsquatting)’과, 웹페이지의 숨겨진 텍스트로 에이전트를 조종하는 ‘간접 프롬프트 인젝션’ 공격이 등장했습니다. 이는 OpenClaw가 가진 자율성이 역으로 가장 큰 보안 취약점이 될 수 있음을 시사합니다.


6. 미래 전망: “GUI의 멸종”과 에이전트 경제

피터 슈타인버거는 AI가 기존 앱의 80%를 소멸시킬 것이라 전망했습니다. 대부분의 앱은 데이터베이스 접근을 위한 GUI에 불과하며, 에이전트가 API로 직접 통신하는 세상에서 인간의 개입은 불필요해지기 때문입니다. 이는 곧 화면 점유율에 기반한 ‘관심 경제(Attention Economy)’의 붕괴를 의미합니다. 사용자가 앱을 열지 않는 미래, 기업들은 광고 노출 대신 에이전트의 API 호출에 과금하는 새로운 수익 모델로 전환해야 할 것입니다.

이러한 흐름은 ‘에이전트 경제(Agent Economy)’의 부상으로 이어집니다. Moltbook 사태에도 불구하고, 에이전트 간 신원 검증 프로토콜인 ‘Clawlink’나 기계 간 결제를 위한 ‘ZERA’ 등의 시도는 계속되고 있습니다. 이제 에이전트는 고유한 지갑(Wallet)을 소유한 ‘금융 대리인’으로 진화 중입니다. 에이전트가 스스로 검색부터 결제까지 수행하는 완전 자율 소비 주체의 등장은, 단순한 편의성을 넘어 ‘폭주하는 에이전트’에 의한 자산 손실이라는 새로운 리스크 관리를 요구하고 있습니다.


7. 검증된 자율성을 향하여

OpenClaw는 AI 시대의 기술 소유권이 누구에게 있는가라는 근원적인 질문을 던졌습니다. 하지만 주권에는 반드시 책임이 따릅니다. 우리가 디지털 집사에게 열쇠를 맡기기 위해서는 샌드박싱의 고도화와 AI 전용 방화벽 도입을 통한 ‘검증된 자율성(Verified Autonomy)’ 확보가 선행되어야 합니다. OpenClaw가 불러온 이 혁명적 흐름이 보안의 악몽이 될지, 진정한 개인의 해방이 될지는 이제 우리의 관리 능력에 달려 있습니다.

시각-언어 모델(VLM)의 진화

시각과 언어의 만남, VLM의 정의와 위상

시각-언어 모델(Vision-Language Models, VLM)은 컴퓨터 비전(CV)과 자연어 처리(NLP)의 교차점에서 탄생했습니다. 기계가 시각적 세계를 지각하고 언어를 통해 그 의미를 추론하도록 돕는 VLM은 단순한 이미지 설명 단계를 넘어, 현재는 복잡한 논리적 추론과 자율적 행동이 가능한 ‘멀티모달 에이전트’로 진화하고 있습니다.

이 글에서는 지난 10여 년간의 기술적 도약을 CNN-RNN 파이프라인, 대조 학습의 혁명, 거대 언어 모델(LLM)과의 통합, 그리고 네이티브 멀티모달리티라는 핵심 시기를 중심으로 분석하며, 미래의 피지컬 AI 시대를 조망해 보고자 합니다.

[2014-2020] 시각-언어 통합의 서막: CNN-RNN 파이프라인

초기 VLM 연구는 특정 작업에 최적화된 모듈형 아키텍처가 주류를 이뤘습니다. 이 시기의 핵심은 ‘시각적 지각’과 ‘언어적 생성’을 물리적으로 연결하는 것이었습니다.

  • 기술적 메커니즘: 합성곱 신경망(CNN)을 시각 인코더로, 순환 신경망(RNN)을 언어 디코더로 결합한 구조가 대표적입니다. CNN(VGG, ResNet 등)이 이미지를 특징 벡터로 압축하면, LSTM이나 GRU가 이를 전달받아 문장을 생성합니다. 특히 m-RNN 모델은 CNN의 시각 특징을 RNN의 중간 계층에 직접 삽입하여 상호작용의 기초를 마련했습니다.
  • 주요 작업: 이미지 캡셔닝(Image Captioning)과 시각적 질의응답(VQA)이 핵심 연구 목표였으며, 2015년경부터는 문장의 파편과 이미지 영역을 정렬하는 기법이 도입되었습니다.

참고) m-RNN(Multimodal Recurrent Neural Network)은 이미지의 시각적 정보와 자연어의 언어적 정보를결합하여, 이미지에 대한 설명을 생성(Image Captioning)하거나 이미지와 텍스트 간의 유사도를 측정하기 위해 설계된 딥러닝 아키테처입니다.

이 모델은 2014~2015년경 Baidu Research 팀(Junhua Mao 등)에 의해 제안되었으며, 당시 컴퓨터 비전과 자연어 처리(NLP)를 연결하는 혁신적인 구조로 평가받았습니다.

초기 VLM의 기술적 특징 및 한계점

[2021] 대조 학습의 혁명: CLIP과 공통 임베딩 공간의 탄생

2021년 OpenAI의 CLIP(Contrastive Language-Image Pre-training) 등장은 지도 학습 중심의 패러다임을 인터넷 규모의 데이터 기반 ‘대조 학습(Contrastive Learning)’으로 전환시킨 일대 사건이었습니다.

  • 패러다임의 전환: 기존의 고정된 범주 레이블을 넘어, 웹상의 4억 개의 이미지-텍스트 쌍을 활용해 범용적인 표현을 학습하기 시작했습니다.
  • CLIP의 혁신: 텍스트와 시각 인코더(ViT)를 동일한 고차원 벡터 공간에 투영합니다. 매칭되는 쌍의 유사도는 높이고 나머지는 낮추는 대칭적 교차 엔트로피 손실(Symmetric Cross-entropy Loss)을 사용하며, 이를 통해 별도의 미세 조정 없이도 새로운 개념을 이해하는 ‘제로샷(Zero-shot) 전이 능력’을 확보했습니다.
  • 데이터 공학의 흐름: 이후 SigLIP(Sigmoid Loss for Language Image Pre-training)은 구글에서 제안한 모델로 CLIP의 성능과 효율성을 획기적으로 개선한 방식이다. 소프트맥스(Softmax) 대신 시그모이드(Sigmoid) 손실을 도입하여 배치 크기의 한계를 극복하고 학습 효율을 극대화했습니다. 이러한 흐름은 LAION-5B와 같은 초거대 오픈 데이터셋 구축으로 이어졌습니다.

참고) LAION-5B는 전 세계에서 가장 거대하고 대표적인 오픈 소스 멀티모달 데이터셋입니다. 독일의 비영리 단체인 LAION(Large-scale Artificial Intelligence Open Network)에서 제작했으며, 현대 생성형 AI(예: Stable Diffusion)의 폭발적인 발전을 가능하게 한 핵심 밑거름이 되었습니다.

[2022-2023] 거대 언어 모델(LLM)과의 통합 및 지시어 튜닝

2022년 하반기부터 2023년까지 VLM의 발전은 강력한 거대 언어 모델(LLM)을 멀티모달 인터페이스에 결합하는 방향으로 전개되었다. 이 시기의 모델들은 단순히 이미지를 설명하는 것을 넘어, 사용자의 복잡한 지시를 따르고 시각 정보에 기반해 추론하며 대화할 수 있는 능력을 갖추게 되었습니다.

게이트형 교차 주의 집중 (Flamingo)

DeepMind의 Flamingo는 고정된 LLM 계층 사이에 새로운 ‘교차 주의 집중(Cross-attention)’ 계층을 삽입하는 방식을 취했습니다. Flamingo는 시각적 특징을 키(Key)와 값(Value)으로, 텍스트 토큰을 쿼리(Query)로 사용하여 언어 모델이 텍스트 생성 과정에서 시각 정보를 직접 참조할 수 있게 합니다. 특히, 기존 언어 모델의 가중치를 파괴하지 않기 위해 학습 초기에는 시각 정보의 영향력을 0으로 설정했다가 점진적으로 늘리는 ‘tanh 게이팅’ 메커니즘을 도입하여 안정적인 학습을 도모하였습니다.

질의 트랜스포머 (BLIP-2)

BLIP-2는 시각 인코더와 LLM 사이에서 정보를 선택적으로 추출하여 전달하는 ‘Q-Former’ 모듈을 도입하였습니다. Q-Former는 학습 가능한 소수의 쿼리 토큰을 사용하여 이미지 인코더로부터 텍스트 생성에 가장 유용한 정보만을 추출한 뒤, 이를 LLM의 임베딩 공간으로 투영합니다. 이 방식은 시각 정보의 병목 현상을 해결하고, 매우 적은 수의 학습 매개변수만으로도 시각-언어 정렬을 가능케 하여 효율성 측면에서 큰 주목을 받았습니다.

선형 투영 및 MLP 어댑터 (LLaVA)

LLaVA는 가장 단순하면서도 강력한 ‘선형 투영(Linear Projection)’ 방식을 대중화하였습니다. LLaVA 아키텍처에서는 CLIP의 시각 특징 벡터를 단순한 선형 계층 또는 2계층 MLP를 통해 LLM의 입력 토큰 임베딩 공간으로 직접 매핑합니다. 이렇게 변환된 시각 토큰은 텍스트 토큰과 나란히 배열되어 LLM에 입력되며, 모델은 이를 일반적인 텍스트 시퀀스처럼 처리합니다. LLaVA 1.5와 LLaVA-NeXT는 더 나아가 고해상도 이미지를 여러 타일로 나누어 처리하는 기법을 도입하여 OCR 및 정밀 시각 추론 성능을 비약적으로 향상시켰습니다.

시각-언어 연결 아키텍처 비교 분석

  • 학습 전략: 단순히 캡션을 다는 수준을 넘어, GPT-4 등을 활용해 생성한 합성 데이터(Synthetic Data)가 핵심이 되었습니다. 특히 ShareGPT4V와 같은 데이터셋은 정밀한 시각 정보를 제공하여 모델이 미세한 공간 관계를 추론하도록 훈련시켰습니다.

[2024] 네이티브 멀티모달리티와 프런티어 모델의 패권

2024년은 모델 설계 단계부터 모든 모달리티를 통합 처리하는 ‘네이티브 멀티모달(Native Multimodal)’ 시대가 열렸습니다. 별도의 어댑터 없이 옴니모달 토큰화(Omni-modal Tokenization)를 통해 텍스트, 이미지, 오디오를 단일 공간에서 처리합니다.

아키텍처의 내재적 통합: 옴니모달 토큰화

네이티브 멀티모달 모델의 핵심은 더 이상 별도의 시각 인코더를 어댑터로 붙이는 방식이 아니라는 점입니다. 예를 들어, Google의 Gemini 1.5 Pro는 희소 혼합 전문가(Sparse Mixture-of-Experts, MoE) 트랜스포머 아키텍처를 기반으로 설계되었으며, 학습 초기 단계부터 텍스트, 이미지, 오디오, 비디오를 통합된 고차원 임베딩 공간에서 동시에 처리하도록 훈련되었습니다.

2024 프런티어 VLM 모델 분석

  • 핵심 기술: 입력 이미지의 종횡비에 맞춰 타일을 생성하는 동적 해상도 관리와 비디오를 오디오-비디오 토큰이 교차 배치된 병렬 스트림으로 처리하는 기술이 완성되었습니다.

[2025-2026] 실용성과 신뢰성: 엣지 AI 및 할루시네이션 완화

최신 VLM 연구는 거대화를 넘어 모바일 기기에서의 효율적 구동과 답변의 신뢰성(Grounding) 확보에 집중하고 있습니다.

  • 온디바이스 VLM: 메모리 대역폭 한계를 극복하기 위해 4비트 양자화가 표준이 되었으며, BitNet(1.58비트)과 같은 극단적 경량화 기술이 등장했습니다. 또한 작은 모델이 생성하고 큰 모델이 검증하는 투기적 디코딩과 경량 MoE 기술이 활용됩니다.
  • 신뢰성 지표: 시각적 할루시네이션을 측정하기 위해 다음 세 가지 지표가 중요해졌습니다.
    • CPS (Conditional Prompt Sensitivity): 프롬프트 구조 차이가 할루시네이션에 미치는 영향 측정.
    • CMV (Conditional Model Variability): 동일 프롬프트 내 모델 아키텍처의 취약성 측정.
    • JAS (Joint Attribution Score): 프롬프트와 아키텍처가 결합되어 오류를 증폭시키는 상호작용 측정.
  • 억제 전략: 외부 지식을 검색하는 RAG와 스스로 답변을 검토하는 CoVe(Chain-of-Verification) 기법이 적용됩니다.

[2026년 이후] 미래 전망: 피지컬 AI와 자율적 에이전트

VLM은 이제 디지털 세계를 넘어 물리적 세계에서 행동하는 인공지능으로 확장되고 있습니다.

  • VLA 모델의 등장: 시각-언어-행동(Vision-Language-Action) 모델은 시각적 피드백을 실시간으로 로봇의 제어 토크로 전환합니다. NVIDIA의 GR00T나 Physical Intelligence의 π₀와 같은 모델은 수조 개의 비디오를 학습하여 물리적 법칙을 익히고 있습니다.

  • 스케일링 법칙: 로보틱스 분야에서도 100B 이상의 대규모 모델 도입 시 언어 모델에서 보았던 ‘창발적 능력’이 물리 제어 영역에서 나타날 것으로 기대됩니다.

향후 주요 기술 동향 요약

  1. 자율 에이전트(Agentic AI): 감독 없는 복잡한 워크플로우 수행 및 자기 수정형 공장 구현.
  2. 피지컬 AI(Physical AI): 시각-언어-행동 통합을 통한 인간 수준의 로봇 손재주 구현.
  3. 세계 모델(World Models): 시각적 인과관계를 예측하여 사고를 방지하는 시뮬레이션 능력.
  4. 소버린 멀티모달(Sovereign AI): 지역 데이터 및 보안 규정에 특화된 의료·법률용 VLM.

마치며: 인간의 진정한 동반자로 거듭나는 VLM

지난 10년간 VLM은 파편화된 기술의 결합체에서 완전한 통합 지능으로 진화해 왔습니다. 단순히 이미지를 묘사하던 초기 단계를 지나, 이제는 네이티브 멀티모달 설계를 통해 인간처럼 감각을 융합하고 방대한 문맥 속에서 통찰을 도출하고 있습니다. VLM은 기계가 세상을 이해하는 방식을 근본적으로 변화시키고 있으며, 향후 우리 삶의 모든 기기에 내재된 개인 비서이자 물리적 노동을 돕는 로봇의 두뇌로서 인간의 진정한 동반자가 될 것입니다.

AI의 미래를 바꾸는 Mamba의 4가지 놀라운 진실

2017년 논문 ‘Attention is All You Need’가 발표된 이후, 트랜스포머(Transformer) 아키텍처는 인공지능 세계의 절대적인 지배자로 군림해 왔습니다. 하지만 이 강력한 아키텍처는 태생적인 한계를 안고 있었습니다. 바로 시퀀스 길이가 길어질수록 계산량이 기하급수적으로 늘어나는(O(L2)) ‘제곱의 벽(Quadratic Wall)’입니다. 현대 AI의 끝없는 문맥 욕구는 이 아키텍처를 한계점까지 밀어붙였습니다.

이 거대한 벽을 허물기 위해, 2023년 말 카네기 멜런 대학교의 Albert Gu와 Flash-Attention을 개발을 주도했던 프린스턴 대학교의 Tri Dao의 공동 연구로 발표된Mamba(Linear-Time Sequence Modeling with Selective State Spaces)라는 혁신적인 아키텍처가 등장했습니다. Mamba는 트랜스포머의 성능은 유지하면서도 계산 복잡도를 선형(O(L))으로 낮추며 AI의 새로운 패러다임을 제시했습니다.

이 글에서는 Mamba가 AI의 미래를 어떻게 바꾸고 있는지, 가장 놀랍고 중요한 4가지 진실을 통해 알아보겠습니다.


첫 번째 진실: Mamba의 진짜 혁신은 ‘속도’가 아닌 ‘선택성’에 있다

Mamba의 등장을 단순히 ‘더 빠른 모델’로만 이해한다면 핵심을 놓치는 것입니다. Mamba의 진정한 혁신은 속도가 아닌, ‘선택적 상태 공간(Selective State Space)’이라는 메커니즘을 통해 구현한 ‘선택성(Selectivity)’에 있습니다.

기존의 상태 공간 모델(SSM)은 입력 데이터와 상관없이 정보 처리 방식이 고정된 ‘선형 시불변(Linear Time-Invariant)’ 시스템이었습니다. 이 때문에 계산은 효율적이었지만, 문맥에 따라 어떤 정보가 더 중요한지 가려내는 능력이 부족했습니다.

반면 Mamba는 입력되는 데이터에 따라 실시간으로 어떤 정보를 기억하고 어떤 정보를 잊을지 스스로 ‘선택’하도록 설계되었습니다. 이는 기억을 업데이트하는 핵심 파라미터(B, C, Δ)들을 입력 토큰 자체에 따라 동적으로 바꾸는 방식으로 구현됩니다. 즉, 문맥의 흐름을 파악하고 중요한 정보에 집중하는 능력을 갖춘 것입니다. 바로 이 ‘선택성’ 덕분에 Mamba는 트랜스포머와 대등한 수준의 복잡한 추론 능력을 확보할 수 있었습니다.

트랜스포머의 attention은 입력 데이터의 모든 부분의 관계를 전부 살피기(기억하기) 때문에 연산량이 입력의 제곱에 비례하지만, Mamba는 중요하지 않다고 판단되는 부분은 버리기 때문에 매우 효율적이기는 하지만, 그런 이유로 세세한 부분까지 동일하게 기억하는 능력은 트랜스포머에 비해 떨어지는 것도 사실이다.


두 번째 진실: 메모리를 잡아먹던 ‘KV 캐시’의 종말

트랜스포머 모델이 문장을 생성(추론)할 때 가장 큰 골칫거리는 ‘KV 캐시’였습니다. 모델은 다음 단어를 예측하기 위해 이전에 등장한 모든 단어의 정보를 키(Key)와 값(Value) 형태로 저장해야 했는데, 문맥이 길어질수록 이 캐시가 GPU 메모리를 기하급수적으로 차지하는 병목 현상이 발생했습니다.

Mamba는 이 문제를 근본적으로 해결합니다. 과거의 모든 정보를 일일이 저장하는 대신, 고정된 크기의 ‘상태 벡터(State Vector)’ 하나에 핵심 정보를 압축하여 저장합니다. 따라서 문맥이 아무리 길어져도 Mamba가 사용하는 메모리 양은 거의 일정하게 유지됩니다.
이 차이가 가져오는 이점은 막대합니다. 동일한 하드웨어에서 훨씬 더 많은 동시 접속자를 처리할 수 있고, 추론 처리량은 최대 5배까지 높아집니다. 이는 AI 서비스의 운영 비용을 극적으로 낮추는 전략적 이점으로 직결될 뿐만 아니라, 스마트폰이나 노트북 같은 저사양 기기에서도 강력한 대규모 모델을 구동할 수 있는 가능성을 열었습니다.


세 번째 진실: 가장 놀라운 반전, Mamba와 어텐션은 사실 같은 원리였다

오랫동안 Mamba와 트랜스포머는 서로 다른 철학을 가진 경쟁 관계로 여겨졌습니다. 하지만 2024년 공개된 Mamba-2(Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality)연구는 이 통념을 완전히 뒤엎었습니다. 바로 ‘상태 공간 이중성(State Space Duality)’ 이라는 놀라운 개념을 통해, 두 아키텍처가 수학적으로 동일한 원리에 기반하고 있음을 증명한 것입니다.

이는 Mamba의 순환적 상태 업데이트 방식과 트랜스포머의 어텐션 방식이 본질적으로 같은 계산을 다른 방식으로 풀어내는 것에 불과하다는 의미입니다. 마치 같은 목적지를 가기 위해 한쪽은 순환 도로를, 다른 한쪽은 모든 지점을 연결하는 직선 도로를 이용하는 것과 같습니다.

이는 트랜스포머와 Mamba가 서로 다른 아키텍처가 아니라, 동일한 선형 변환을 하나는 직접적인 위치 간 상호작용(어텐션)으로, 다른 하나는 재귀적 상태 업데이트(SSM)로 계산하는 것임을 의미한다.

이 발견은 두 아키텍처의 장점을 결합한 하이브리드 모델의 이론적 토대를 마련했으며, AI 하드웨어 설계에도 새로운 방향을 제시하고 있습니다.


4. 언어를 넘어 유전체와 의료 영상까지, Mamba가 여는 새로운 AI의 지평


Mamba의 선형 스케일링(O(L)) 특성은 단순히 언어 모델의 효율을 높이는 데 그치지 않습니다. 기존 트랜스포머가 메모리 한계로 인해 제대로 다루지 못했던 ‘초장거리 시퀀스 데이터’ 분야에서 진정한 혁신을 일으키고 있습니다.

  • 유전체학: Caduceus 같은 Mamba 기반 모델은 30억 염기쌍의 인간 게놈 전체를 단절된 조각이 아닌, 하나의 거대한 책으로 취급합니다. 덕분에 이전에는 계산적으로 불가능했던 미묘하고 장거리적인 유전적 서사를 발견하여 질병과의 연관성을 밝혀내고 있습니다.
  • 의료 영상 분석: 수백 장의 슬라이스로 구성된 3D CT나 MRI 같은 방대한 데이터를 효율적으로 처리하여 정밀한 장기 분할 및 진단을 수행합니다. 이는 방대한 데이터를 클라우드로 전송할 필요 없이 병원의 로컬 하드웨어에서 실시간 진단 보조 도구를 구현할 가능성을 열어줍니다.
  • 오디오 처리: Samba-ASR 모델은 매우 긴 연설이나 회의 녹취록을 실시간으로, 그리고 더 적은 오류로 텍스트로 변환합니다. 기존 모델들이 긴 오디오 처리 시 겪던 속도 저하나 환각 현상을 크게 개선했습니다.

마치며: ‘제곱에서 선형으로’, AI의 새로운 패러다임

Mamba는 트랜스포머의 단순한 대체재가 아닙니다. 이는 AI 아키텍처의 패러다임이 비효율적인 ‘제곱 복잡도’에서 효율적인 ‘선형 복잡도’로 이동하고 있음을 보여주는 가장 강력한 증거입니다. 물론 Mamba가 모든 면에서 완벽한 것은 아니며, 특정 정보를 정확히 짚어내는 능력 등에서는 여전히 트랜스포머가 강점을 보입니다. 이 때문에 앞으로는 Mamba의 효율성과 트랜스포머의 정교함을 결합한 Jamba나 Hymba와 같은 하이브리드 모델이 AI 시장의 대세가 될 것입니다.

더 나아가, 거대 모델의 막대한 전력 소비가 사회적 문제로 대두되는 시대에 Mamba의 효율성은 중요한 의미를 갖습니다. 추론 단계에서 압도적인 에너지 효율을 보이는 Mamba는 AI 성능을 높이면서도 탄소 발자국을 줄일 수 있는 ‘그린 AI’의 핵심 기술로 주목받고 있습니다. 이는 단순한 기술적 승리를 넘어, 지속 가능한 AI를 향한 중요한 발걸음입니다.

AI가 거대한 데이터 센터를 넘어 우리 손안의 기기 속으로 들어오는 미래에, Mamba의 급진적인 효율성, 즉 단편적인 에너지 비용으로 지능을 제공하는 능력은 과연 ‘스마트함’의 새로운 표준이 될 수 있을까요? AI 패러다임의 거대한 전환은 이미 시작되었습니다.

PDF 검색의 답답함을 끝낼 ‘ColPali’의 등장

분명히 PDF 안에 있는 내용인데, 왜 검색이 안 될까요?

복잡한 표나 그래프가 가득한 PDF 보고서에서 특정 수치를 찾으려 할 때, 혹은 스캔한 계약서에서 중요한 조항을 검색할 때, 분명히 문서 안에 있는 내용임에도 불구하고 검색 결과에 나타나지 않아 답답했던 경험이 누구나 한 번쯤 있을 것입니다. 이러한 문제가 발생하는 근본적인 원인은 기존의 검색 방식이 문서를 단순한 ‘글자의 나열’로만 취급하기 때문입니다. 광학 문자 인식(OCR) 기술을 사용해 이미지에서 텍스트를 추출하는 방식은 편리하지만, 그 과정에서 표의 구조, 그래프의 형태, 레이아웃과 같은 핵심적인 시각적 문맥을 대부분 잃어버립니다.

이 문제를 해결하기 위해 ColPali(ColPali: Efficient Document Retrieval with Vision Language Models, 2025년 2월)라는 혁신적인 기술이 등장했습니다. ColPali는 문서를 텍스트로 변환하지 않고 ‘이미지 그 자체’로 이해합니다. 이 글에서는 ColPali의 독특한 작동 방식과 그로부터 우리가 발견한 5가지 놀라운 사실을 통해 문서 검색의 미래를 엿보고자 합니다.


텍스트를 읽는 대신, 페이지를 ‘봅니다’

ColPali의 가장 혁신적인 특징은 데이터 처리 과정에서 OCR 단계를 완전히 제거했다는 점입니다.
기존 방식은 ‘이미지 → OCR → 텍스트 → 검색’이라는 여러 단계를 거쳤습니다. 이 과정에서 OCR 엔진이 ‘I(영어 알파벳)’를 ‘1(숫자)’로 잘못 인식하거나 복잡한 레이아웃의 순서를 뒤섞는 등 정보 손실과 오류가 발생할 위험이 항상 존재했습니다. 아무리 뛰어난 검색 모델이라도, 입력되는 텍스트가 잘못되었다면 정확한 결과를 낼 수 없습니다.
반면 ColPali는 문서 페이지를 수많은 작은 이미지 조각(패치)으로 나눈 뒤, 각 조각의 시각적 특징을 직접 이해합니다. 텍스트의 폰트 크기, 그래프의 모양, 표의 열과 행 배치 같은 시각적 문맥까지 그대로 보존하는 것입니다. 이는 단순히 글자를 넘어, 굵고 큰 글씨는 ‘제목’으로, 페이지 하단의 작은 글씨는 ‘각주’로, 특정 색상으로 강조된 부분은 ‘중요 데이터’로 인식하는, 인간과 유사한 수준의 시각적 이해를 의미합니다.

ColPali는 문서 검색 시스템을 단순한 텍스트 매칭기에서 시각적 의미론(Visual Semantics)을 이해하는 지능형 에이전트로 격상시키는 시도라 할 수 있다.


완벽한 기억력의 대가는 ‘엄청난 저장 공간’입니다

ColPali가 페이지의 모든 시각적 세부 정보를 보존하는 능력은 강력한 장점이지만, 동시에 치명적인 단점으로 이어집니다. 바로 인덱스 저장 공간의 폭발적인 증가입니다. ColPali는 한 페이지를 약 1,024개의 작은 이미지 조각으로 나누고, 각 조각을 개별적인 벡터로 변환하여 저장하는 ‘다중 벡터’ 방식을 사용합니다. 이는 페이지의 일부를 하나의 벡터로 압축하는 기존 방식과 비교했을 때 막대한 저장 공간을 필요로 합니다.

아래 표는 기존 밀집 검색 방식과 ColPali의 페이지당 인덱스 크기를 비교한 것입니다. 그 차이는 실로 엄청납니다.

ColPali의 인덱스 크기는 기존 방식에 비해 약 85배나 큽니다. 이는 수백만 페이지 이상의 문서를 다루는 기업 환경에서 스토리지 비용뿐만 아니라, 인덱스를 메모리에 올려야 하는 RAM 요구량까지 급격히 상승시켜 시스템 전체의 총소유비용(TCO, Total Cost of Ownership)을 높이는 직접적인 원인이 됩니다.


영리한 ‘압축 기술’로 비용 문제를 해결합니다

엄청난 저장 공간 문제는 ColPali의 실용화를 가로막는 가장 큰 장벽처럼 보입니다. 하지만 연구자들은 이 문제를 해결하기 위한 영리한 최적화 기술들을 개발했습니다.

첫 번째 해결책은 “이진 양자화(Binary Quantization)”입니다. 이 기술은 복잡한 실수(floating-point)로 이루어진 벡터 값을 ‘0 또는 1’이라는 두 가지 값으로 단순화하여 압축합니다. 이는 마치 수백만 가지 색상을 가진 고화질 사진을 핵심적인 윤곽만 남긴 흑백 스케치로 바꾸는 것과 같습니다. 약간의 세부 정보는 잃지만, 파일 크기는 극적으로 줄어들고 전체적인 형태는 거의 그대로 유지되는 원리입니다. 이를 통해 저장 공간을 무려 32배나 절약하면서도, 검색 정확도 손실은 최소화할 수 있습니다.

두 번째 해결책은 “토큰 풀링(Token Pooling)”입니다. 이 아이디어를 적용한 ‘Light-ColPali’ 라는 연구에서는 문서 페이지의 모든 조각이 중요한 정보를 담고 있는 것은 아니라는 점에 착안했습니다. 문서의 여백이나 배경처럼 의미 없는 이미지 조각을 식별하여 제거함으로써 저장해야 할 벡터 수를 크게 줄입니다. 놀랍게도 벡터 수를 9배나 줄여도(전체의 약 11%만 유지) 원본 성능의 98% 이상을 유지할 수 있음을 보여주었습니다.

이러한 최적화 기술 덕분에 ColPali는 단순한 연구 모델을 넘어, 실제 서비스 환경에 적용될 수 있는 경제성을 갖추게 되었습니다.


기술의 발전 속도: ColPali는 이미 추월당했습니다

AI 기술 분야의 발전 속도는 눈부실 정도입니다. ColPali가 제시한 혁신적인 아키텍처는 매우 강력하지만, 그 아이디어를 계승한 더 새로운 모델들이 이미 등장하여 성능을 뛰어넘고 있습니다.

대표적인 후속 모델은 ColQwen2(2025년 6월)입니다. 이 모델은 ColPali의 구조를 기반으로 하되, 더 최신이고 강력한 비전 언어 모델을 채택했습니다. ColQwen2의 핵심적인 발전은 동적 해상도(Dynamic Resolution) 처리 능력에 있습니다. ColPali가 모든 이미지를 고정된 크기로 조정하면서 긴 영수증 같은 비정형 문서의 정보 왜곡이 발생할 수 있었던 반면, ColQwen2는 원본 문서의 비율을 유지하며 처리하여 이러한 문제를 해결했습니다. 최근 공개된 시각적 문서 검색 성능 평가 벤치마크인 ‘ViDoRe(출시 목적: 기존 텍스트 중심 RAG 평가의 한계를 넘어, 비전-언어 모델이 문서의 시각적 구조까지 이해하는 능력을 측정)’의 결과는 이러한 세대교체를 명확히 보여줍니다.

  • 1위: ColQwen2.5-3b (0.599)
  • 4위: ColPali-v1.3 (0.546)

ViDoRe 벤치마크 리더보드에서 ColPali는 4위를 기록한 반면, ColQwen2 계열 모델들은 더 높은 점수로 1위를 차지했습니다. 이는 ColPali의 실패를 의미하는 것이 아닙니다. 오히려 ColPali가 개척한 ‘시각 중심 검색’이라는 새로운 길 위에서 더 뛰어난 모델들이 빠르게 등장하고 있음을 보여주는 긍정적인 신호입니다.


그럼에도 불구하고, ‘텍스트 검색’은 여전히 강력합니다

모든 문제에 시각 기반 검색이 정답은 아니라는 점도 기억해야 합니다. 놀랍게도 ViDoRe 벤치마크에서 VoyageAI라는 텍스트 기반 상용(Proprietary) 모델이 ColPali보다 높은 3위를 차지했습니다. 이 결과는 우리에게 중요한 통찰을 줍니다. 만약 처리하려는 문서에 복잡한 시각적 요소가 거의 없고, OCR의 성능이 매우 우수하다면, 잘 만들어진 전통적인 텍스트 기반 검색도 여전히 매우 강력하고 효율적일 수 있다는 것입니다.

결국 기술 선택에는 절대적인 정답이 없습니다. 해결하려는 문제의 종류와 다루는 데이터의 특성(텍스트 중심인지, 시각 중심인지)에 따라 최적의 접근법은 달라지기 마련입니다.


이제 우리는 ‘어떻게 볼 것인가’를 질문해야 합니다

ColPali와 그 후속 모델들이 가져온 가장 큰 변화는 문서 검색의 패러다임을 ‘텍스트 중심’에서 ‘시각 중심’으로 전환했다는 점입니다. 우리는 OCR의 한계에서 벗어나 문서의 시각적 뉘앙스와 구조를 온전히 활용할 수 있는 새로운 가능성을 확인했습니다.

물론, 저장 공간과 연산 비용이라는 새로운 과제가 등장했지만, 이진 양자화나 토큰 풀링 같은 최적화 기술을 통해 현실적인 문제들을 극복해 나가고 있습니다. ColPali의 등장은 우리에게 새로운 질문을 던집니다. 이제 개발자들의 고민은 더 이상 ‘어떻게 하면 텍스트를 더 잘 추출할까’에 머물러서는 안 됩니다.

연구자와 엔지니어들은 이제 “어떻게 텍스트를 더 잘 추출할 것인가”를 고민하는 대신, “어떻게 시각적 정보를 더 효율적으로 인덱싱하고 검색할 것인가”에 집중해야 할 시점입니다.

표와 CAD도면을 이해하는 AI: 최신 비정형 데이터 처리 기술 심층 분석

표준적인 검색 증강 생성(RAG) 시스템은 일반 텍스트 문서에서는 매우 효과적으로 작동합니다. 하지만 금융 보고서의 복잡한 표, 연구 논문의 차트, 또는 CAD 도면과 같은 비정형 데이터가 포함된 문서를 처리할 때는 상당한 어려움을 겪습니다. 이러한 시스템은 종종 데이터의 핵심적인 구조와 맥락을 놓치기 때문입니다.

이 글에서는 비정형 데이터 처리의 두 가지 핵심 과제를 심층적으로 다루고자 합니다. 첫째, 여러 행과 열에 걸쳐있는 복잡한 표에서 정확한 정보를 추출하는 기술, 둘째, CAD 도면과 청사진에 담긴 기하학적, 의미론적 정보를 올바르게 해석하는 기술입니다.

이러한 고질적인 문제들을 해결하기 위해 등장한 최신 기술 동향을 분석하고, 각 접근법의 작동 원리와 장단점을 알아보겠습니다.


1부: 복잡한 표(Table) 처리를 위한 RAG 기술의 진화

기존 RAG의 한계: 표 데이터가 손상되는 이유

전통적인 RAG 파이프라인이 왜 복잡한 표 처리에 실패하는지 이해하는 것이 중요합니다. 
문제는 주로 두 가지 핵심적인 병목 현상에서 발생합니다.

  • 구조 파괴: 단순 텍스트 분할기는 표의 구조적 무결성을 고려하지 않습니다. 그 결과, 표를 무의미한 조각으로 잘라내어 행과 열의 관계를 끊어버리고, 데이터의 본질적인 의미를 파괴합니다.

  • 노이즈가 많은 임베딩(Noisy Embedding): 크고 복잡한 표의 원시 텍스트를 그대로 임베딩하면, 벡터에 너무 많은 정보가 뒤섞여 의미 검색에 비효율적인 “노이즈가 많은” 벡터가 생성됩니다. 이는 관련성 높은 정보를 정확히 찾아내는 의미 검색의 정확도를 심각하게 저하시킵니다.

접근법 1: 멀티-벡터 리트리버를 활용한 분리 전략

일반적인 RAG는 텍스트 덩어리(Chunk)를 임베딩해서 벡터 DB에 넣고, 검색되면 그 덩어리 자체를 LLM에게 줍니다. 하지만 “복잡한 표”나 “이미지”는 이 방식이 잘 통하지 않습니다. 표 내부의 숫자를 그대로 벡터화하면 의미가 희석되기 때문입니다.

멀티-벡터 리트리버는 이 고리를 끊습니다.

  • 저장소 1 (Vector Store): 데이터의 ‘요약본(Summary)’만 벡터로 만들어 저장합니다. (검색용)
    요약본 예: “이 표는 2025년 4분기 삼성전자의 부문별 매출액을 보여주며, 반도체 부문이 30% 성장했음을 나타낸다.”

  • 저장소 2 (Doc Store): 데이터의 ‘원본(Raw Content)’을 그대로 저장합니다. (생성용)

이 접근법의 핵심은 데이터의 ‘검색용 표현’과 ‘생성용 표현’을 전략적으로 분리하는 것입니다. Unstructured 라이브러리와 ‘멀티-벡터 리트리버(Multi-Vector Retriever)’를 활용하여 이 문제를 해결할 수 있습니다. 결과적으로 멀티-벡터 리트리버는 “표는 요약으로 검색하고, 답변은 원본으로 한다”는 전략을 구현하는 기술적 모듈입니다.

프로세스 단계별 기술

  • 1단계 (지능형 파싱)
    Unstructured 라이브러리의 partition_pdf와 같은 도구를 이용하여 문서의 시각적 레이아웃을 분석합니다. 이를 통해 일반 텍스트와 표를 지능적으로 식별하고, ‘제목’이나 ‘소제목’을 기준으로 텍스트를 분할하여 문서의 논리적 구조를 보존합니다. 표는 표 그대로, 텍스트는 텍스트 덩어리로 깔끔하게 추출됩니다.

  • 2단계 (요약 및 원본 저장) 
    검색 단계에서는 표와 텍스트 덩어리의 간결한 요약본을 생성하여 임베딩합니다. 이 요약본은 검색 효율성을 극대화합니다. 사용자의 질문과 가장 관련 있는 요약본이 검색되면, 답변 생성 단계에서는 LLM에게 요약본이 아닌 완전한 원본 표 또는 텍스트를 전달합니다. 이로써 LLM은 답변 생성에 필요한 모든 컨텍스트를 확보하게 됩니다.

기대 효과

이 접근법은 검색 효율성과 답변의 정확도를 동시에 높입니다. 요약본을 임베딩함으로써 “노이즈가 많은 임베딩” 문제를 해결하고, 생성 단계에서는 원본 데이터를 제공하여 LLM이 정확하고 상세한 답변을 만들 수 있도록 지원합니다. 이 접근법은 테이블의 크기가 매우 크고 내용이 복잡하여 전체를 임베딩할 경우 심각한 노이즈가 발생하는 금융 보고서나 과학 연구 데이터 처리에 특히 효과적입니다.


접근법 2: 컨텍스트 강화 및 표준화를 통한 정밀도 향상

두 번째 접근법은 데이터를 임베딩하기 전에 LLM을 활용하여 표 데이터 자체를 보강하고 표준화하는 데 초점을 맞춥니다. 핵심은 표의 가독성과 정보량을 극대화하여 LLM이 더 쉽게 이해할 수 있도록 만드는 것입니다.

프로세스 단계별 기술

  • 1단계 (컨텍스트 강화):
    LLM이 추출된 표뿐만 아니라 문서 전체의 주변 텍스트까지 분석합니다. 이를 바탕으로 해당 표가 어떤 맥락에서 사용되었는지 설명하는 풍부하고 상세한 ‘문맥적 설명’을 생성합니다.
  • 2단계 (형식 표준화): 
    LLM이 추출된 표를 일관된 ‘마크다운(Markdown) 형식’으로 변환합니다. 마크다운은 구조가 명확하여 LLM의 이해도를 높이고, 이는 임베딩 효율성 향상으로 이어집니다.
  • 3단계 (통합 임베딩): 
    위에서 생성된 ‘문맥적 설명’과 ‘마크다운 형식의 표’를 결합하여 하나의 정보 밀도가 높은 ‘테이블 청크(table chunk)’를 만듭니다. 이 청크가 최종적으로 임베딩되어 벡터 데이터베이스에 저장됩니다.

기대 효과

이 접근법은 원본 표에 존재할 수 있는 모호함을 줄여줍니다. 풍부한 문맥과 표준화된 형식을 통해, 검색 및 생성 단계에서 LLM이 표의 내용을 훨씬 더 정확하게 이해하고 활용하도록 돕습니다. 이 접근법은 표 자체만으로는 의미가 모호하여 문서의 다른 부분에 흩어져 있는 컨텍스트 정보가 필수적인 법률 계약서나 규제 관련 문서 처리에 특히 유용합니다.

표 처리 기술 요약 및 비교


2부: CAD 도면 처리 기술

픽셀을 넘어 벡터로: CAD 데이터의 본질

건축이나 기계 설계에 사용되는 복잡한 기술 도면은 수많은 선과 기호가 겹쳐 있습니다. 기존의 픽셀 기반 이미지 분석 방식(예: CNN)은 이러한 미세한 구조적 정보를 해석하는 데 명확한 한계를 가집니다.

이 문제를 해결하기 위해서는 패러다임의 전환이 필요합니다. 도면을 픽셀의 집합이 아닌, 기하학적 정보를 담고 있는 ‘벡터 데이터’ 자체로 다루어야 합니다.

접근법 1: 그래프 신경망(GNN)을 이용한 구조적 분석

RAG 시스템을 구축할 때 가장 골치 아픈 데이터가 바로 ‘건설/제조업의 도면 데이터’입니다. 기존 AI(CNN 방식)를 사용하면 도면을 이미지(그림)으로 인식했기 때문에 거기서 도면이 나타내고자 하는 정보를 끄집어 내기가 매우 어려웠습니다.

VectorGraphNet은 도면을 ‘그림’이 아닌 ‘선들의 연결 관계(그래프)’로 해석하여, 복잡한 설계도에서도 벽, 문, 창문 등을 아주 정확하게 찾아내는 AI 기술입니다. 이 접근법은 CAD 도면을 벡터 요소들 간의 관계를 나타내는 ‘그래프(Graph)’로 변환하고, 이를 그래프 신경망(GNN)으로 분석하여 구조적 의미를 파악합니다. 그래서 우리는 다음과 같은 것을 얻을 수 있게 됩니다.

  1. 정확도: 이미지를 눈으로 보는 것보다, 설계 데이터를 직접 뜯어보기 때문에 훨씬 정확하게 객체(벽, 창문, 배관 등)를 식별합니다.
  2. 가벼움: 거대한 이미지를 처리하는 것보다, 선들의 좌표 데이터만 처리하므로 연산량이 훨씬 적습니다.
  3. 응용: 도면 PDF를 넣으면 자동으로 3D 모델로 변환하거나, 특정 부품의 개수를 세는 작업에 활용될 수 있습니다.

프로세스 단계별 기술

  • 1단계 (PDF에서 SVG로 변환): 
    먼저 도면의 벡터 데이터에 직접 접근하기 위해 PDF를 개방형 표준인 SVG(Scalable Vector Graphics) 형식으로 변환합니다. 이 과정에서 선, 사각형, 원 등 모든 개별 도형을 일관된 처리를 위해 기본적인  명령으로 표준화하는 것이 핵심입니다.
  • 2단계 (그래프 구성): 도면을 그래프로 표현합니다.

    노드(Nodes): 각각의 SVG (선, 곡선 등)가 그래프의 노드가 됩니다. 각 노드는 길이, 곡률 같은 기하학적 정보와 색상, 두께 같은 스타일 정보를 특징(feature)으로 가집니다.

    엣지(Edges): 벡터 객체(노드) 간의 공간적 관계(예: 근접성)를 K-최근접 이웃(KNN) 알고리즘으로 계산하여 엣지로 연결합니다. 엣지는 두 객체 간의 각도, 교차점 수, 포함 관계 등의 정보를 특징으로 가집니다.
  • 3단계 (GNN을 통한 의미 분할): 
    구성된 그래프를 ‘그래프 어텐션 네트워크(Graph Attention Network)’와 같은 GNN으로 분석합니다. GNN은 각 노드(선)의 기능적 역할을 예측하는 ‘의미 분할(semantic segmentation)’ (즉, 각 선에 ‘벽’, ‘문’, ‘치수선’과 같은 기능적 역할을 부여하는 작업)을 수행하여 도면의 내용을 구조적으로 이해합니다.

이 기법은 각 요소 간의 기하학적 관계가 매우 중요하며, 선 하나하나의 의미가 전체 구조를 결정하는 건축 설계 도면이나 복잡한 기계 부품도 분석에 최적화되어 있습니다.


접근법 2: 비전-언어 모델(VLM)을 이용한 시각적 이해

CAD 도면은 텍스트(치수, 주석)와 이미지(형상)가 복잡하게 섞여 있어 기존 OCR로는 처리가 거의 불가능한데, ColPali와 같은 VLM 기술을 사용하면 이 문제를 시각적으로 접근하여 해결합니다.

‘ColPali’ 사례를 중심으로 한 이 접근법은 “보는 것이 곧 검색하는 것(What you see is what you search)”이라는 개념에 기반합니다. 도면 페이지를 텍스트나 벡터의 집합이 아닌, 하나의 ‘이미지’로 취급하여 비전-언어 모델(VLM)로 직접 이해합니다. 그렇기 때문에 CAD 도면의 검색과 문맥 파악에 매우 강력하지만, 아주 정밀한 구조 분석에는 한계가 있어, 아직도 많은 연구가 진행이 되고 있는 상황입니다.

프로세스 단계별 기술

1단계 (이미지로 변환)
PDF 페이지를 PNG와 같은 이미지 형식으로 변환합니다.

2단계 (VLM으로 임베딩)
PaliGemma와 같은 VLM이 페이지 이미지를 입력받습니다. VLM은 텍스트 정보뿐만 아니라 레이아웃, 도형,표 등 시각적 요소를 모두 포함하는 컨텍스트화된 임베딩 그리드(패치)를 생성합니다.

3단계 (Late Interaction 검색)
‘Late Interaction'(또는 MaxSim)이라는 메커니즘을 통해 사용자 쿼리의 각 토큰을 문서의 모든 이미지 패치와 개별적으로 비교한 후, 가장 높은 유사도 점수들을 합산하여 최종 관련성을 계산하는 방식으로 가장 관련성 높은 페이지를 효율적으로 검색합니다.

기대 효과 및 장점

이 접근법은 복잡한 벡터 추출이나 그래프 구성 과정이 필요 없어 파이프라인을 획기적으로 단순화합니다. 특히 텍스트 뿐만 아니라 다이어그램, 도식, 복잡한 레이아웃이 중요한 문서 처리에 강력한 성능을 보입니다. 이 방법은 다양한 포맷의 문서(예: 송장, 기술 매뉴얼, 프리젠테이션 슬라이드)를 대규모로 처리해야 하고, 벡터 추출 및 그래프 구성의 복잡성을 피하면서 신속하게 파이프라인을 구축하는 것이 우선 순위일 때 가장 강력한 성능을 발휘합니다.

CAD 처리 기술 요약 및 비교


통합적 접근의 미래

지금까지 우리는 비정형 데이터 처리의 두 가지 주요 난제인 표와 CAD 도면을 해결하기 위한 최신 기술들을 살펴보았습니다.

  • 표 처리 기술은 ‘검색과 생성 컨텍스트의 분리’를 통해 효율성과 정확성을 동시에 잡는 접근법과, ‘사전 데이터 강화’를 통해 LLM의 이해도를 근본적으로 높이는 접근법으로 나뉩니다.
  • CAD 도면 처리 기술은 GNN을 통해 ‘심층적인 구조적 분석’을 수행하는 접근법과, VLM을 통해 ‘단순화된 시각적 이해’를 추구하는 접근법 사이의 선택으로 귀결됩니다.

미래의 시스템은 단순히 기술을 나열하는 것을 넘어, GNN의 정밀한 구조 분석 능력과 VLM의 파이프라인 단순성 및 시각적 이해 능력 사이의 트레이드 오프를 동적으로 저울질 할 것입니다. 예를 들어, 부품 간의 정확한 연결 관계가 법적 효력을 갖는 항공기 설계 도면에서는 GNN 기반 분석이 필수적이지만, 빠른 시각적 참조가 중요한 마케팅 자료 내 다이어그램은 VLM으로 처리하는 것이 더 효율적일 수 있습니다. 이처럼 문서의 ‘목적’과 ‘내용’에 따라 최적의 기술을 지능적으로 선택하고 결합하는 능력이 차세대 문서 이해 시스템의 핵심 경쟁력이 될 것입니다.

단순 RAG를 넘어: Agentic RAG 워크플로우로 복잡한 질문 해결하기

왜 기본적인 RAG(검색 증강 생성)만으로는 부족한가?

기본적인 RAG(Retrieval-Augmented Generation) 시스템은 간단한 사실 조회에는 매우 효과적입니다. 하지만 재무 보고서(SEC 10-K, 10-Q), 연구 논문, 제품 매뉴얼처럼 표와 텍스트가 복잡하게 혼합된 문서나 여러 단계의 추론이 필요한 질문 앞에서는 종종 한계를 드러냅니다. 예를 들어, “지난 분기에 갱신한 기업 고객 중 SSO 관련 지원 티켓을 연 고객은 누구인가?”와 같은 질문은 단일 정보 조각 검색만으로는 답변하기 어렵습니다.

이러한 한계는 다음과 같은 핵심 질문으로 이어집니다. “어떻게 하면 RAG 시스템이 문서의 구조를 더 잘 이해하고, 복잡한 질문에 대해 더 정확하고 신뢰할 수 있는 답변을 생성하게 할 수 있을까?”

이 질문에 대한 해답으로 ‘Agentic RAG’라는 고급 접근 방식이 주목받고 있습니다. 이 방식은 정적인 데이터 검색을 넘어, LLM 에이전트가 동적으로 추론하고 증거를 수집하는 과정을 통해 기존 RAG의 한계를 극복하는 열쇠를 제공합니다. 흔히 ‘Agentic Chunking’이라는 용어가 새로운 문서 분할 기법으로 오해되기도 하지만, 이는 사실상 정적인 청킹을 뛰어넘어 LLM 에이전트가 동적으로 추론하고 증거를 수집하는 ‘Agentic RAG’ 프로세스 그 자체를 의미합니다.


기존 RAG 파이프라인의 명확한 한계

일반적인 RAG 파이프라인은 문서 수집(Ingest), 인덱싱(Index), 검색(Retrieve), 생성(Generate)의 4단계로 구성됩니다. 이 구조는 단순하지만, 실제 운영 환경에서는 여러 가지 문제에 부딪히게 됩니다.

기본적인 RAG 시스템이 실패하는 일반적인 원인은 다음과 같습니다.

  • 단순한 청킹(Naive Chunking)
    문서를 고정된 크기나 간단한 규칙으로 분할하는 방식은 표나 목록과 같은 의미 있는 구조를 파괴하여 중요한 컨텍스트를 손실시킵니다. 예를 들어, 잘 구성된 표가 중간에 잘려나가면 그 안의 데이터는 가치를 잃게 됩니다.

  • 벡터 검색의 한계
    의미적 유사성에만 의존하는 벡터 검색은 ‘SKU-123’과 같은 고유 식별자나 ‘SSO’ 같은 희귀한 약어를 놓치기 쉽습니다. 이러한 용어는 문서 내 발생 빈도가 낮아 임베딩 공간에서 의미를 제대로 포착하기 어렵기 때문입니다.

  • 재순위화(Reranking)의 부재
    초기 검색 결과는 단순히 쿼리와의 의미적 유사도(Cosine Similarity)에 따라 순위가 매겨집니다. 이로 인해 쿼리에 대한 실제 유용성이나 관련성이 높은 정보 조각이 후순위로 밀려날 수 있습니다.

  • 제한된 컨텍스트 창 
    LLM이 한 번에 처리할 수 있는 정보의 양은 제한적입니다. 이 때문에 검색된 중요한 정보가 요약되거나 일부가 누락된 채로 LLM에 전달되어, 모델이 전체적인 맥락을 파악하지 못하고 부정확한 답변을 생성할 위험이 있습니다. 이렇게 빈약하게 검색된 정보는 모델이 근거 없는 세부 사항을 추측하고 채워 넣도록 만들어 환각(hallucination)의 직접적인 원인이 됩니다.

Agentic Chunking의 재정의: 정적 분할에서 동적 오케스트레이션으로

‘Agentic Chunking’은 문서를 사전에 분할하는 새로운 기술이 아닙니다. 이는 복잡한 질문을 해결하기 위해 에이전트(Agent)가 실시간으로 검색 과정을 계획하고 조율(Orchestration)하는 동적인 접근 방식입니다. 즉, 정적으로 잘라 놓은 ‘청크(Chunk)’를 찾는 것을 넘어선 ‘지능형 정보 수집’ 과정이라고 할 수 있습니다.

이러한 패러다임 전환은 RAG의 작동 방식을 근본적으로 바꿉니다. 기존 RAG가 ‘사전에 잘라 놓은 정보 조각을 찾는 것’에 집중했다면, Agentic RAG는 ‘질문에 맞춰 필요한 정보 조각들을 동적으로 찾고, 연결하고, 검증하는 것’으로의 전환을 의미합니다. 에이전트는 복잡한 질문을 해결하기 위한 전략을 스스로 수립하고, 다양한 도구를 활용하여 필요한 증거를 체계적으로 수집합니다.


Agentic RAG의 핵심 워크플로우: Plan-Route-Act-Verify-Stop

Agentic RAG의 에이전트는 복잡한 질문을 처리하기 위해 다음과 같은 5단계의 체계적인 워크플로우를 따릅니다.

1. 계획 (Plan) 
에이전트는 먼저 복잡한 질문을 해결 가능한 여러 개의 하위 질문(sub-questions)으로 분해합니다. 예를 들어, “지난 분기에 갱신한 기업 고객 중 SSO 관련 지원 티켓을 연 고객은 누구인가?”라는 질문은 다음과 같이 분해될 수 있습니다.

  1. 1. 지난 분기에 갱신한 기업 고객 목록을 찾는다.
  2. 2. SSO 관련 지원 티켓을 생성한 고객 목록을 찾는다.
  3. 3. 두 목록을 비교하여 교차하는 고객을 식별한다.

2. 라우팅 및 실행 (Route & Act) 
분해된 각 하위 질문에 가장 적합한 도구(Tool)를 선택하여 실행합니다. 예를 들어, 고객과 계약, 지원 티켓 간의 관계를 파악해야 하는 하위 질문에는 ‘지식 그래프 검색(GraphRAG)’이 효과적입니다. 이는 단순히 유사한 텍스트를 찾는 것을 넘어, 데이터의 ‘맥락(context)’ 자체를 검색할 수 있게 해줍니다. 예를 들어, ‘A 고객이 B 제품 계약을 갱신했고, C 지원 티켓을 열었다’는 관계를 직접 조회할 수 있어 다단계 추론에 필수적입니다. 반면, 특정 날짜나 사실 관계를 확인해야 할 때는 ‘하이브리드 검색(Hybrid Search)’을 사용하여 정확한 정보를 찾습니다.

3. 검증 (Verify) 
각 단계에서 수집된 증거의 품질을 확인하고, 여러 소스에서 얻은 정보가 서로 충돌하지 않는지 검토합니다. 만약 수집된 증거가 불충분하거나 신뢰도가 낮다고 판단되면, 에이전트는 다른 도구를 사용하거나 검색 범위를 넓히는 등 추가적인 정보 수집을 시도합니다.

4. 중단 및 종합 (Stop & Synthesize) 
모든 하위 질문에 대한 충분한 증거를 수집했거나, 미리 정해진 예산(최대 도구 호출 수, 토큰 사용량 등)에 도달하면 정보 수집 과정을 중단합니다. 이후, 수집된 모든 증거들을 종합하여 최종 답변을 생성합니다. 이때 각 주장에 대한 명확한 출처(citation)를 함께 제시하여 답변의 신뢰성과 투명성을 극대화하는 것이 중요합니다.


Agentic RAG를 구동하는 핵심 기술들

Agentic RAG 워크플로우가 효과적으로 작동하기 위해서는 다음과 같은 기반 기술들이 필요합니다.

  • 지능적인 데이터 파싱 (Intelligent Data Parsing)
    Unstructured 라이브러리의 partition_pdf와 같은 도구는 PDF 문서의 레이아웃을 분석하여 텍스트와 표를 깨끗하게 분리합니다. 이를 통해 원본 문서의 구조를 보존하고, 각 요소의 의미를 잃지 않은 상태로 데이터를 처리할 수 있습니다.

  • 다중 벡터 검색 (Multi-Vector Retrieval)
    연구 논문과 같이 복잡한 문서에서 특히 유용한 이 방식은 검색 효율성과 답변 품질을 동시에 높이는 전략입니다. 검색 단계에서는 간결한 ‘요약문’의 임베딩을 사용하여 관련성 높은 후보군을 빠르게 찾고, 이후 LLM에 컨텍스트를 제공할 때는 해당 요약문에 연결된 ‘원본 전체’를 전달합니다. 이를 통해 LLM은 풍부한 맥락 속에서 정확한 답변을 생성할 수 있습니다.

  • 하이브리드 검색 (Hybrid Retrieval) 
    의미 기반의 벡터 검색(Semantic Search)과 키워드 기반의 텍스트 검색(Lexical Search, e.g., BM25)을 결합하는 방식입니다. 벡터 검색이 놓치기 쉬운 고유 명사(SKU-123)나 약어(SSO)는 텍스트 검색이 포착하고, 텍스트 검색이 파악하기 어려운 문맥적 의미(예: ‘수익성 악화 원인’)는 벡터 검색이 보완하는 상호 보완적 관계입니다. 이를 통해 의미적 맥락과 특정 용어를 모두 포착하여 검색의 정밀도와 재현율을 높일 수 있습니다.

  • 지식 그래프 검색 (GraphRAG)
    문서 내의 개체(사람, 제품, 회사 등)와 그들 사이의 관계를 그래프 형태로 모델링합니다. 벡터 검색이 특정 문서 내의 ‘지역적(local)’ 정보 조회에 강점이 있다면, 지식 그래프는 여러 문서에 흩어져 있는 사실들을 연결하여 ‘전역적(global)’ 질문이나 ‘다단계(multi-hop)’ 관계를 추론하는 데 필수적입니다. 이를 통해 단순 텍스트 검색으로는 파악하기 어려운 ‘데이터 간의 복잡한 연결성’과 ‘심층적인 맥락’을 효과적으로 검색할 수 있습니다.

  • 교정 RAG (Corrective RAG – CRAG)
    답변을 생성하기 전에, 검색된 컨텍스트가 질문에 답변하기에 충분히 유용한지 시스템이 스스로 평가하는 피드백 루프입니다. 만약 컨텍스트의 품질이 낮다고 판단되면, 시스템은 자동으로 추가 검색을 실행하여 더 나은 증거를 확보한 후 답변 생성을 진행합니다.

Agentic RAG로 더 똑똑한 AI 시스템 구축하기

이 글에서는 기존 RAG 시스템이 가진 명확한 한계점에서 출발하여, Agentic RAG가 어떻게 이러한 문제들을 해결하는지 살펴보았습니다. Agentic RAG는 정적인 정보 조각을 찾는 것을 넘어, LLM 에이전트가 동적으로 계획을 수립하고 지식 그래프, 하이브리드 검색 등 다양한 고급 기술을 조율하여 복잡한 질문에 대한 답을 찾아가는 능동적인 프로세스입니다.

Agentic RAG를 도입함으로써 우리는 다음과 같은 이점을 기대할 수 있습니다.

  • 정확도 향상: 다단계 추론이나 여러 문서에 걸친 정보 종합이 필요한 복잡한 질문에 대해 훨씬 더 정확한 답변을 제공합니다.

  • 신뢰성 및 설명 가능성 증대: 모든 답변이 어떤 증거(출처)에 기반하여 생성되었는지 명확하게 추적하고 인용(citation)을 제시할 수 있어 결과의 신뢰도를 높입니다.

결론적으로 Agentic RAG는 단순한 기술적 개선을 넘어, AI가 정보를 이해하고 활용하는 방식을 근본적으로 바꾸는 중요한 패러다임의 전환입니다. 이를 통해 우리는 더 정교하고 신뢰할 수 있으며, 비즈니스 질문의 복잡한 ‘의도’까지 파악하여 스스로 해결 전략을 수립하는 진정한 의미의 지능형 AI 시스템을 구축할 수 있을 것입니다.