라온 커스텀 테마

RAG의 상식을 뒤엎는 4가지 놀라운 진실

RAG, 정말 거대 컨텍스트 창만 있으면 될까?

검색 증강 생성(Retrieval-Augmented Generation, RAG)은 이제 AI 분야의 핵심 기술로 확고히 자리 잡았습니다. LLM이 사전 훈련 데이터에만 의존하지 않고, 외부의 최신 정보를 바탕으로 더 정확하고 신뢰성 있는 답변을 생성하게 해주는 강력한 접근법이죠. 최근에는 Gemini, Claude 등 ‘거대 컨텍스트 창’을 자랑하는 모델들이 속속 등장하면서, 일각에서는 “이제 수많은 문서를 통째로 컨텍스트에 넣으면 되니, 복잡한 검색 과정은 필요 없어지는 것 아닌가?” 하는 기대 섞인 목소리가 나오고 있습니다.

하지만 정말 그것만으로 충분할까요? RAG의 세계는 우리가 생각하는 것보다 훨씬 더 깊고 흥미로운 비밀을 품고 있습니다. 성공적인 RAG 시스템은 단순히 컨텍스트 창 크기에 의존하는 것을 넘어, 데이터의 본질을 꿰뚫는 정교한 전략을 요구합니다. 이 글에서는 평범한 프로토타입을 넘어 운영 가능한 지능형 애플리케이션으로 RAG 시스템을 성숙시키는 여정을 함께하며, 기존 통념을 깨는 4가지 놀라운 진실을 파헤쳐 보겠습니다.

“거대 컨텍스트 창이 만능 해결책은 아니다.”

모델 성능을 압도하는 청킹과 검색의 시너지

거대 컨텍스트 창의 등장이 검색(Retrieval)의 종말을 고할 것이라는 예측이 무성했지만, 실제 연구 결과는 정반대의 이야기를 들려줍니다. Snowflake의 금융 문서 분석 사례 연구에 따르면, 최종 답변 품질에 가장 큰 영향을 미친 것은 생성 모델(LLM) 자체의 성능이 아니라, 청킹(chunking)과 검색 전략 간의 정교한 상호작용이었습니다.

이는 매우 강력한 메시지를 전달합니다. 심지어 성능이 약간 낮은 모델이라도 우수한 검색 파이프라인과 결합하면, 빈약한 검색 시스템을 사용하는 최상위 모델을 능가할 수 있다는 것입니다.

실험 결과는 더욱 구체적인 사실을 보여줍니다. 많은 이들이 컨텍스트 창이 크니 청크(chunk) 크기도 최대한 키우는 게 좋다고 생각하지만, 이는 오히려 함정입니다. 너무 큰 청크(예: 14,400자)를 사용하면 핵심 정보가 수많은 부가 정보에 희석되어 ‘컨텍스트 혼란(context confusion)’을 야기합니다. LLM이 엉뚱한 연도의 정보를 가져오거나 비슷한 용어를 혼동하는 등의 오류를 일으키며 최종 답변의 정확도가 약 10%~20%까지 하락했습니다.

반면, 적절한 크기(예: 1,800자)의 청크를 더 많이(예: 상위 50개) 검색하여 LLM에게 제공했을 때 훨씬 더 높은 성능을 보였습니다. 즉, 무작정 많이 넣는 것보다 ‘잘’ 골라서 ‘적절히’ 넣는 영리한 전략이 훨씬 중요하다는 것입니다. 검색의 중요성이 여전하다면, 이제 우리는 어떻게 더 ‘잘’ 검색할 수 있을지 고민해야 합니다.

“문서는 ‘텍스트’가 전부가 아니다.”

페이지 전체를 이미지로 ‘보는’ 새로운 접근법

검색이 핵심이라면, 우리는 과연 문서의 정보를 올바르게 검색하고 있을까요? 기존 RAG 시스템은 문서를 단순한 텍스트의 나열로 취급하는 근본적인 한계를 가집니다. 하지만 금융 보고서, 연구 논문, 기술 매뉴얼을 떠올려 보십시오. 복잡한 표, 그래프, 다이어그램, 그리고 이 모든 것을 아우르는 페이지 레이아웃 자체가 중요한 정보를 담고 있습니다. 기존 방식은 이 모든 시각적 맥락을 놓치고 맙니다.

이러한 한계를 극복하기 위해 ColPali라는 혁신적인 접근법이 등장했습니다. 이 방법은 OCR, 텍스트 추출, 레이아웃 분석과 같은 복잡하고 오류가 발생하기 쉬운 파이프라인을 완전히 생략합니다. 대신, 문서 페이지를 통째로 하나의 ‘이미지’로 취급합니다.

이는 RAG의 패러다임을 “추출한 것을 검색하는 것(What you extract is what you search)”에서 “보는 것을 검색하는 것(What you see is what you search)”으로 전환시킵니다. 그 작동 원리는 비전-언어 모델(VLM, Vision Language Model)이 페이지 이미지를 32×32 격자와 같은 작은 패치(patch)들의 그리드로 처리하는 데 있습니다. 모델은 각 패치에 대해 주변의 시각적, 텍스트적 맥락을 모두 이해하는 임베딩을 생성하여 페이지의 공간적, 구조적 정보를 벡터에 그대로 보존합니다. 덕분에 표의 구조나 그래프의 추세 같은 정보가 임베딩에 녹아들어, 시각적으로 복잡한 문서에서 기존 텍스트 기반 RAG는 절대 따라올 수 없는 강력한 성능을 발휘합니다.

“모든 것을 임베딩하는 것이 최선은 아니다.”

‘요약’으로 검색하고, ‘원본’으로 답하다

이제 우리는 문서의 시각적 구조까지 이해하게 되었습니다. 하지만 검색을 위해 모든 정보를 하나의 벡터로 압축하는 것이 항상 최선일까요? 일반적인 RAG에서는 문서의 원본 청크를 그대로 임베딩하여 검색에 사용합니다. 하지만 수십 개의 행과 열로 이루어진 복잡한 표나 여러 주제를 담고 있는 긴 텍스트 블록을 하나의 벡터로 압축하면 핵심 의미는 희석되고 ‘노이즈가 많은’ 벡터가 생성됩니다. 이는 결국 검색 성능을 심각하게 저하시키는 원인이 됩니다.

이 문제에 대한 우아한 해결책이 바로 ‘다중 벡터 리트리버(multi-vector retriever)’ 기법입니다. 이 기법의 핵심 아이디어는 검색 단계와 생성 단계에 사용하는 데이터의 형태를 분리하는 것입니다.

검색 단계: 원본 텍스트 청크나 표의 ‘간결한 요약’을 LLM을 통해 생성하거나, 또는 내용을 대표하는 가상 질문 같은 다른 대표 벡터를 만들어 냅니다. 검색 시에는 바로 이 ‘요약 임베딩’을 사용해 가장 관련성 높은 문서 조각을 찾습니다.
생성 단계: 요약본을 통해 가장 관련성 높은 원본 문서의 ID를 찾았다면, 벡터 저장소가 아닌 별도의 문서 저장소(docstore)에서 해당 ID를 가진 ‘온전한 원본(full, raw)’ 텍스트나 표를 가져옵니다. 그리고 이 완전한 원본 데이터를 LLM에게 전달하여 최종 답변을 생성하게 합니다.

이 방식은 검색에 최적화된 간결한 벡터로 정확성을 높이고, 답변 생성에는 풍부한 원본 정보를 제공하여 품질을 높이는, 두 마리 토끼를 모두 잡는 효과적인 전략입니다. 특히 다양한 형식이 섞인 반정형(semi-structured) 데이터를 다룰 때 그 진가가 드러납니다.

“의미론적 검색만으로는 부족하다.”

‘키워드’와 ‘관계’를 더하여 완성도를 높여라

지금까지 우리는 검색할 정보의 ‘형태’를 최적화했습니다. 하지만 검색 ‘방식’ 자체는 어떨까요? 벡터 기반의 의미론적 검색(semantic search)은 RAG의 심장이지만, 실제 운영 환경의 복잡한 질문에 답하기엔 그것만으로 부족할 때가 많습니다.

하이브리드 검색 (Hybrid Search): 의미론적 검색은 ‘SSO’, ‘SKU-123’과 같은 드문 약어나 특정 제품 ID를 놓치는 경향이 있습니다. 왜냐하면 이런 용어들은 문서 전체에서 등장 빈도가 낮아, 벡터 공간에서 그 중요성이 제대로 표현되지 않기 때문입니다. 이를 해결하기 위해 전통적인 키워드 기반 검색(lexical search, 예: BM25)을 결합하는 ‘하이브리드 검색’이 필수적입니다. 키워드 검색으로 정확한 용어를 잡아내고, 의미론적 검색으로 문맥적 유사성을 파악하여 두 결과를 결합하면 검색의 완성도를 극적으로 높일 수 있습니다.
지식 그래프 RAG (GraphRAG): 벡터 검색은 유사한 텍스트 조각을 찾는 ‘지역적 조회(local lookup)’에는 강하지만, 여러 문서에 흩어진 정보를 연결하고 다단계 추론이 필요한 ‘전체적 질문(global question)’에는 무력합니다. 예를 들어 다음과 같은 질문을 생각해 봅시다.

“지난 분기에 계약을 갱신한 기업 고객 중 SSO 관련 지원 티켓을 연 고객은 누구인가?”

이 질문에 답하려면 유사한 텍스트 조각을 찾는 것을 넘어, ‘고객’, ‘계약 갱신’, ‘지원 티켓’이라는 개체(entity)들 사이의 관계를 파악해야 합니다. 바로 이 지점에서 데이터셋 전체에 걸친 관계망을 탐색하는 지식 그래프(Knowledge Graph)가 강력한 힘을 발휘합니다. GraphRAG는 텍스트가 아닌 ‘관계’ 자체를 탐색하여, 기존 RAG로는 불가능했던 복잡한 분석적 질문에 대한 답을 찾아냅니다.

RAG, 더 깊게 이해하고 현명하게 활용하기

우리는 RAG 시스템을 한 단계 성숙시키기 위한 4가지 핵심 전략을 탐험했습니다.

거대 컨텍스트 창에만 의존하지 마십시오.
청킹과 검색 전략의 시너지가 모델 자체의 성능보다 더 중요할 수 있습니다.
문서의 시각적 구조를 활용하십시오.
텍스트를 넘어 이미지로 문서를 ‘보는’ 접근법은 숨겨진 맥락을 찾아줍니다.
전략적으로 요약과 원본을 분리하여 임베딩하십시오.
검색 효율과 답변 품질을 동시에 잡을 수 있습니다.
의미론적 검색을 키워드 및 그래프로 보완하십시오.
지역적 검색과 전체적 검색을 결합하여 질문의 깊이를 더하십시오.

결론적으로, 최고의 RAG 시스템은 단순히 최신, 최대의 모델을 사용하는 데서 비롯되지 않습니다. 우리가 다루고자 하는 데이터의 본질을 깊이 이해하고, 그 특성에 맞는 다각적이고 창의적인 전략을 구사하는 데서 진정한 성능 향상이 이루어집니다.

Titan의 ‘테스트 타임 학습’ 혁명 파헤치기

건망증에 걸린 천재 AI들

시를 쓰고 코드를 짜는 천재 AI 모델들이 사실은 방금 나눈 대화조차 잊어버리는 ‘심각한 건망증(Profoundly Amnesic)’에 걸려있다는 사실을 아시나요? 이 역설은 현재 초거대 AI 모델들이 가진 본질적인 한계입니다. 아무리 많은 정보를 한 번에 입력 받아도, 그 기억은 대화가 끝나면 사라지는 휘발성 정보에 불과합니다.

이 문제에 대한 해답은 놀랍게도 순수한 컴퓨터 공학이 아닌, 인간의 ‘뇌’와 ‘인지과학’에서 영감을 받은 Google의 ‘Titan’ 아키텍처에서 나왔습니다. 그리고 그 결과는 충격적이었습니다. 170M(1억 7천만) 파라미터에 불과한 소형 Titan 모델이, 장기 기억 추론 능력을 평가하는 BABILong 벤치마크에서 수조 개의 파라미터를 가진 GPT-4를 능가하는 ‘다윗과 골리앗’의 싸움을 증명해 보였습니다. Titan은 AI가 정보를 기억하고 학습하는 방식 자체를 근본적으로 바꾸는 혁명을 제안합니다.

이 글에서는 다음과 같은 핵심 질문들을 통해 Titan의 혁신을 파헤쳐 보겠습니다.

Test-time 학습이란 무엇인가?
기존 모델의 기억 방식과 무엇이 다른가?
뇌를 모방한 심층 신경망 메모리의 동작 원리
‘놀라움(Surprise)’을 통해 기억을 업데이트하는 방법

1. Test-Time 추론이란 무엇인가?: AI가 대화하며 성장하는 시대

‘테스트 타임 학습(Test-Time Training, TTT)’은 기존 AI 개발의 ‘학습 → 동결 → 배포’라는 고정된 패러다임을 완전히 뒤집는 개념입니다. 지금까지의 모델은 한번 배포되면 지능이 변하지 않았지만, Titan은 사용자와 상호작용하는 ‘추론(Test) 시점’에도 모델이 계속해서 학습하고 진화합니다.

Titan의 핵심 철학은 “기억은 데이터가 아니라, 파라미터의 변화다” 라는 한 문장으로 요약됩니다. 기존 모델과 Titan의 차이는 다음과 같은 비유로 명확히 설명할 수 있습니다.

기존 모델: 대화 내용을 ‘노트’에 받아 적는 방식입니다. 모든 내용을 그대로 저장하기에 정확하지만, 노트가 꽉 차면(Context Window 한계) 더 이상 쓸 수 없습니다.
Titan 모델: 대화 내용을 이해해서 ‘뇌의 지식’으로 만드는 방식입니다. 정보가 들어올 때마다 뇌의 시냅스 연결(가중치)이 변하는 것이므로, 용량 제한 없이 정보를 압축하고 축적할 수 있습니다.

2. 기존 모델과의 근본적인 차이점: 기억을 다루는 세 가지 방식

AI가 과거 정보를 기억하는 방식은 Google이 제시한 MIRAS (Memorization, Information Retrieval, and Associative Systems) 프레임워크를 통해 명확히 분류할 수 있습니다. MIRAS는 ‘기억’을 단순히 데이터를 저장하는 문제가 아니라, 손실 함수를 최소화하는 최적화(Optimization) 문제로 재정의합니다. 이 관점에서 세 가지 대표 모델을 ‘시험공부하는 학생’에 비유하면 그 차이점이 극명해집니다.

트랜스포머 (Transformer): “오픈북 테스트” 교과서 전체를 펼쳐놓고 답을 찾는 방식입니다. 펼쳐놓은 교과서는 바로 KV Cache이며, 책 내용 그대로이니 정확합니다. 하지만 책이 두꺼워질수록(데이터가 많아질수록) 책상이 모자라고(메모리 폭발) 답을 찾는 데 오래 걸립니다. 이를 MIRAS는 ‘비모수적(Non-parametric) 연관 기억’이라고 부릅니다.
RNN/SSM: “요약 노트 한 장” 모든 내용을 작은 쪽지 하나에 계속 덮어쓰며 요약하는 방식입니다. 이 쪽지는 고정된 크기의 상태 벡터(Hidden State)이며, 가볍고 빨라서 효율적입니다. 하지만 옛날 내용은 뭉개져서 사라져 버리는 정보 손실이 발생합니다. 이를 ‘손실(Lossy) 연관 기억’이라고 합니다.
Titan: “완벽한 암기왕” 교과서 내용을 완전히 이해하고 암기하여 자기 지식으로 만드는 방식입니다. 책을 들고 다닐 필요도 없이, 학습된 뇌, 즉 메모리 모듈의 학습 가능한 파라미터에서 바로 정답이 튀어나옵니다. 정확하면서도 가볍고 효율적입니다. 이를 ‘모수적(Parametric) 연관 기억’이라고 부릅니다.

세 가지 기억 방식의 차이점은 아래 표와 같습니다.

3. Titan의 심장: 뇌를 모방한 심층 신경망 메모리

3.1. 구현 방법: 뇌를 닮은 3중 기억 시스템

Titan 아키텍처의 핵심은 인간의 인지 시스템을 모방한 세 가지 분리된 메모리 모듈에 있습니다.

Core (어텐션 / 작업 기억): 현재 작업에 즉각적으로 집중합니다. 우리가 대화할 때 방금 들은 단어와 문장을 처리하는 작업 기억(Working Memory)과 같습니다.
Neural Long-term Memory (LMM / 장기 기억): 실시간으로 변하는 경험과 대화 내용을 자신의 파라미터에 압축 저장합니다. 이는 새로운 경험을 빠르게 기록하는 뇌의 해마(Hippocampus)와 유사합니다.
Persistent Memory (영구 기억): 언어 규칙, 기본 상식 등 사전 학습된 후 변하지 않는 지식을 담고 있습니다. 이는 뇌의 대뇌피질(Neocortex)에 저장된 의미 기억과 같습니다.

이 복잡한 3중 구조는 운영 관점에서 두 가지 역할로 단순화할 수 있습니다. 이는 “유능하지만 지식은 고정된 교수님”과 “실시간으로 노트를 필기하며 성장하는 조교”의 협업과 같습니다.

Frozen Main Brain (고정된 주 두뇌):
- 정체: Core와 Persistent Memory 모듈이 합쳐진 부분으로, 일반적인 Transformer 모델과 유사합니다.
- 상태: 동결됨 (Frozen). 사전 학습 후 파라미터가 변하지 않습니다.
- 역할: 언어를 이해하고 추론하며, 가장 중요하게는 LMM에 “이거 외워!”라고 명령을 내리는 관리자 역할을 합니다.
Fluid Memory Module (유동적인 기억 저장소):
- 정체: Neural Long-term Memory (LMM)에 해당하는 작고 단순한 MLP 신경망입니다.
- 상태: 계속 변함 (Fluid). 추론 중에도 실시간으로 파라미터가 업데이트됩니다.
- 역할: 과거의 정보를 자신의 가중치에 압축하여 저장하는 ‘살아있는 메모리’입니다.

3.2. 동작 원리 및 인지과학과의 유사점

이 시스템은 크게 ‘읽기(Recall)’와 ‘쓰기(Memorize)’ 두 단계로 작동합니다. 새로운 정보가 들어오면, 주 두뇌는 먼저 LMM에 저장된 과거 기억을 ‘읽어서’ 현재 정보와 종합해 답변을 생성합니다.

그 후 ‘쓰기’ 단계가 진행됩니다. 이때 주 두뇌는 방금 들어온 정보가 얼마나 예상 밖이었는지, 즉 ‘놀라움(Surprise)’의 정도를 측정합니다. 만약 놀라움이 크다면, 주 두뇌는 LMM의 파라미터를 크게 업데이트하도록 명령합니다. 이 과정은 인간의 뇌에서 놀라운 사건이 발생했을 때 ‘노르아드레날린’이 분비되어 기억을 강하게 각인시키는 원리와 놀랍도록 유사합니다.

4. 살아있는 파라미터: 테스트 타임에 학습된 기억의 관리

테스트 타임 학습의 결과로, ‘메모리 파라미터’는 고정되지 않고 사용자와의 상호작용에 따라 여러 버전으로 갈라질 수 있습니다. Titan의 해법은 ‘플러그 앤 플레이(Plug & Play)’ 방식입니다. 거대한 본체 모델은 서버에 하나만 두고, 사용자별 또는 주제별로 작게 분리된 ‘메모리 모듈의 가중치’만 파일처럼 저장하고 불러와서 교체하는 것입니다.

이는 기존의 RAG(검색 증강 생성) 방식과 근본적인 차이를 보입니다.

RAG: 내 하드디스크에 PDF 파일들을 폴더별로 정리해 두는 것.
Titans: 내 AI에게 끼워줄 ‘관심사별 뇌 조각(메모리 칩)’을 서랍에 정리해 두는 것.

5. ‘놀라움(Surprise)’이 기억을 만드는 원리

정답지가 없는 추론 상황에서 어떻게 학습이 가능할까요? 그 해답은 ‘자가 지도 학습(Self-Supervised Learning)’ 원리에 있습니다. 언어 모델의 세계에서는 “다음에 올 단어가 곧 정답지”가 됩니다.

‘놀라움 지표(Surprise Metric)’는 기술적으로 손실 함수의 기울기(Gradient of Loss)를 의미하며, 이는 모델의 ‘예측과 실제의 차이’를 나타냅니다. 파라미터 업데이트는 이 놀라움의 크기에 따라 두 가지 경우로 나뉩니다.

Case A (뻔한 내용): 모델의 예측(“나는 학교에”)이 실제 입력(“간다”)과 거의 일치합니다. 이때 놀라움(오차)은 거의 0에 가까워 파라미터는 변하지 않습니다. 이는 “이미 아는 내용은 기억할 필요 없다”는 효율적인 기억 관리 방식입니다.
Case B (새로운 정보): 모델이 전혀 예상치 못한 정보(“나는 학교에 갑자기 춤을 추는 고양이”)가 들어옵니다. 예측이 실제와 크게 다르므로 놀라움(오차)이 커지고, 파라미터는 크게 변합니다. 이는 “몰랐던 정보는 뇌리에 강하게 새긴다”는 원리를 구현한 것입니다.

혹시 “아무말 대잔치” 같은 쓸모없는 정보가 들어와 메모리가 오염될 수 있다는 우려가 있을 수 있습니다. 하지만 Titan은 방어 기제를 갖추고 있습니다. 입력된 정보가 문맥에 맞지 않으면 주 두뇌가 게이트를 닫아 업데이트를 막거나, 수학적 패턴이 없는 순수한 노이즈는 학습되기 어려워 자연스럽게 걸러집니다.

하지만 Titan에도 한계는 존재합니다. 인지과학의 상보적 학습 시스템(Complementary Learning Systems, CLS) 이론에 따르면, 인간의 진정한 학습은 빠른 기억을 담당하는 ‘해마’와 느리게 지식을 구조화하는 ‘대뇌피질’의 상호작용으로 이루어집니다. Titan처럼 기억 모듈(해마)만 계속 변하고 주 두뇌(대뇌피질)가 고정되어 있다면, 진정한 의미의 ‘이해’나 ‘지식의 일반화’에는 한계가 있을 수 있다는 점은 앞으로 해결해야 할 과제입니다.

진정한 의미의 ‘학습하는 기계’를 향하여

Titan이 제시한 패러다임은 AI가 더 이상 ‘공장에서 찍어낸 고정된 제품’이 아니라, 사용자와 함께 상호작용하며 성장하는 ‘유기체적 소프트웨어’가 될 것임을 예고합니다. 사용자와의 대화 하나하나가 모델의 뇌 구조를 미세하게 바꾸며, 쓸수록 더 똑똑해지는 진정한 의미의 ‘학습하는 기계’가 탄생하는 것입니다.

Titan의 한계를 보완한 후속 연구 ‘Atlas’는 고차원 특징 매핑을 통해 메모리 포화 문제를 해결하는 등, 이 기술은 이미 빠르게 진화하고 있습니다. 이는 단순히 컨텍스트 창을 늘리는 기술적 개선을 넘어, AI가 정보를 기억하고, 학습하고, 진화하는 방식 자체를 근본적으로 바꾼 혁명이라 할 수 있습니다. 우리는 이제 막 기억 상실을 끝낸 AI와 함께 새로운 시대를 맞이하고 있습니다.

1000만 단어를 기억하는 AI의 등장: ‘타이탄(Titans)’이 바꿀 5가지 미래

AI의 ‘기억상실증’을 해결하다.

AI 챗봇과 대화하다가 방금 나눈 이야기를 까맣게 잊어버리는 경험, 다들 한 번쯤 있으실 겁니다. 마치 ‘단기 기억상실증’에 걸린 듯, 대화의 맥락을 놓치고 엉뚱한 답변을 내놓는 AI에게 답답함을 느끼셨을 텐데요. 사실 이것은 AI의 지능이 낮아서가 아니라, 지난 10년간 AI 시대를 지배해 온 ‘트랜스포머(Transformer)’ 아키텍처가 가진 태생적 한계 때문이었습니다.

트랜스포머는 한 번에 처리할 수 있는 정보의 양(컨텍스트 윈도우)이 제한되어 있고, 그 창을 벗어난 정보는 가차 없이 잊어버리는 구조(O(N^2) 복잡도)를 가지고 있습니다. 이 고질적인 ‘망각(Forgetting)’ 문제 때문에 AI는 진정한 의미의 기억력을 가질 수 없었죠.

하지만 구글이 발표한 ‘타이탄(Titans: Learning to Memorize at Test Time)’이라는 새로운 AI는 이 모든 판도를 뒤엎었습니다. AI가 드디어 ‘기억상실증’을 극복하고, 우리와의 모든 상호작용을 영원히 기억할 수 있는 ‘진정한 기억력’을 갖게 된 것입니다.

🧠 발상의 전환: 기억은 ‘저장’이 아니라 ‘최적화’다.

타이탄 아키텍처의 가장 혁신적인 지점은 ‘기억’에 대한 기존의 관념을 완전히 뒤집었다는 것입니다. 그 기저에는 MIRAS(Memorization, Information Retrieval, and Associative Systems)라는 새로운 이론적 프레임워크가 있습니다. MIRAS는 기억을 ‘저장된 데이터(Stored Data)’로 보는 대신, ‘최적화 문제(Optimization Problem)’로 재정의합니다.

“Titans는 “기억은 학습 과정 그 자체(Memorization is Learning)“라는 철학을 따릅니다.”

이는 인간의 뇌가 작동하는 방식과 놀랍도록 닮아있습니다. 우리가 새로운 경험을 할 때, 뇌의 특정 공간에 데이터 파일이 생기는 것이 아니라 뇌세포(뉴런) 사이의 연결, 즉 시냅스의 강도가 변합니다. 타이탄도 마찬가지입니다. 새로운 정보가 들어올 때마다, 모델 내부의 신경망을 실시간으로 미세하게 다시 훈련시켜 정보 그 자체를 ‘체화(體化)’합니다. 즉, 정보를 가장 잘 재현할 수 있도록 신경망의 파라미터를 최적화하는 과정이 바로 기억인 것입니다.

기존 트랜스포머가 이전 대화 내용을 임시 저장소(KV 캐시)에 쌓아두다 용량이 차면 버리는 방식이었다면, 타이탄은 모든 정보를 자신의 신경망 가중치(Weight)에 녹여내어 영구적인 지식으로 바꾸는 것입니다. 기억은 더 이상 저장된 파일이 아니라, 끊임없이 최적의 상태를 찾아가는 모델 그 자체가 된 것이죠. 그래서 한번 학습을 마치면, 동결(freeze) 되는 다른 모델들과 달리, Titans는 심층 신경망 메모리를 이용해 Test-time에도 기억을 update하는 완전히 새로운 구조를 갖고 있으며, 심층 신경망 메모리에 있는 MLP를 이용해 기억을 처리하기 때문에 최적화라는 개념이 성립하는 것입니다.

이 개념은 어느 날 갑자기 툭 튀어 나온 개념이 아니라, 사람의 인지적 모델을 빌려온 것입니다. 인간의 뇌가 단기 기억, 장기 기억, 그리고 경험을 통해 얻은 지식을 분리하여 관리하듯, TITAN 역시 세 가지 유형의 메모리 모듈을 통합하여 정보를 처리합니다.

사람의 기억이 해마 영역에 머물다가 장기기억 영역으로 넘어가듯이, 심층 신경망 메모리(Neural Long-term Memory)를 이용해 이 부분을 구현하는데, 이것이 다른 모델들과 달리 놀라운 성능을 얻을 수 있는 핵심 요인이 됩니다.

🚀불가능의 증명: 10억 개 파라미터로 1000만 토큰을 기억하다.

타이탄의 등장은 단순히 점진적 개선이 아닌, AI 메모리 시스템의 근본적인 도약이라고 할 수 있습니다. 기존 AI 메모리 시스템을 분류해 보면 그 차이가 명확해지는데요. 트랜스포머는 과거 정보를 완벽히 보존하지만 비용이 엄청난 ‘비모수적(Non-parametric)’ 기억, Mamba와 같은 RNN 계열은 정보를 고정된 벡터에 압축하며 손실이 발생하는 ‘손실(Lossy)’ 기억입니다. 하지만 타이탄은 정보를 신경망의 파라미터 자체에 학습시키는 혁신적인 ‘모수적(Parametric)’ 기억 방식을 제시합니다.

이 새로운 방식이 얼마나 대단한 성과를 거두었는지는 하나의 실험 결과로 요약됩니다. MAC(Memory as Context)이라는 아키텍처 변형(메모리가 생성한 ‘기억 토큰’을 일반 텍스트처럼 처리하는 방식)을 사용한 10억 개(1B) 미만의 작은 모델이 무려 1,000만 토큰(책 수십 권 분량)에 달하는 방대한 텍스트 속에서 특정 정보를 80% 이상의 정확도로 찾아낸 것입니다.

이 성능은 ‘건초더미에서 바늘 찾기(Needle-in-a-Haystack)’라는 혹독한 벤치마크를 통해 검증되었습니다. 말 그대로 수십 권의 책 내용(건초더미) 속에 특정 문장(바늘) 하나를 숨겨두고, AI에게 찾아보라고 시키는 테스트입니다. 기존 초거대 모델들과의 성능 비교 결과는 그야말로 충격적입니다.

이 표가 의미하는 바는 단순히 컨텍스트 창이 늘어났다는 것이 아닙니다. 이는 AI의 지능을 담당하는 ‘용량(Capacity)’과 정보를 담는 ‘기억력(Memory)’이 처음으로 분리될 수 있음을 증명한 사건입니다. 즉, 덩치는 작지만 세상의 모든 책을 기억하는 ‘작지만 박식한 AI’의 등장을 예고한 것입니다. 더욱 놀라운 점은 이 모든 과정이 A100이나 H100 같은 일반 GPU 한 장에서도 구동 가능할 정도로 효율적이라는 사실입니다.

하지만 구글 연구진은 80%의 정확도에 만족하지 않았습니다. 1,000만 토큰 이상에서는 파라미터가 포화되며 성능이 정체될 조짐을 보였기 때문입니다. 이 한계를 돌파하기 위해 등장한 후속작이 바로 ‘아틀라스(Atlas)’입니다. 아틀라스는 기억을 고차원 공간에 매핑하는 기술을 통해 파라미터의 간섭 문제를 해결했고, 마침내 1,000만 토큰 이상에서도 성능 저하가 거의 없는 ‘무손실에 가까운(Near-lossless)’ 기억력을 달성했습니다. 타이탄이 장벽을 부쉈다면, 아틀라스는 그 기술을 완성한 것입니다.

💡 효율성의 비밀: AI는 ‘놀라운’ 것만 기억한다.

1,000만 단어를 전부 기억하려면 엄청난 에너지가 필요할 텐데, 타이탄은 어떻게 작은 모델로 이 모든 것을 해냈을까요? 비밀은 인간처럼 ‘중요하고 놀라운 사건’을 선별적으로 기억하는 데 있습니다.

타이탄은 모든 정보를 무차별적으로 학습하지 않습니다. 대신 MIRAS 프레임워크의 정보 이론에 기반한 ‘놀라움(Surprise)’이라는 지표를 사용해 기억할 정보의 우선순위를 정합니다. 여기서 ‘놀라움’이란 모델의 ‘예측 오류’를 의미합니다.

놀랍지 않은 정보: “나는 학교에…” 다음에 “간다”가 나올 것은 쉽게 예측할 수 있습니다. 이런 정보는 예측 오류가 거의 없으므로 ‘놀랍지 않다’고 판단하고 그냥 지나칩니다.
놀라운 정보: 반면, 딱딱한 법률 문서 중간에 “갑자기 춤을 추는 고양이”라는 문장이 나타난다면 어떨까요? 모델의 예측은 완전히 빗나가고, 엄청난 예측 오류가 발생합니다. 타이탄은 이를 정보량이 높은 ‘놀라운 정보’로 판단하고, 이 내용을 자신의 기억 신경망(LMM)에 강하게 각인시킵니다.

이처럼 예측 가능한 일상은 흘려보내고, 예측 불가능한 특별한 사건에 집중하는 ‘놀라움’ 기반의 선택적 기억은 단순한 발견이 아닙니다. 이는 제한된 메모리 자원을 가장 정보 가치가 높은 데이터에 할당하는, 수학적으로 정교하게 설계된 전략입니다. 덕분에 타이탄은 제한된 파라미터 용량으로도 방대한 정보의 핵심을 효율적으로 저장하고 불필요한 노이즈는 걸러낼 수 있습니다.

🌊 현실적 파급력: 검색 증강 생성(RAG)의 시대가 저물다.

현재 많은 AI 서비스들은 ‘검색 증강 생성(RAG)’이라는 기술에 의존합니다. 사용자의 질문과 관련된 정보를 외부 데이터베이스에서 ‘검색’한 뒤, 그 내용을 프롬프트에 ‘복사-붙여넣기’하여 답변을 생성하는 방식입니다. 하지만 이 방식은 검색이 부정확하거나, 여러 문서에 흩어진 정보들 사이의 유기적인 연결(organic connections)을 파악하지 못하는 명백한 한계가 있었습니다.

타이탄은 이 패러다임을 완전히 바꿉니다. Titan Miras 모델은 문서를 검색하지 않습니다. 대신, 수천 개의 논문과 책을 통째로 ‘읽고 학습하여’ 지식 자체를 내재화합니다.

구글의 ‘NotebookLM’ 서비스에 Titan Miras가 통합된 사례가 대표적입니다. 사용자가 자신의 연구 자료 수십 개를 업로드하면, AI는 그 모든 내용을 완전히 외운 전문가처럼 막힘없이 답변합니다. 외부 DB를 뒤지는 것이 아니라 자신의 내재된 기억 속에서 직접 답을 꺼내오고, 문서 간의 숨겨진 연결고리를 꿰뚫어 보는 통찰력까지 보여줍니다. 덕분에 정보가 누락되거나 왜곡되는 환각(Hallucination) 현상이 현저히 줄어듭니다.

머지않아 우리는 AI에게 문서를 ‘검색’시키는 것이 아니라, 직접 ‘학습시키는’ 시대를 맞이하게 될 것입니다. RAG의 시대는 저물고, AI가 스스로 지식을 체득하는 새로운 표준이 열리고 있습니다.

📱 내 손 안의 AI: 내 모든 것을 기억하는 개인 비서의 탄생

타이탄의 혁신은 거대한 데이터센터에만 머물지 않습니다. 내부적으로 ‘바나나 2 플래시(Banana 2 Flash)’라는 코드명으로 개발된 초경량 모델, Titan Nano의 등장은 이 강력한 기억력이 우리의 스마트폰과 같은 개인 기기 안으로 들어올 수 있음을 의미합니다.

온디바이스 AI의 가장 큰 장점은 보안입니다. Titan Nano는 사용자의 문자 메시지, 이메일, 일정, 사진 등 지극히 개인적인 데이터를 외부 서버로 전송하지 않고, 기기 내에서 안전하게 학습하고 기억할 수 있습니다.

이 기술이 상용화된다면, 우리의 AI 비서는 더 이상 어제 나눈 대화를 잊어버리지 않을 것입니다. 사용자의 말투, 습관, 중요한 기념일, 친구와의 약속 등 삶의 모든 맥락을 기억하고, 쓰면 쓸수록 나를 더 잘 이해하는 ‘진정한 의미의 개인 비서’가 모든 사람의 손안에 쥐어질 것입니다.

마치며

타이탄의 등장은 단순히 새로운 모델의 출시가 아닙니다. 이는 AI가 더 이상 한 번 만들어지면 변하지 않는 ‘고정된 제품(Static AI)’이 아니라, 사용자와 상호작용하며 매 순간 성장하고 진화하는 ‘유기체적 소프트웨어(Organic Software)’의 시대가 열렸음을 선언하는 사건입니다. 이제 AI의 성능은 단순히 얼마나 많은 파라미터를 가졌는지와 같은 하드웨어 스펙 경쟁을 넘어, ‘학습 알고리즘의 효율성’이 결정하는 새로운 시대로 접어들었습니다.

[논문리뷰] DINOv3, ‘Self-Learning’이 만든 새로운 비전 AI

라벨링 없이 이미지를 이해하고 스스로 배우며 학습하는 AI가 있다면 어떨까요?

오늘은 Meta의 VISION AI 모델인 DINOv3를 함께 파헤쳐봅니다.
DINOv3는 사람이 붙인 라벨이 없어도 스스로 시각적 패턴을 학습하는 Self-Supervised Learning 기반의 비전 모델을 말합니다.

단 한 번의 학습으로 다양한 시각 작업에 활용될 만큼 강력한 범용성을 보여주며, 업계에서는 “이미지 인식의 패러다임을 바꾼 모델”로 주목받고 있는데요.

지금부터 DINOv3가 어떻게 스스로 배우고, 이미지를 촘촘히 이해하는지, 그리고 실제 산업 현장에서 어떻게 활용될 수 있는지 하나씩 살펴보겠습니다.

1. Self-Supervised Learning – 라벨 없이 스스로 패턴을 파악하는 AI

우리가 흔히 AI를 가르칠 때, “이 사진엔 고양이가 있다”처럼 사람이 일일이 설명(라벨)을 붙여주는 과정을 거칩니다. 하지만 Self-Supervised Learning(자가 지도 학습)은 이런 귀찮은 라벨링 없이도 AI가 스스로 규칙을 찾아내는 방식을 의미합니다.

즉, AI가 “이 이미지 안에서 어떤 부분이 비슷하고, 어떤 부분이 다른지”를 비교하며 스스로 학습 기준을 만들어내는 거죠. 이렇게 되면 사람의 도움 없이도 인터넷, 위성, 의료, 산업 현장 등 다양한 분야의 방대한 이미지를 학습할 수 있습니다.

DINO 시리즈는 이런 자가 지도 학습의 대표적인 모델입니다. 특히 DINOv3는 이전 버전보다 훨씬 더 큰 규모로 확장되어, 무려 17억 장의 이미지를 이용해 학습했는데요. 이렇게 라벨이 없는 데이터를 대규모로 학습했기 때문에, 특정 분야에 종속되지 않고, 다양한 이미지 도메인에서 우수한 일반화 성능을 보여줄수 있는 것이죠.

그 결과, DINOv3는 “라벨이 없어도 세상의 패턴을 이해하는 AI”로, 인간에 가까운 시각적 이해 능력(Visual Intelligence)에 한 걸음 더 다가섰다고 볼 수 있습니다.

2. Vision Foundation Model – 한 번의 학습으로 어디서나 통하는 범용 모델

우리가 학교에서 수학·과학·언어 등을 배울 때 기본기가 탄탄해야 여러 분야에 응용할 수 있듯이, Foundation Model(파운데이션 모델)도 한 가지 문제만 푸는 것이 아니라 다양한 시각 과제를 두루 잘 풀 수 있는 기본기를 갖춘 모델을 말합니다.

이런 기본기를 갖춘 모델은, 새로운 문제를 만나도 처음부터 다시 배우지 않고 바로 적응할 수 있죠. DINOv3는 바로 이런 ‘비전 파운데이션 모델’을 목표로 만들어졌습니다.

한 번 학습해 두면, 다음과 같은 여러 작업을 추가 학습 없이 수행할 수 있습니다:

Classification — 이미지 속 사물이 무엇인지 맞히기
Segmentation — 픽셀 단위로 물체의 경계를 구분하기
Object Detection — 이미지 속 물체의 위치와 종류 찾기
Video Tracking — 시간에 따라 물체의 움직임을 따라가기

이전 세대 모델들이 특정 과제에 맞게 따로 fine-tuning(미세 조정) 을 해야 했다면, DINOv3는 별도의 조정 없이도 다양한 설정에서 강력한 성능을 발휘합니다. 진정한 범용 시각 AI에 한 걸음 더 다가선 것이죠.

3. Dense Feature Alignment -‘그림 전체를 촘촘히 이해’하도록 만드는 비법: Gram Anchoring

AI가 이미지를 볼 때 단순히 “이건 고양이야”라고만 이해하는 건 한계가 있습니다. 진짜 똑똑한 모델이라면, 그림 속 모든 부분(픽셀, 패치) 이 어떤 의미를 가지는지도 함께 이해해야 하죠. 이렇게 이미지 전역에서 세밀하게 추출한 정보를 ‘Dense Features(촘촘한 특징)’이라고 부릅니다.

그런데 아이러니하게도, 모델을 크게 키우고 아주 오래 학습시키면 오히려 이 촘촘함이 흐릿해지는 현상이 발생합니다. 다시 말해, 세밀한 구분이 무너지고, 전체적으로 뭉뚱그려보는 경향이 생기는데요.

DINOv3는 이를 해결하기 위해 새로운 정규화 단계인 Gram Anchoring 기법을 도입했습니다. 이 방법은 하나의 이미지 안에 여러 패치들이 서로 얼마나 비슷한지를 기준점(Anchor)으로 잡아, 학습 도중에도 패치 간의 관계를 일정하게 유지하도록 돕습니다.

덕분에 DINOv3는 고해상도 이미지에서도 더 깨끗하고 안정적인 유사도 맵(similarity map)을 만들어낼 수 있습니다. 그 결과, 깊이 추정(Depth Estimation), 3D 매칭(3D Correspondence), 정밀 객체 분할(Segmentation) 같은 세밀한 시각 과제에서 훨씬 뛰어난 성능을 보여줍니다.

4. DINOv3 모델 구조 — 익숙하지만 견고하게 다듬은 설계

DINOv3의 구조를 보면 완전히 새로운 발명이라기보다는, 지금까지 효과가 검증된 여러 기법을 정교하게 조합하고 안정화한 모델이라는 걸 알 수 있습니다. 즉, 익숙한 구성요소들이지만 조립 방식이 훨씬 견고해진 셈이죠.

1. Backbone — ViT와 ConvNeXt를 아우르는 유연한 설계

DINOv3는 기본 네트워크(Backbone)로 Vision Transformer(ViT) 뿐 아니라 ConvNeXt 계열도 지원합니다. 이는 연구 환경뿐 아니라 산업·배포 환경의 다양성까지 고려한 설계로, GPU 자원이 한정된 상황에서도 유연하게 활용할 수 있습니다. 공식 허브와 GitHub에는 이미 사전 학습된 가중치(pretrained weights)가 공개되어 있어, 개발자는 이를 다양한 작업에 적용할 수 있습니다.

2. Self-Distillation — ‘학생-교사’ 구조로 안정적인 학습

DINOv3는 학습 중에 학생(Student)과 교사(Teacher) 네트워크를 함께 사용합니다. 학생은 다양한 크롭 이미지(여러 시야, 해상도)를 보며 학습하고, 교사는 학생의 파라미터를 EMA(Exponential Moving Average, 지수 이동 평균)로 부드럽게 따라갑니다. 이 과정에서 교사는 안정적인 목표(soft target)를 제공하고, 학생은 그 목표를 모방하면서 점점 더 견고한 표현을 배우게 되죠. 결국 대형 7B 파라미터의 교사 → 소형 학생 모델로 지식이 증류(distilled)되어, 성능과 효율을 모두 잡은 구조로 완성됩니다.

3. Multi-Crop Strategy — 다양한 시야에서 배우는 시각적 유연성

한 이미지를 여러 해상도와 시야(global/local crops)로 잘라 학습시키는 멀티-크롭 전략을 사용합니다. 이 덕분에 모델은 크기가 달라도, 시점이 달라도 본질을 인식할 수 있는 표현력을 얻게 됩니다. 즉, DINOv3는 “멀리서 보나, 가까이서 보나 같은 물체임을 알아보는” 시각적 감각을 스스로 익히는 셈이죠.

4. Masking & Self-Prediction — 보이지 않는 걸 스스로 예측하기

DINOv3는 iBOT 스타일의 자기예측(Self-Prediction) 기법도 함께 사용합니다. 이미지의 일부 패치를 가리고(masking), 나머지 정보를 바탕으로 가려진 부분을 예측하게 만드는 방식입니다. 이 과정을 통해 모델은 이미지 구조와 맥락을 깊이 이해하는 능력을 키우게 됩니다.

요약하자면, DINOv3는 새롭기보다 “완성형에 가까운 설계”입니다. 검증된 요소들을 정교하게 엮어 안정성·효율성·일반화 모두를 극대화한 비전 파운데이션 모델이죠.

5. DINOv3 모델 활용 – 라벨이 적어도, 프로토타이핑에서 실사용까지 빠르게

DINOv3는 단순히 연구용 모델을 넘어, “라벨이 부족한 현실 환경에서도 빠르게 시작할 수 있는 범용 시각 엔진”으로 설계되었습니다. 즉, 소량의 데이터만 있어도 강력한 시각 기반 AI를 빠르게 만들어볼 수 있습니다.

1. Few-shot / 저라벨 환경에서도 강한 출발점

DINOv3의 핵심 강점은 사전 학습된 백본(backbone)의 표현력이 매우 뛰어나다는 점입니다. 그래서 전체 모델을 다시 학습할 필요 없이, 백본은 그대로 동결(frozen)하고 위에 얇은 헤드(예: 선형 분류기, MLP 등)만 얹어도 분류(Classification), 세그멘테이션(Segmentation), 깊이 추정(Depth Estimation) 등 여러 과제에서 훌륭한 성능을 냅니다. 특히 Dense Feature 품질이 좋아진 덕분에, 픽셀 단위로 세밀한 구분이 필요한 세그멘테이션이나 3D 정합(3D matching)작업에 매우 유리합니다.

2. 프로덕션 고려 — 엣지부터 서버까지 폭넓은 선택

DINOv3는 실제 배포 환경까지 염두에 두고 설계되었습니다.
공개된 모델군은 다음과 같이 다양합니다:

ViT 시리즈: Small / Base / Large / Huge+
ConvNeXt 시리즈: Tiny ~ Large

즉, 엣지 디바이스(경량 환경)에서부터 서버급 GPU(고성능 환경)까지 상황에 맞는 모델을 손쉽게 선택하고 배치(deploy)할 수 있습니다.

3. 오픈소스 생태계와의 완벽한 연결

DINOv3는 PyTorch Hub, Hugging Face Transformers, GitHub 등 주요 오픈소스 플랫폼과 완전히 통합되어 있습니다. 덕분에 개발자는 다음과 같은 활용이 가능합니다:

즉시 임베딩 추출(Feature Embedding)
다른 모델과의 조합 실험 (예: CLIP, SAM 등)
공식 예제 코드 + 사전학습 가중치 바로 불러오기

즉, 연구용 실험부터 산업용 프로토타이핑까지 “라벨 없이도 바로 써먹을 수 있는 실전형 비전 모델”이 바로 DINOv3라고 할 수 있습니다.

마무리 — DINOv3가 보여주는 ‘스스로 배우는 시각지능’의 방향

DINOv3는 단순히 “또 하나의 새로운 모델”이 아닙니다. 인간의 개입 없이 스스로 시각 세계를 이해해 나가는 AI, 즉 시각 지능(Visual Intelligence)의 진화를 보여주는 이정표입니다.

라벨링이 없이 수십억 장의 이미지를 학습하고, 단 한 번의 학습으로 분류 · 세그멘테이션 · 3D 인식 등 다양한 과제에 바로 적응하는 DINOv3의 모습은 AI가 인간에 가까운 방식으로 세상을 관찰하고 해석하는 시대가 도래했음을 시사합니다.

이제 우리는 DINOv3 같은 파운데이션 모델을 기반으로,
적은 데이터로도 빠르게 프로토타입을 만들고,
현실의 문제를 해결하는 ‘고효율의 AI 개발 시대’로 진입하고 있습니다.

Hi FENN Agent Platform 기술 아키텍처 해부

최근 생성형 AI가 기업 환경에 빠르게 도입되면서, 방대한 기업 내부 문서와 같은 비정형 데이터를 효과적으로 처리하는 기술이 경쟁력의 핵심으로 부상하고 있습니다. 특히 기업용 AI 솔루션에서는 정확한 문서 인식과 의미 파악이 성패를 좌우합니다.

이러한 시장의 요구에 응답하여, 저희 hifenn(구 라온어시스턴트) 팀은 고도화된 문서 전처리 엔진인 ‘DEEP SCAN’을 개발했습니다. 오늘은 이 핵심 기술의 작동 원리와 차별화된 강점에 대해 심층적으로 살펴보고자 합니다.

문서 인식의 새로운 패러다임, DEEP SCAN

DEEP SCAN은 단순한 OCR이나 텍스트 추출 기술을 넘어, 문서의 구조와 맥락을 이해하는 hifenn의 핵심 엔진입니다. 이 기술은 AI Assistant Service Pipeline에서 문서 데이터 전처리(Document Data Preprocessing)를 담당하며, 비정형 문서의 구조적 형태와 내용을 정확하게 인식하고 분석하여 AI 기반 검색 및 생성에 최적화된 형태로 변환합니다.

“한글/영문 포함 인식률 평균 97% 이상의 문자 검출 모델을 기반으로,
문서의 전체 레이아웃을 이해하고 각 요소의 관계까지 분석합니다.”

AI 파이프라인의 핵심 축, DEEP SCAN의 위치

hifenn의 전체 AI 서비스 파이프라인에서 DEEP SCAN은 중추적 역할을 담당합니다:

데이터 수집 (ETL)
- 기업 내 MS Graph, ERP, Databricks, Airflow 등 다양한 소스에서 데이터 수집
- 비정형 데이터를 구조화된 파이프라인으로 유입
문서 전처리 (DEEP SCAN)
- 구조화된 문서(Table) – 표와 스프레드시트 데이터 정확한 해석
- 이미지 포함 문서 – 도표, 그래프, 사진 등의 시각 자료 분석
- 매뉴얼 이미지 – 기술 문서나 안내서의 특수 레이아웃 처리
- 일반 이미지 – 다양한 형태의 이미지 컨텐츠 해석
- 데이터 조정(Orchestration) – 추출된 정보의 맥락 기반 재구성
- 시계열 데이터 (개발 중) – 시간 기반 데이터 분석
- 멀티미디어 데이터 (개발 중) – 동영상/오디오 컨텐츠 처리
벡터 검색 (Vector Search)
- 전처리된 데이터를 BM25, MMM, Ensemble 기법으로 검색 가능한 형태로 변환
벡터 인덱싱 (Vector Indexing)
- HNSW, Cognitive 등의 고급 알고리즘으로 검색 효율성 최적화

DEEP SCAN은 이 파이프라인에서 가장 복잡하고 기술적 도전이 필요한 ETL과 벡터 검색 사이를 연결하는 다리 역할을 합니다. 다양한 형태의 비정형 문서를 AI가 이해할 수 있는 구조화된 데이터로 변환하는 과정이 바로 여기서 이루어집니다.

DEEP SCAN의 3대 핵심 기술

1. 지능형 문서 요소 인식 (Document Detection)

DEEP SCAN의 가장 기본적이면서도 혁신적인 기능은 문서의 모든 구성 요소를 정확히 인식하는 능력입니다. 한글과 영문을 포함해 평균 97% 이상의 인식률을 자랑하는 고성능 검출 모델을 적용했습니다.

특히 주목할 점은 단순한 문자 인식을 넘어, 문서의 전체 레이아웃을 이해하고 각 요소 간의 관계까지 파악한다는 것입니다. 이를 통해 복잡한 형태의 기술 문서나 매뉴얼도 정확하게 분석할 수 있습니다.

2. LLM 기반 이미지 의미 분석 (Visual Context Understanding)

DEEP SCAN의 두 번째 차별화 포인트는 문서 내 포함된 이미지를 단순히 추출하는 데 그치지 않고, 그 의미를 심층적으로 분석한다는 점입니다. 최신 LLM(Large Language Model)을 활용하여 이미지의 내용을 텍스트로 변환하고, 이를 문서의 맥락과 연결합니다.

이 기술을 통해 기존에는 검색이 불가능했던 도표, 다이어그램, 스케치, 기술 도면 등이 포함된 문서도 텍스트 기반 검색의 대상이 됩니다. 실제 산업 현장에서 사용되는 기술 매뉴얼이나 설계 문서의 활용도를 획기적으로 높이는 핵심 기술입니다.

3. 맥락 기반 데이터 통합 (Contextual Data Orchestration)

DEEP SCAN의 가장 혁신적인 측면은 추출된 모든 정보를 문서의 원래 맥락에 맞게 재구성하는 능력입니다. 단순히 문자나 이미지를 인식하는 것을 넘어, 각 요소가 문서 내에서 갖는 의미와 관계를 파악하고 이를 바탕으로 데이터를 조직화합니다.

예를 들어, 표 데이터와 그에 대한 설명 텍스트, 관련 이미지를 하나의 의미 단위로 연결하여 AI가 문서를 인간과 유사한 방식으로 이해할 수 있게 합니다. 이는 단순 키워드 매칭을 넘어선 진정한 의미 기반 검색과 질의응답을 가능하게 하는 기반 기술입니다.

데이터 조정 과정은 다음과 같은 단계로 이루어집니다:

모든 문서 요소의 개별 처리 완료
요소 간 관계 분석 및 의미 단위 구성
계층적 문서 구조 재구성
맥락 정보 보강 및 메타데이터 추가

DEEP SCAN의 혁신적 처리 프로세스

6단계 지능형 문서 처리 파이프라인

DEEP SCAN은 복잡한 문서를 처리하기 위해 세밀하게 설계된 6단계 파이프라인을 통해 작동합니다. 각 단계는 독립적이면서도 유기적으로 연결되어 정확하고 의미 있는 문서 분석 결과를 도출합니다.

1단계. 콘텐츠 로딩 (Contents Loader)

모든 과정의 시작점으로, 다양한 형식(PDF, Word, 이미지 등)의 문서를 시스템에 효율적으로 로드합니다. 이 단계에서는 문서의 기본 메타데이터와 형식 정보도 함께 수집됩니다.

2단계. 레이아웃 분석 (Layout Analysis)

AI 기반 알고리즘을 통해 문서의 전체 구조를 분석합니다. 헤더, 푸터, 본문, 사이드바 등의 영역을 식별하고, 논리적인 문서 구조를 파악하는 중요한 단계입니다. 특히 복잡한 다단 레이아웃이나 비정형 디자인의 문서에서 그 가치가 두드러집니다.

3단계. 요소 탐지 (Element Detection)

레이아웃 분석을 기반으로 문서 내 개별 요소(텍스트 블록, 테이블, 이미지, 도형 등)를 정밀하게 식별합니다. 이 과정에서 요소의 유형뿐만 아니라 각 요소 간의 관계와 중요도까지 평가합니다.

4단계. 지능형 OCR 처리

일반 텍스트는 고성능 OCR 엔진으로 처리하고, 테이블 데이터는 특화된 알고리즘으로 분석합니다:

텍스트 인식: 다국어 지원 및 특수 문자 처리 최적화
테이블 처리: 테이블 영역 추출(Crop) → 행렬 구조 분석(Segmenting) → 셀 데이터 추출 → 관계 재구성

5단계. 이미지 분석 (Image Analysis)

문서 내 모든 이미지는 최신 컴퓨터 비전 및 LLM 기술을 활용해 심층 분석합니다:

이미지 유형 분류(사진, 도표, 다이어그램, 스케치 등)
이미지 내 텍스트 인식 및 처리
의미 기반 캡션 생성 및 메타데이터 추출
문서 맥락과의 관련성 분석

6단계. 통합 및 재정렬 (Merge & Re-order)

모든 분석 결과를 통합하여 의미 기반으로 재구성하는 최종 단계입니다:

관련 텍스트 블록 병합 및 논리 순서 정렬
테이블-텍스트-이미지 간 관계 설정
문서의 논리적 흐름에 따른 요소 재배치
검색 및 질의응답에 최적화된 메타데이터 구조화

산업 현장의 게임 체인저: DEEP SCAN 활용 사례

1. 정확한 데이터 추출로 업무 자동화 실현

테이블 데이터의 지능적 추출과 가공

DEEP SCAN의 테이블 인식 기술은 ERP 데이터 입력이나 금융 문서 처리 등 데이터 중심 업무의 자동화를 가능하게 합니다. 일반 텍스트로 보이는 표 형태의 정보도 정확히 테이블 구조로 인식하며, 이미지 형태로 저장된 테이블도 구조화된 데이터로 변환합니다.

“기존에는 수백 페이지의 재무제표를 수작업으로 데이터베이스화했지만,
DEEP SCAN 도입 후 처리 시간이 97% 단축되었습니다.” (금융 기관 사용자 사례)

2. 문맥 기반 정보 재구성으로 정확한 검색 제공

단순 위치가 아닌 의미 기반 문서 해석

DEEP SCAN은 문서 내 요소의 물리적 위치(AS-IS)가 아닌 논리적 관계(TO-BE)에 따라 정보를 재구성합니다. 이는 특히 복잡한 레이아웃의 기술 문서나 계약서 처리에서 탁월한 성능을 발휘합니다.

실제 사용 사례에서는 이러한 문맥 기반 처리를 통해 검색 정확도가 85%에서 97%로 향상되었으며, 사용자가 원하는 정보를 더 빠르고 정확하게 찾을 수 있게 되었습니다.

3. 이미지 및 다이어그램 내 정보 활용

시각 자료의 데이터화로 검색 범위 확장

기존 문서 처리 시스템의 가장 큰 한계는 이미지나 다이어그램 내 포함된 정보를 활용하지 못한다는 점이었습니다. DEEP SCAN은 이미지 형태의 테이블, 도표, 그래프 등을 인식하고 그 내용을 구조화된 데이터로 변환함으로써 이 한계를 극복했습니다.

제조업체의 기술 매뉴얼 처리 사례에서는 도면과 부품표를 자동으로 인식하고 연결함으로써, 수천 페이지에 달하는 문서 내에서도 특정 부품 정보를 즉시 찾을 수 있게 되었습니다.

4. 지능형 이미지 캡셔닝으로 멀티모달 검색 구현

보이는 것을 넘어 이해하는 이미지 분석

DEEP SCAN의 가장 혁신적인 기능 중 하나는 문서 내 이미지의 의미를 분석하고 이를 텍스트로 설명하는 캡셔닝 기능입니다. 이는 단순한 이미지 태깅을 넘어, 이미지의 내용과 맥락을 이해하고 설명하는 수준입니다.

이 기술을 통해 사용자는 “빨간색 스위치가 있는 제어판”과 같이 이미지 내용으로 검색하거나, “두 개의 도르레가 연결된 다이어그램”처럼 시각적 요소를 질의에 포함할 수 있게 되었습니다.

#AI #Enterprise #Architecture #TechnicalDeepDive

도입 문의하기

Hi FENN Works

Hi FENN NEXUS

OdinAi

EZ PLANET

NAVI AI PRO

ADC SYSTEM

AI VISION SOLUTION

VTrack

SWING EZ

Machine Vision Camera

3D Scanner

MIPI Frame Grabber

Barcode Reader

기업개요

뉴스룸

채용

공시정보

공지사항

다운로드

문의하기

라온 커스텀 테마

RAG의 상식을 뒤엎는 4가지 놀라운 진실

RAG, 정말 거대 컨텍스트 창만 있으면 될까?

“거대 컨텍스트 창이 만능 해결책은 아니다.”

모델 성능을 압도하는 청킹과 검색의 시너지

“문서는 ‘텍스트’가 전부가 아니다.”

페이지 전체를 이미지로 ‘보는’ 새로운 접근법

“모든 것을 임베딩하는 것이 최선은 아니다.”

‘요약’으로 검색하고, ‘원본’으로 답하다

“의미론적 검색만으로는 부족하다.”

‘키워드’와 ‘관계’를 더하여 완성도를 높여라

RAG, 더 깊게 이해하고 현명하게 활용하기

Titan의 ‘테스트 타임 학습’ 혁명 파헤치기

건망증에 걸린 천재 AI들

1. Test-Time 추론이란 무엇인가?: AI가 대화하며 성장하는 시대

2. 기존 모델과의 근본적인 차이점: 기억을 다루는 세 가지 방식

3. Titan의 심장: 뇌를 모방한 심층 신경망 메모리

3.1. 구현 방법: 뇌를 닮은 3중 기억 시스템

3.2. 동작 원리 및 인지과학과의 유사점

4. 살아있는 파라미터: 테스트 타임에 학습된 기억의 관리

5. ‘놀라움(Surprise)’이 기억을 만드는 원리

진정한 의미의 ‘학습하는 기계’를 향하여

1000만 단어를 기억하는 AI의 등장: ‘타이탄(Titans)’이 바꿀 5가지 미래

AI의 ‘기억상실증’을 해결하다.

🧠 발상의 전환: 기억은 ‘저장’이 아니라 ‘최적화’다.

🚀불가능의 증명: 10억 개 파라미터로 1000만 토큰을 기억하다.

💡 효율성의 비밀: AI는 ‘놀라운’ 것만 기억한다.

🌊 현실적 파급력: 검색 증강 생성(RAG)의 시대가 저물다.

📱 내 손 안의 AI: 내 모든 것을 기억하는 개인 비서의 탄생

마치며

[논문리뷰] DINOv3, ‘Self-Learning’이 만든 새로운 비전 AI

1. Self-Supervised Learning – 라벨 없이 스스로 패턴을 파악하는 AI

2. Vision Foundation Model – 한 번의 학습으로 어디서나 통하는 범용 모델

3. Dense Feature Alignment -‘그림 전체를 촘촘히 이해’하도록 만드는 비법: Gram Anchoring

4. DINOv3 모델 구조 — 익숙하지만 견고하게 다듬은 설계

1. Backbone — ViT와 ConvNeXt를 아우르는 유연한 설계

2. Self-Distillation — ‘학생-교사’ 구조로 안정적인 학습

3. Multi-Crop Strategy — 다양한 시야에서 배우는 시각적 유연성

4. Masking & Self-Prediction — 보이지 않는 걸 스스로 예측하기

5. DINOv3 모델 활용 – 라벨이 적어도, 프로토타이핑에서 실사용까지 빠르게

1. Few-shot / 저라벨 환경에서도 강한 출발점

2. 프로덕션 고려 — 엣지부터 서버까지 폭넓은 선택

3. 오픈소스 생태계와의 완벽한 연결

마무리 — DINOv3가 보여주는 ‘스스로 배우는 시각지능’의 방향

Hi FENN Agent Platform 기술 아키텍처 해부

문서 인식의 새로운 패러다임, DEEP SCAN

AI 파이프라인의 핵심 축, DEEP SCAN의 위치

DEEP SCAN의 3대 핵심 기술

1. 지능형 문서 요소 인식 (Document Detection)

2. LLM 기반 이미지 의미 분석 (Visual Context Understanding)

3. 맥락 기반 데이터 통합 (Contextual Data Orchestration)

DEEP SCAN의 혁신적 처리 프로세스

6단계 지능형 문서 처리 파이프라인

1단계. 콘텐츠 로딩 (Contents Loader)

2단계. 레이아웃 분석 (Layout Analysis)

3단계. 요소 탐지 (Element Detection)

4단계. 지능형 OCR 처리

5단계. 이미지 분석 (Image Analysis)

6단계. 통합 및 재정렬 (Merge & Re-order)

산업 현장의 게임 체인저: DEEP SCAN 활용 사례