라온 커스텀 테마

Hi FENN Agent Platform 기술 아키텍처 해부

최근 생성형 AI가 기업 환경에 빠르게 도입되면서, 방대한 기업 내부 문서와 같은 비정형 데이터를 효과적으로 처리하는 기술이 경쟁력의 핵심으로 부상하고 있습니다. 특히 기업용 AI 솔루션에서는 정확한 문서 인식과 의미 파악이 성패를 좌우합니다.

이러한 시장의 요구에 응답하여, 저희 hifenn(구 라온어시스턴트) 팀은 고도화된 문서 전처리 엔진인 ‘DEEP SCAN’을 개발했습니다. 오늘은 이 핵심 기술의 작동 원리와 차별화된 강점에 대해 심층적으로 살펴보고자 합니다.

문서 인식의 새로운 패러다임, DEEP SCAN

DEEP SCAN은 단순한 OCR이나 텍스트 추출 기술을 넘어, 문서의 구조와 맥락을 이해하는 hifenn의 핵심 엔진입니다. 이 기술은 AI Assistant Service Pipeline에서 문서 데이터 전처리(Document Data Preprocessing)를 담당하며, 비정형 문서의 구조적 형태와 내용을 정확하게 인식하고 분석하여 AI 기반 검색 및 생성에 최적화된 형태로 변환합니다.

“한글/영문 포함 인식률 평균 97% 이상의 문자 검출 모델을 기반으로,
문서의 전체 레이아웃을 이해하고 각 요소의 관계까지 분석합니다.”

AI 파이프라인의 핵심 축, DEEP SCAN의 위치

hifenn의 전체 AI 서비스 파이프라인에서 DEEP SCAN은 중추적 역할을 담당합니다:

  1. 데이터 수집 (ETL)
    • 기업 내 MS Graph, ERP, Databricks, Airflow 등 다양한 소스에서 데이터 수집
    • 비정형 데이터를 구조화된 파이프라인으로 유입


  2. 문서 전처리 (DEEP SCAN)
    • 구조화된 문서(Table) – 표와 스프레드시트 데이터 정확한 해석
    • 이미지 포함 문서 – 도표, 그래프, 사진 등의 시각 자료 분석
    • 매뉴얼 이미지 – 기술 문서나 안내서의 특수 레이아웃 처리
    • 일반 이미지 – 다양한 형태의 이미지 컨텐츠 해석
    • 데이터 조정(Orchestration) – 추출된 정보의 맥락 기반 재구성
    • 시계열 데이터 (개발 중) – 시간 기반 데이터 분석
    • 멀티미디어 데이터 (개발 중) – 동영상/오디오 컨텐츠 처리


  3. 벡터 검색 (Vector Search)
    • 전처리된 데이터를 BM25, MMM, Ensemble 기법으로 검색 가능한 형태로 변환


  4. 벡터 인덱싱 (Vector Indexing)
    • HNSW, Cognitive 등의 고급 알고리즘으로 검색 효율성 최적화

DEEP SCAN은 이 파이프라인에서 가장 복잡하고 기술적 도전이 필요한 ETL과 벡터 검색 사이를 연결하는 다리 역할을 합니다. 다양한 형태의 비정형 문서를 AI가 이해할 수 있는 구조화된 데이터로 변환하는 과정이 바로 여기서 이루어집니다.

DEEP SCAN의 3대 핵심 기술

1. 지능형 문서 요소 인식 (Document Detection)

DEEP SCAN의 가장 기본적이면서도 혁신적인 기능은 문서의 모든 구성 요소를 정확히 인식하는 능력입니다. 한글과 영문을 포함해 평균 97% 이상의 인식률을 자랑하는 고성능 검출 모델을 적용했습니다.

특히 주목할 점은 단순한 문자 인식을 넘어, 문서의 전체 레이아웃을 이해하고 각 요소 간의 관계까지 파악한다는 것입니다. 이를 통해 복잡한 형태의 기술 문서나 매뉴얼도 정확하게 분석할 수 있습니다.

2. LLM 기반 이미지 의미 분석 (Visual Context Understanding)

DEEP SCAN의 두 번째 차별화 포인트는 문서 내 포함된 이미지를 단순히 추출하는 데 그치지 않고, 그 의미를 심층적으로 분석한다는 점입니다. 최신 LLM(Large Language Model)을 활용하여 이미지의 내용을 텍스트로 변환하고, 이를 문서의 맥락과 연결합니다.

이 기술을 통해 기존에는 검색이 불가능했던 도표, 다이어그램, 스케치, 기술 도면 등이 포함된 문서도 텍스트 기반 검색의 대상이 됩니다. 실제 산업 현장에서 사용되는 기술 매뉴얼이나 설계 문서의 활용도를 획기적으로 높이는 핵심 기술입니다.

3. 맥락 기반 데이터 통합 (Contextual Data Orchestration)

DEEP SCAN의 가장 혁신적인 측면은 추출된 모든 정보를 문서의 원래 맥락에 맞게 재구성하는 능력입니다. 단순히 문자나 이미지를 인식하는 것을 넘어, 각 요소가 문서 내에서 갖는 의미와 관계를 파악하고 이를 바탕으로 데이터를 조직화합니다.

예를 들어, 표 데이터와 그에 대한 설명 텍스트, 관련 이미지를 하나의 의미 단위로 연결하여 AI가 문서를 인간과 유사한 방식으로 이해할 수 있게 합니다. 이는 단순 키워드 매칭을 넘어선 진정한 의미 기반 검색과 질의응답을 가능하게 하는 기반 기술입니다.

데이터 조정 과정은 다음과 같은 단계로 이루어집니다:

  1. 모든 문서 요소의 개별 처리 완료
  2. 요소 간 관계 분석 및 의미 단위 구성
  3. 계층적 문서 구조 재구성
  4. 맥락 정보 보강 및 메타데이터 추가

DEEP SCAN의 혁신적 처리 프로세스

6단계 지능형 문서 처리 파이프라인

DEEP SCAN은 복잡한 문서를 처리하기 위해 세밀하게 설계된 6단계 파이프라인을 통해 작동합니다. 각 단계는 독립적이면서도 유기적으로 연결되어 정확하고 의미 있는 문서 분석 결과를 도출합니다.

1단계. 콘텐츠 로딩 (Contents Loader)

모든 과정의 시작점으로, 다양한 형식(PDF, Word, 이미지 등)의 문서를 시스템에 효율적으로 로드합니다. 이 단계에서는 문서의 기본 메타데이터와 형식 정보도 함께 수집됩니다.

2단계. 레이아웃 분석 (Layout Analysis)

AI 기반 알고리즘을 통해 문서의 전체 구조를 분석합니다. 헤더, 푸터, 본문, 사이드바 등의 영역을 식별하고, 논리적인 문서 구조를 파악하는 중요한 단계입니다. 특히 복잡한 다단 레이아웃이나 비정형 디자인의 문서에서 그 가치가 두드러집니다.

3단계. 요소 탐지 (Element Detection)

레이아웃 분석을 기반으로 문서 내 개별 요소(텍스트 블록, 테이블, 이미지, 도형 등)를 정밀하게 식별합니다. 이 과정에서 요소의 유형뿐만 아니라 각 요소 간의 관계와 중요도까지 평가합니다.

4단계. 지능형 OCR 처리

일반 텍스트는 고성능 OCR 엔진으로 처리하고, 테이블 데이터는 특화된 알고리즘으로 분석합니다:

  • 텍스트 인식: 다국어 지원 및 특수 문자 처리 최적화
  • 테이블 처리: 테이블 영역 추출(Crop) → 행렬 구조 분석(Segmenting) → 셀 데이터 추출 → 관계 재구성

5단계. 이미지 분석 (Image Analysis)

문서 내 모든 이미지는 최신 컴퓨터 비전 및 LLM 기술을 활용해 심층 분석합니다:

  • 이미지 유형 분류(사진, 도표, 다이어그램, 스케치 등)
  • 이미지 내 텍스트 인식 및 처리
  • 의미 기반 캡션 생성 및 메타데이터 추출
  • 문서 맥락과의 관련성 분석

6단계. 통합 및 재정렬 (Merge & Re-order)

모든 분석 결과를 통합하여 의미 기반으로 재구성하는 최종 단계입니다:

  • 관련 텍스트 블록 병합 및 논리 순서 정렬
  • 테이블-텍스트-이미지 간 관계 설정
  • 문서의 논리적 흐름에 따른 요소 재배치
  • 검색 및 질의응답에 최적화된 메타데이터 구조화

산업 현장의 게임 체인저: DEEP SCAN 활용 사례

1. 정확한 데이터 추출로 업무 자동화 실현

테이블 데이터의 지능적 추출과 가공

DEEP SCAN의 테이블 인식 기술은 ERP 데이터 입력이나 금융 문서 처리 등 데이터 중심 업무의 자동화를 가능하게 합니다. 일반 텍스트로 보이는 표 형태의 정보도 정확히 테이블 구조로 인식하며, 이미지 형태로 저장된 테이블도 구조화된 데이터로 변환합니다.

“기존에는 수백 페이지의 재무제표를 수작업으로 데이터베이스화했지만,
DEEP SCAN 도입 후 처리 시간이 97% 단축되었습니다.” (금융 기관 사용자 사례)

2. 문맥 기반 정보 재구성으로 정확한 검색 제공

단순 위치가 아닌 의미 기반 문서 해석

DEEP SCAN은 문서 내 요소의 물리적 위치(AS-IS)가 아닌 논리적 관계(TO-BE)에 따라 정보를 재구성합니다. 이는 특히 복잡한 레이아웃의 기술 문서나 계약서 처리에서 탁월한 성능을 발휘합니다.

실제 사용 사례에서는 이러한 문맥 기반 처리를 통해 검색 정확도가 85%에서 97%로 향상되었으며, 사용자가 원하는 정보를 더 빠르고 정확하게 찾을 수 있게 되었습니다.

3. 이미지 및 다이어그램 내 정보 활용

시각 자료의 데이터화로 검색 범위 확장

기존 문서 처리 시스템의 가장 큰 한계는 이미지나 다이어그램 내 포함된 정보를 활용하지 못한다는 점이었습니다. DEEP SCAN은 이미지 형태의 테이블, 도표, 그래프 등을 인식하고 그 내용을 구조화된 데이터로 변환함으로써 이 한계를 극복했습니다.

제조업체의 기술 매뉴얼 처리 사례에서는 도면과 부품표를 자동으로 인식하고 연결함으로써, 수천 페이지에 달하는 문서 내에서도 특정 부품 정보를 즉시 찾을 수 있게 되었습니다.

4. 지능형 이미지 캡셔닝으로 멀티모달 검색 구현

보이는 것을 넘어 이해하는 이미지 분석

DEEP SCAN의 가장 혁신적인 기능 중 하나는 문서 내 이미지의 의미를 분석하고 이를 텍스트로 설명하는 캡셔닝 기능입니다. 이는 단순한 이미지 태깅을 넘어, 이미지의 내용과 맥락을 이해하고 설명하는 수준입니다.

이 기술을 통해 사용자는 “빨간색 스위치가 있는 제어판”과 같이 이미지 내용으로 검색하거나, “두 개의 도르레가 연결된 다이어그램”처럼 시각적 요소를 질의에 포함할 수 있게 되었습니다.

#AI #Enterprise #Architecture #TechnicalDeepDive