VectorGraphNet: 픽셀의 한계를 깨다
잠자는 도면 데이터의 가치
AEC(건축, 엔지니어링, 건설) 산업의 창고에는 지난 수십 년간 축적된 방대한 양의 2D CAD 도면이 잠들어 있습니다. 대부분 PDF 형태로 존재하는 이 귀중한 자산들은 빌딩 정보 모델링(BIM)과 같은 현대적인 디지털 워크플로우에 통합되기 어렵습니다.
지금까지는 사람이 직접 도면을 보고 3D 모델을 만드는 수동 디지털화 작업이 유일한 방법이었지만, 이는 막대한 비용과 시간을 소모하는 비효율적인 과정입니다. 만약 이 레거시 데이터를 AI가 자동으로 읽고 이해하여 디지털 자산으로 변환할 수 있다면 어떨까요? 이 질문에 대한 강력한 해답이 바로 뮌헨 공과대학교(TUM, Technical University of Munich) 연구진이 개발한 혁신적인 AI 기술 ‘VectorGraphNet(Graph Attention Networks for Accurate Segmentation of Complex Technical Drawings, 2024년 10월)’입니다.

기존 방식의 명백한 한계: 왜 픽셀(Raster)은 정답이 아닐까?
기존의 CAD 도면 인식 기술은 대부분 도면의 벡터 데이터를 이미지, 즉 픽셀의 집합으로 변환하는 ‘래스터화(Rasterization)’ 방식에 의존했습니다. 하지만 이 접근법은 엔지니어링 도면의 본질을 제대로 담아내지 못하며, 다음과 같은 치명적인 한계를 가집니다.
- 해상도 의존성 및 정보 손실: 대규모 도면의 얇은 선이나 작은 기호를 픽셀로 표현하려면 엄청나게 높은 해상도가 필요합니다. 이는 막대한 메모리 부담을 야기할 뿐만 아니라, 변환 과정에서 발생하는 정보 왜곡(앨리어싱)으로 인해 1mm의 오차도 허용되지 않는 엔지니어링의 정밀도를 심각하게 훼손합니다.
- 위상 정보의 부재: 픽셀 데이터는 색상 점의 나열일 뿐입니다. 두 선이 ‘만나는지’, ‘교차하는지’와 같은 객체 간의 중요한 관계, 즉 위상 정보가 모두 사라집니다. AI는 이 중요한 관계를 오직 픽셀 패턴만으로 추론해야 하는 어려운 과제를 떠안게 됩니다.
- 중첩 및 밀집도 문제: 벽체, 배관, 전기, 치수선 등 수많은 레이어가 겹쳐 있는 복잡한 도면에서 픽셀 기반 방식은 각 객체의 경계를 명확히 구분하는 데 큰 어려움을 겪습니다.

패러다임의 전환: “CAD 도면은 본질적으로 그래프다”
VectorGraphNet은 “픽셀에서 그래프로”라는 혁신적인 패러다임 전환을 제시합니다. 이 기술의 핵심 통찰은 CAD 도면을 이미지로 보지 않고, 객체와 관계의 네트워크, 즉 ‘그래프’로 해석하는 것입니다.
- 노드(Node): 도면을 구성하는 모든 기하학적 객체(선, 호, 원 등)는 그래프의 ‘점’인 노드가 됩니다.
- 엣지(Edge): 이 객체들 간의 공간적, 기하학적 관계(예: 두 선이 만난다, 평행하다)는 노드를 연결하는 ‘선’인 엣지가 됩니다.
이러한 그래프 기반 접근 방식은 픽셀화 과정을 완전히 생략하기 때문에 해상도에 구애받지 않으며(Resolution-Independence), 도면의 본질적인 구조 정보를 그대로 유지하여 훨씬 더 효율적이고 정확한 분석을 가능하게 합니다.

혁신적인 솔루션, VectorGraphNet 개요
VectorGraphNet은 뮌헨 공과대학교(TUM)에서 개발한 딥러닝 프레임워크입니다. 이 기술은 CAD 도면의 원본 벡터 데이터를 그래프 신경망(GNN, Graph Neural Network)으로 직접 학습하여, 도면 내 각 객체가 무엇을 의미하는지(벽, 문, 창문 등) 분류하는 의미론적 분할(Semantic Segmentation)을 수행합니다. 즉, 기계가 사람처럼 도면의 ‘의미’를 이해하게 만드는 혁신적인 솔루션입니다.
참고로, 그래프 신경망은 ‘관계’를 이해하는 신경망입니다. 단순히 데이터 자체만 보는 것이 아니라, 데이터들 사이의 연결(노드와 엣지)을 학습하여 패턴을 찾아냅니다. 그래서 소셜 네트워크 분석, 분자 구조 예측, 추천 시스템 등에 널리 쓰입니다.
VectorGraphNet은 어떻게 작동하는가? (3단계 프로세스)
VectorGraphNet의 전체 파이프라인은 데이터를 다듬고, 관계를 정의하고, 학습하는 3단계로 이루어집니다.
1단계: 데이터 준비 (PDF 도면을 깨끗한 재료로 다듬기)
먼저, 기계가 다루기 어려운 PDF 도면을 구조적인 SVG(Scalable Vector Graphics) 포맷으로 변환합니다. 그 후, SVG 내부에 복잡하게 그룹화되어 있거나 변환 행렬이 적용된 요소들을 모두 풀어헤쳐, 모든 기하학적 객체를 동일한 좌표계 위의 독립적인 경로로 만드는 ‘계층 구조 평탄화(Flattening)’ 작업을 수행합니다. 이를 통해 AI는 순수하고 정제된 기하학적 재료만을 입력으로 받게 됩니다.
참고로, SVG는 웹에서 많이 쓰이는 이미지 표현 방식 중 하나인데, 이름 그대로 크기를 자유롭게 조절해도 깨지지 않는 벡터 그래픽을 의미합니다. 그래서 선명하고 유연한 그래픽을 표현하기 위한 표준 포맷이며, 로고, 아이콘, 차트, 애니메이션 등 크기 변화가 많은 그래픽에 특히 강력합니다.

2단계: 특성 중심의 그래프 구축 (단순한 연결을 넘어)
이 단계는 VectorGraphNet의 핵심입니다. 각 기하학적 객체(SVG 경로)는 풍부한 정보를 가진 ‘노드’로 변환되고, 이들 간의 관계는 ‘엣지’로 정의됩니다.
- 노드(Node) 표현: 각 노드는 단순한 좌표값을 넘어 다음과 같은 다차원적인 정보를 담습니다.
– 기하학적 속성: 길이, 곡률, 면적 등 객체의 형태적 특징 (예: 문의 개폐 궤적(호)과 벽체(선)를 구분하는 데 결정적인 곡률 정보)
– 스타일 속성: 선 두께, 색상 등 도면 표준에서 중요한 의미를 갖는 시각적 특징 (예: 도면 표준에서 객체의 중요도나 단면 여부를 나타내는 선 두께)
– 위상 속성: 객체가 닫힌 도형인지(기둥 등), 열린 선인지(벽 중심선 등)에 대한 정보 - 엣지(Edge) 생성: 노드 간의 관계를 정의하는 엣지 역시 단순한 연결선이 아닙니다. 두 객체 사이의 교차 여부, 평행/직교 관계, 끝점 공유 여부, 스타일 유사성과 같은 풍부한 기하학적 관계를 엣지 자체의 특성으로 부여합니다. 이처럼 관계의 종류를 엣지에 직접 새겨 넣는 것은 단순히 인접성이나 거리만 고려하던 기존 그래프 모델을 뛰어넘는 핵심적인 발전이며, 이를 통해 네트워크는 도면의 ‘엔지니어링 문법’을 깊이 있게 학습할 수 있습니다.
이렇게 그래프로 구축하게 되면, 도면에 있는 기하학적 객체들간의 관계를 알아낼 수 있게 되어, 도면에 대한 아주 높은 수준의 이해가 가능해집니다.

3단계: 그래프 어텐션 네트워크(GAT)를 통한 학습
구축된 그래프는 ‘어텐션 메커니즘’을 사용하는 그래프 어텐션 네트워크(GAT)를 통해 학습됩니다. 여기서 어텐션이란 ‘중요한 정보에 집중하는 능력’을 말하며 생성형 AI의 바탕이 되는 Transformer에서 핵심 역할을 하며, Transformer가 개발되기 전 여러 다양한 신경망에서 중요하게 여겨지는 개념이다.
예를 들어, AI가 ‘벽’ 노드를 분석할 때, 그와 연결된 주변의 다른 ‘벽’이나 ‘창문’ 노드의 정보에는 높은 가중치를 부여해 집중하고, 상대적으로 관련성이 적은 ‘텍스트’ 노드의 정보는 무시하도록 학습하는 방식입니다.
또한, ‘계층적 라벨링’ 기법을 통해 객체를 다층적으로 이해합니다. 단순히 ‘문’으로만 분류하는 것이 아니라, ‘개구부’라는 상위 카테고리와 ‘여닫이 문’ 같은 하위 속성을 함께 예측합니다. 이 아키텍처적 선택은 데이터가 적어 학습이 어려운 희소 객체의 인식률을 획기적으로 높이는 결정적인 역할을 하며, 바로 이 점이 VectorGraphNet의 뛰어난 가중 F1 점수(Weighted F1 Score)의 비결입니다.
참고로, ‘가중 F1 점수’는 여러 클래스가 있는 분류 문제에서 클래스별 F1 score를 계산한 뒤, 각 클래스의 데이터 개수에 비례해서 평균을 내는 기법입니다. 쉽게 말해, 데이터가 많은 클래스일수록 더 큰 비중을 차지하는 평균 F1 score라고 이해하면 됩니다. 데이터가 많은 클래스의 F1 score가 더 높게 반영이 되기 때문에 불균형 데이터셋에서 모델의 전체 성능을 평가할 때 자주 사용이 된다. 장점은 현실적인 성능 평가가 가능한 반면, 단점은 적은 클래스의 성능이 묻혀버릴 수가 있다. 이 적은 클래스 문제를 ‘계층적 라벨링’ 기법을 통해 해소시켰다는 뜻입니다.

놀라운 성능: 가벼움과 강력함을 동시에
VectorGraphNet의 성능은 세 가지 핵심 장점으로 요약할 수 있습니다.
- 압도적인 연산 효율성
VectorGraphNet의 모델 크기를 결정하는 파라미터 수는 약 “130만 개(1.3M)”에 불과합니다. 이는 경쟁 모델인 PanCADNet(4,200만 개 이상), CADTransformer(6,500만 개 이상)와 비교하면 수십 분의 일에 불과한 수준입니다. 이처럼 놀라운 경량성은 고성능 GPU가 없는 환경에서도 효율적인 추론을 가능하게 합니다. - 정량적 성능 비교: 경쟁 모델을 압도하다
단순히 가볍기만 한 것이 아닙니다. 성능 면에서도 최고 수준을 자랑합니다.

위 표에서 볼 수 있듯이, VectorGraphNet은 가장 적은 파라미터로 클래스 불균형이 심한 데이터셋에서 중요한 지표인 가중 F1 점수(Weighted F1 Score) 89.0점을 기록하며 경쟁 모델들을 압도했습니다. 특히 가장 강력한 경쟁자인 SymPoint와 비교하면 그 의미가 더욱 명확해집니다. SymPoint는 데이터가 많은 주요 클래스(벽 등) 인식에 강점을 보여 Macro F1 점수에서 더 높지만, VectorGraphNet은 가중 F1 점수에서 우위를 보입니다. 이는 ‘많이 나오는 것’만 잘하는 모델과 ‘모든 것을 골고루’ 잘하는 모델의 차이를 보여주며, 소화전이나 특수 기호처럼 드물지만 중요한 객체까지 놓치지 않는 VectorGraphNet이 실제 현장에서 더 신뢰성 높은 솔루션임을 증명합니다.

실제 데이터셋에서의 강인함
VectorGraphNet은 실제 대학 캠퍼스 도면으로 구성된 복잡하고 불균형한 ‘TUM 데이터셋’에서 “0.97의 정확도와 0.97의 가중 F1 점수(Weighted F1)”를 기록하며 압도적인 성능을 보였습니다. 이는 도면이 현실 세계처럼 거대하고 복잡할수록, 픽셀이 아닌 구조를 학습하는 그래프 기반 접근 방식이 더 강력하다는 확실한 증거입니다.

미래를 바꾸다: AEC 산업의 디지털 전환 가속화
VectorGraphNet은 AEC 산업에 다음과 같은 혁신적인 변화를 가져올 잠재력을 가지고 있습니다.
- BIM 자동화: VectorGraphNet이 정밀하게 분할한 2D 도면 객체들은 3D BIM 모델을 자동으로 생성하는 데 직접 사용될 수 있습니다. 좌표 정밀도가 그대로 유지되므로, 별도의 수정 없이도 정확한 BIM 모델을 신속하게 구축할 수 있습니다.
- 레거시 데이터의 자산화: 잠자고 있던 수많은 과거의 PDF 도면들을 검색과 분석이 가능한 디지털 데이터베이스로 변환할 수 있습니다. 이를 통해 시설 관리, 리모델링, 증축 프로젝트에서 기존 건물의 정보를 파악하는 데 드는 시간을 획기적으로 단축시킬 수 있습니다.

고려 사항 및 향후 과제
모든 기술이 그렇듯 VectorGraphNet에도 한계와 과제는 존재합니다.
- 전처리 오버헤드: 신경망 모델 자체는 가볍지만, 도면을 그래프로 구축하는 전처리 과정은 CPU 연산 집약적이어서 전체 파이프라인의 병목(Bottleneck)이 될 수 있습니다.
- 입력 데이터 품질 의존성: ‘Garbage In, Garbage Out’ 원칙이 적용됩니다. 스캔된 이미지나 선이 깨져있는 ‘지저분한’ CAD 파일이 입력되면 성능이 저하될 수 있습니다.
- 텍스트 정보 활용의 부재: 현재 아키텍처는 기하학적 형태에 집중하고 있어, 도면 내의 방 이름이나 치수 같은 텍스트 정보를 적극적으로 활용하지는 못합니다. 이는 향후 개선 과제로 남아있습니다.

마치며: CAD 인식의 새로운 표준을 향하여
VectorGraphNet은 CAD 도면 인식 분야에서 효율성과 정밀성이라는 두 마리 토끼를 모두 잡은 혁신적인 기술입니다. 전처리 오버헤드와 같은 몇 가지 과제가 남아있지만, 초경량 모델로 복잡하고 불균형한 실제 도면에서 최고의 성능을 발휘한다는 점은 이 기술의 엄청난 잠재력을 보여줍니다. 픽셀 기반의 낡은 패러다임을 넘어, 도면의 구조적 본질을 이해하는 VectorGraphNet은 AEC 산업의 디지털 전환을 가속화할 새로운 표준이 될 자격이 충분합니다.




















