왜 Qwen3.5는 Gated DeltaNet를 선택했나?

Tech 17분 읽기
댓글 0
조회 32

최근(26년 2월 중순) 발표된 Qwen3.5의 등장은 인공지능 업계에 신선한 충격을 주었습니다. 단순히 성능이 좋아진 것을 넘어, 기존 AI의 고질적인 문제인 ‘효율성’을 해결할 새로운 아키텍처의 가능성을 증명했기 때문입니다. 이 모델이 압도적인 속도와 정확도를 동시에 잡을 수 있었던 비결의 중심에는 바로 ‘Gated DeltaNet(GDN)’라는 혁신적인 기술이 있습니다.

AI가 방대한 데이터를 처리하는 과정은 흔히 거대한 도서관에서 정보를 관리하는 사서의 업무에 비유되곤 합니다. 현재 우리가 널리 쓰는 트랜스포머(Transformer) 구조는 ‘무한한 바닥’을 쓰는 사서와 같습니다. 이 사서는 도서관에 있는 전체 책의 모든 페이지를 바닥에 한꺼번에 펼쳐놓고, 찾아야 할 것이 있으면 일일이 대조합니다. 정확도는 완벽하지만, 책이 두꺼워질수록 필요한 바닥 면적이 기하급수적으로 늘어납니다. 결국 사서는 수만 페이지를 훑느라 지쳐 쓰러지고 말죠. 이것이 바로 트랜스포머가 긴 문장을 읽을 때 속도가 급격히 느려지고 막대한 전력을 소모하는 이유입니다.

반대로 RNN이나 Mamba 같은 방식은 ‘작은 화이트보드’를 든 사서입니다. 페이지를 넘길 때마다 핵심 내용을 보드에 메모하며 읽기에 속도는 매우 빠릅니다. 하지만 수천 페이지를 읽다 보면 화이트보드는 덧칠해진 글자들로 엉망이 됩니다. 새로운 정보가 들어오면 예전의 중요한 기억이 뭉개지는 ‘메모리 오염’ 현상이 발생하는 것입니다.

Qwen3.5는 바로 이 지점에서 Gated DeltaNet를 해결사로 투입했습니다. 이 기술은 화이트보드 사서에게 두 가지 마법 같은 도구를 쥐여줍니다. 바로 불필요한 정보만 골라 지우는 ‘정밀한 지우개(Delta Rule)’와, 문맥이 바뀔 때 판을 깨끗이 닦아내는 ‘강력한 세척기(Gating)’입니다.

GDN은 델타 규칙을 통해 현재 정보와 중복되는 과거의 기억만 골라 업데이트하고, 게이팅 메커니즘을 통해 정보의 중요도에 따라 메모리를 유연하게 관리합니다. 그 결과, Qwen3.5는 트랜스포머의 완벽한 정확도를 유지하면서도 기존 모델 대비 추론 속도를 최대 수 배 이상 끌어올리는 데 성공했습니다. 똑똑하면서도 가벼운, 이른바 ‘가성비’와 ‘지능’을 모두 갖춘 차세대 AI의 서막이 열린 셈입니다.


똑똑한 AI 사서가 기억 상실증에 걸린 이유: 기존 리니어 어텐션의 한계

이를 해결하기 위해 등장한 ‘리니어 어텐션(Linear Attention)’ 방식에도 두 가지 치명적인 결함이 있었습니다. 첫 번째는 ‘지우개 없는 화이트보드’ 문제입니다. 초기 리니어 어텐션 사서는 이전 내용을 지우지 않고 그 위에 계속 덧칠만 했습니다. 책이 두꺼워질수록 정보가 겹쳐 무엇이 중요한지 알 수 없게 되는 ‘신호 대 잡음비(SNR)의 붕괴’가 일어나 결국 과거의 기억을 상실하게 됩니다.

두 번째는 Mamba2 같은 모델의 ‘획일적인 지우개’입니다. 화이트보드가 꽉 차면 중요도를 따지지 않고 전체를 희미하게 지워버립니다. 마치 물걸레로 보드 전체를 쓱 닦아내는 것과 같아, 복잡한 세부 정보를 유지하는 능력이 떨어졌습니다.


핵심 원리 ① – ‘정밀한 지우개’와 오답 노트의 마법

그렇다면 Gated DeltaNet은 어떻게 그 똑똑한 기억력을 되찾았을까요? 그 비결은 바로 ‘델타 규칙(Delta Rule)’이라 불리는 스마트한 업데이트 방식에 있습니다. 기존 AI들이 새로운 정보를 무조건 화이트보드에 덧칠하거나 대충 문질러 지웠다면, GDN은 ‘내가 무엇을 모르고 있는가’를 먼저 계산한 뒤 그 부분만 정확히 수정합니다.

이 과정의 첫 번째 비밀은 ‘정밀한 지우개’입니다. 수학적으로는 조금 복잡한 하우스홀더(Householder) 행렬이라는 개념이 쓰이지만, 원리는 간단합니다. AI가 새로운 단어(Key)를 읽을 때, 메모리 공간 안에서 해당 정보가 들어갈 자리를 정확히 조준합니다. 특히 정보의 길이를 일정하게 맞추는 정규화(L2 Normalization) 과정을 거치면, 이 지우개는 그 자리에 있던 낡은 데이터만 ‘0’으로 만들어 완벽하게 비워버립니다. 새로운 데이터를 적기 전에, 오직 필요한 칸만 깨끗하게 비우는 수술용 메스 같은 정교함을 갖게 된 셈입니다.

두 번째 비밀은 ‘오답 노트’ 방식의 업데이트입니다. GDN은 새로운 정보를 그대로 저장하지 않습니다. 대신 “현재 들어온 정보”와 “기존 메모리를 바탕으로 예상한 정보”의 차이(Delta)를 계산합니다. 만약 이미 알고 있는 뻔한 내용이라면 차이는 ‘0’에 가까울 것이고, 메모리는 변하지 않습니다. 반대로 전혀 새로운 내용이 들어오면 그 차이만큼만 메모리에 기록합니다.

이런 방식을 통해 AI는 중복된 정보로 메모리를 낭비하지 않고, 오직 순수하게 새로운 정보만 효율적으로 쌓아나갈 수 있습니다. 이미 아는 내용은 가볍게 넘기고 모르는 부분만 집중적으로 학습하는 우등생의 오답 노트처럼, GDN은 메모리 충돌을 원천 차단하며 긴 문맥도 아주 선명하게 기억해냅니다.

이러한 방식은 전에 살펴본, 구글의 타이탄의 신경망 메모리(Neural Memory)의 update 방식과도 어느 정도 유사한 점이 있습니다. (블로그의 타이탄 편 참고)


핵심 원리 ② – ‘강력한 세척기’와 스마트한 자아성찰

정교한 지우개로 세부 사항을 다듬었다면, 이제는 도서관의 ‘판’을 전체적으로 관리할 차례입니다. Gated DeltaNet의 마지막 비밀은 거대한 문맥의 흐름을 조절하는 ‘강력한 세척기(Gating)’에 있으며, 여기에 최근 학계에서 주목받는 ‘Comba’의 아이디어를 더하면 그 성능은 더욱 완벽해집니다.

첫 번째 비밀은 글로벌 리셋이라 불리는 강력한 세척 기능입니다. AI가 문서를 읽다 보면 주제가 완전히 바뀌거나 새로운 챕터가 시작되는 순간이 있습니다. 이때 이전 정보가 남아있으면 오히려 혼란만 가중되겠죠. GDN은 이럴 때 ‘망각 게이트’라는 밸브를 조절해 화이트보드 전체를 시원하게 씻어냅니다. 이전 맥락의 잡음을 일시에 제거하고 새로운 정보를 담을 깨끗한 상태로 되돌리는 것입니다.

여기서 한발 더 나아가, 우리는 Comba라는 강력한 보조 도구를 주목해볼 필요가 있습니다. Comba는 2024년 말, 프린스턴 대학교와 Together AI 연구진이 발표한 ‘Mamba-2’의 후속 연구 성격의 아키텍처입니다. 기존의 Gated DeltaNet이 메모리에 정보를 잘 적는 ‘입력의 정확도’에 집중했다면, Comba는 “내가 지금 무엇을 찾으려고 했지?”라며 자신의 질문(Query)을 스스로 교정하는 ‘출력의 정밀함’에 집중합니다.

이것은 마치 복잡한 제어 시스템의 ‘폐루프(Closed-loop) 제어’ 원리와 같습니다. Gated DeltaNet이 메모리 상태를 완벽하게 유지해주고, 여기에 Comba의 한 줄짜리 쿼리 보정 수식을 결합한다면, 모델은 자신이 찾고자 하는 핵심이 무엇인지 스스로 끊임없이 되물으며 목표를 정밀하게 타격하게 됩니다.

결국 Gated DeltaNet의 완벽한 기록 능력과 Comba의 날카로운 질문 능력이 만난다면, Qwen3.5와 같은 거대 모델은 아무리 복잡한 데이터 속에서도 길을 잃지 않고 가장 정확한 답을 찾아낼 수 있습니다. 서로 다른 연구에서 출발했지만, ‘효율성’이라는 하나의 목표를 향해 완벽하게 맞물리는 환상의 복식조인 셈입니다.


하드웨어의 한계를 넘다 – ‘한꺼번에 처리하는’ 병렬 계산의 마법

지금까지 GDN의 지능적인 면모를 살펴봤다면, 다음 살펴볼 부분은 이 모델이 얼마나 ‘빠른 발’을 가졌는가 하는 점입니다. 사실 GDN과 같은 RNN 계열의 모델들은 치명적인 약점이 하나 있었습니다. 앞 페이지를 다 읽어야 다음 페이지로 넘어갈 수 있는 ‘순차적 구조’ 때문에, 한꺼번에 많은 일을 처리하는 데 능한 최신 그래픽 카드(GPU)의 성능을 제대로 쓰지 못했다는 점입니다.

Gated DeltaNet은 이 문제를 ‘WY 표현법’이라는 고도의 수학적 설계로 해결했습니다. 조금 어려운 이름이지만, 원리는 ‘줄 서서 기다리던 업무를 팀 단위의 묶음(Chunk) 업무로 바꾸는 것’입니다. 하나하나 순서대로 처리해야 했던 자잘한 메모리 업데이트들을 수학적으로 잘 묶어서, 한 번에 거대한 행렬 연산(GEMM)으로 변환해 버린 것이죠.

참고로, GEMM(General Matrix Multiplication, 일반 행렬 곱셈)은 수만 개의 숫자 데이터가 담긴 두 개의 거대한 행렬을 한꺼번에 곱하는 연산입니다. 정보를 하나씩 낱개로 처리하는 것이 아니라, 수만 개의 숫자 쌍을 동시에 짝지어 계산하기 때문에 GPU(그래픽 카드)의 강력한 병렬 처리 능력을 극한으로 끌어낼 수 있습니다.

쉽게 비유하자면, 1,000명의 학생에게 수학 문제를 한 명씩 풀게 하는 것이 아니라, 1,000명을 동시에 시험장에 넣어 한 번에 시험을 치르게 하는 것과 같습니다. Gated DeltaNet이 WY 표현법을 통해 연산 방식을 GEMM으로 바꿨다는 것은, 좁은 시골길을 한 대씩 지나가던 데이터들을 8차선 고속도로 위로 한꺼번에 달리게 만들어 속도를 수십 배 높였다는 뜻입니다.

이 변화가 가져온 결과는 놀랍습니다. 이전에는 GPU의 느린 메모리 통로를 따라 정보를 하나씩 옮겨야 했다면, 이제는 GPU 내부의 가장 강력한 엔진인 ‘텐서 코어(Tensor Cores)’가 이 묶음 연산을 한 번에 쏘아 올립니다.

결과적으로 Gated DeltaNet은 가장 빠르다고 알려진 기존의 방식(FlashAttention이나 Mamba2)들과 어깨를 나란히 할 만큼 엄청난 처리 속도를 확보했습니다. Qwen3.5가 그 방대한 데이터를 순식간에 학습하고 우리에게 즉각 답변을 줄 수 있는 것도, 바로 이 하드웨어의 성능을 극한까지 끌어쓰는 효율적인 설계 덕분입니다.


튼튼한 뼈대와 정교한 부품들 – 아키텍처의 완성

Gated DeltaNet은 단순히 아이디어만 좋은 모델이 아닙니다. 실제 구동 과정에서 최고의 성능을 내기 위해, 기존의 검증된 기술들을 영리하게 재조합한 ‘풀 옵션’ 아키텍처를 갖추고 있습니다. 마치 최신 자동차 엔진을 설계하면서 검증된 명품 부품들을 적재적소에 배치한 것과 같습니다.

첫 번째 부품은 ‘숏 컨볼루션(Short Convolution)’이라는 작은 필터입니다. 리니어 어텐션은 멀리 떨어진 정보는 잘 보지만, 바로 옆에 붙어 있는 단어들의 미묘한 관계(예: “New”와 “York”이 붙어 하나의 고유 명사가 되는 경우)를 간혹 놓치기도 합니다. 이를 방지하기 위해 정보가 처리되기 직전, 3~4개 단어씩 묶어서 훑어주는 작은 필터를 달았습니다. 이 덕분에 AI는 아주 세밀한 문맥까지 놓치지 않는 꼼꼼함을 갖게 되었습니다.

두 번째는 효율적인 관리 체계인 ‘그룹 헤드 어텐션(GHA)’입니다. 이는 최신 AI 모델인 Llama-3에서 쓰이는 기술과 닮아 있는데, 방대한 메모리 상태를 여러 개의 그룹으로 나누어 관리하는 방식입니다. 비유하자면, 한 명의 사서가 모든 책장을 다 관리하는 것이 아니라 구역별로 전문 사서를 두어 관리 효율을 극대화한 것이죠. 덕분에 메모리 사용량은 줄이면서도 훨씬 다양한 특징들을 동시에 학습할 수 있습니다.

마지막으로 시스템의 안정을 책임지는 ‘SwiGLU’‘RMSNorm’이 결합됩니다. SwiGLU는 정보를 섞어주는 믹서기 역할을 하며 모델의 표현력을 높여주고, RMSNorm은 수천억 번의 계산 과정에서 숫자가 너무 커지거나 튀지 않도록 중심을 잡아주는 수평계 역할을 합니다. 이러한 정교한 설계 덕분에 Gated DeltaNet은 거대한 데이터를 처리하면서도 흔들림 없는 안정성을 유지하며 최고의 퍼포먼스를 보여줍니다.


성능의 증명 – 100만 단어 속 바늘 하나도 놓치지 않는 정밀함

아무리 이론이 훌륭해도 실제 성능이 뒷받침되지 않으면 소용없겠죠. Gated DeltaNet의 진가는 이른바 ‘바늘 찾기(Needle-in-a-haystack)’라 불리는 가혹한 테스트에서 극명하게 드러납니다. 수천 페이지의 방대한 텍스트 속에 단 하나의 엉뚱한 문장(바늘)을 숨겨두고 AI가 이를 얼마나 정확히 찾아내는지 측정하는 시험입니다.

결과는 놀라웠습니다. 기존의 강자였던 Mamba2가 약 84.5%의 정확도를 기록하며 긴 문맥 속의 세부 정보를 놓치는 모습을 보인 반면, Gated DeltaNet은 무려 98.4%라는 압도적인 정확도를 달성했습니다. 이는 단순히 ‘기억력이 좋다’는 수준을 넘어, 사실상 완벽한 기억력을 자랑하는 트랜스포머의 성능에 도달했음을 의미합니다.

이러한 차이는 앞서 설명한 ‘지우는 전략’의 승리입니다. Mamba2가 시간이 지나면 정보를 전체적으로 희미하게 지워버려 중요한 바늘까지 잃어버렸다면, Gated DeltaNet은 델타 규칙을 통해 불필요한 잡음만 골라 지우고 핵심 정보는 선명하게 유지했기 때문입니다.

뿐만 아니라, AI가 문맥을 얼마나 자연스럽게 이해하는지 보여주는 지표(Perplexity)에서도 경쟁 모델들을 압도하며 그 범용성을 입증했습니다. 결국 GDN은 “빠르면 멍청하고, 똑똑하면 느리다”는 AI 업계의 오랜 편견을 깨고, 트랜스포머급 지능과 선형 모델급 속도라는 두 마리 토끼를 완벽하게 잡아낸 셈입니다.


한계를 넘는 전략 – 왜 Qwen3.5는 ‘황금 비율’을 선택했나?

새로운 기술을 마주할 때 가장 경계해야 할 것은 ‘장밋빛 미래’만 보는 것입니다. Gated DeltaNet(GDN)이 혁신적인 아키텍처임은 분명하지만, 현실적인 한계 또한 존재합니다. 그리고 그 한계를 어떻게 영리하게 우회했는지가 바로 Qwen3.5의 진짜 성공 비결입니다.

가장 큰 숙제는 ‘고정된 그릇’이 가진 물리적 한계였습니다. 트랜스포머는 문장이 길어지면 정보를 담는 바구니를 무한히 늘려가며 모든 데이터를 보존합니다. 반면 GDN은 메모리 상태의 크기가 딱 정해져 있어, 수백만 단어가 넘어가는 초장기 문서에서는 아무리 정교한 지우개가 있어도 중요한 정보를 덮어쓰게 되는 ‘정보 병목’ 현상이 발생할 수 있습니다.

Qwen3.5 팀은 이 문제를 해결하기 위해 ‘3:1 하이브리드 전략’이라는 영리한 타협점을 찾아냈습니다. 전체 레이어 중 3개는 효율적인 GDN으로 구성하되, 1개는 모든 정보를 원본 그대로 기억하는 기존의 풀 어텐션(Full Attention) 레이어를 배치한 것입니다.

이 1/4의 어텐션 레이어는 일종의 ‘고해상도 전용 차선’ 역할을 합니다. 대부분의 정보는 GDN이 빠르게 압축하여 처리하고, 절대로 잊어서는 안 될 핵심 정보는 어텐션 레이어가 ‘원문 그대로’ 보존함으로써 정보 유실을 막아줍니다. 덕분에 Qwen3.5는 선형 모델의 압도적인 속도를 유지하면서도, 바늘 찾기 테스트에서 트랜스포머급의 정밀도를 기록할 수 있었습니다.

물론, 이러한 혼합 구조를 구현하는 것은 표준적인 모델보다 수십 배는 더 까다롭습니다. 하드웨어 가속을 위한 커스텀 코드를 짜야 하고, 서로 다른 두 구조가 잘 어우러지도록 정교하게 튜닝하는 과정은 엔지니어들에게 거대한 도전입니다. 하지만 Qwen3.5는 이 ‘기술적 결합’을 통해 “빠르면서도 완벽하게 똑똑할 수 있다”는 것을 증명해냈습니다. 결국 미래의 AI는 하나의 완벽한 기술이 아니라, 서로의 약점을 보완하는 전략적 하이브리드가 주도하게 될 것입니다.


지능형 메모리 모델의 시대 – 효율성과 정밀도의 황금비율

지금까지 우리는 Qwen3.5의 폭발적인 성능 뒤에 숨겨진 주역, Gated DeltaNet(GDN)에 대해 자세히 살펴보았습니다. 과거의 AI가 단순히 정보를 무한히 펼쳐놓거나(트랜스포머) 무조건적으로 덧쓰는 방식(기존 리니어 어텐션)이었다면, 이제는 정보를 능동적으로 ‘쓰고, 편집하고, 지우는’ 지능형 메모리의 시대가 열린 것입니다.

GDN은 Mamba가 보여준 효율적인 게이팅 기술과 DeltaNet의 정밀한 업데이트 능력을 결합하여, 선형 모델이 가졌던 태생적 한계를 한 단계 끌어올렸습니다. 특히 Qwen3.5에서 보여준 것처럼 풀 어텐션과의 3:1 하이브리드 전략은 기술적 결함을 전략적 설계로 극복한 훌륭한 사례로 남을 것입니다.

인공지능의 성능이 곧 비용과 에너지 소모로 직결되는 시대입니다. 우리가 Gated DeltaNet과 같은 효율적인 아키텍처에 주목해야 하는 이유는 명확합니다. 더 적은 자원으로 더 높은 지능을 구현하는 것, 그것이 바로 AI 기술이 실험실을 넘어 산업 현장 곳곳에서 실제로 ‘작동’하게 만드는 유일한 길이기 때문입니다.

댓글