RT-2이후, 피지컬 AI의 진화를 이끄는 4가지 기준

Tech 17분 읽기
조회 22

지난 포스팅에서는 구글 딥마인드의 RT-2를 통해, 비전-언어 모델(VLM)의 고차원 지능이 어떻게 로봇의 움직임으로 이어지는지 살펴보았습니다. 동시에 양자화 오차로 인한 동작의 투박함, 실시간 제어 속도의 한계 등 넘어야 할 과제들도 함께 짚어보았는데요.

RT-2 이후, 현대 로보틱스는 분명 거대한 전환점 위에 서 있습니다. 과거의 로봇이 인지(Cognition), 계획(Planning), 제어(Control)를 독립된 모듈로 나누어 연결했다면, 이제는 행동 자체를 거대 모델이 직접 생성해 내는 결과물로 바라보기 시작한 것입니다. 의미를 이해하는 과정과 실제 물리적 행동을 만들어내는 경계가 점차 흐려지고 있습니다.

그렇다고 해서 기존의 로봇 제어 구조가 완전히 사라지는 것은 아닙니다.

오히려 최근의 흐름은 기존 스택(Stack)의 붕괴라기보다 재편(Reconfiguration)에 가깝습니다. 거대한 파운데이션 모델이 전체 상황을 이해하고 의도를 형성하면, 그 하위 계층에서는 여전히 검증된 제어기와 안전 메커니즘이 로봇의 움직임을 책임지는 구조입니다.

어쩌면, 로봇 AI의 미래는 “모든 것을 하나의 모델이 해결하는 세상”이라기보다, “거대한 지능과 정교한 제어가 새로운 방식으로 협력하며 진화”하는 것에 가까워 보입니다.

그렇다면 이 과정에서 로봇의 반응 속도를 올리고 정밀함을 채우기 위해, 지금 학계와 현장에서는 어떤 시도들을 하고 있을까요? 이번 글에서는 로봇의 생각과 행동을 연결하는 네 가지 설계 방식과, 그 과정에서 마주한 현실적인 고민들을 다뤄봤습니다.


RT-2 이후: 네 갈래로 뻗어 나가는 아키텍처 노선

현대 로봇 AI의 설계방식은 ‘의미 이해’와 ‘물리 제어’를 어떻게 연결하느냐에 따라 크게 네 가지 스타일로 나뉩니다.

가장 전통적이면서도 여전히 현장에서 널리 쓰이는 안정적인 방식입니다. 생각(계획)과 행동(제어)의 영역을 칼로 자르듯 엄격하게 나누는 것이죠. SayCan 계열이 대표적인데, 여기에선 거대 모델이 “무엇을 해야 할지” 큰 그림만 짜고, 실제 모터를 움직이는 정밀한 제어는 밑바닥에서 이미 잘 학습된 독립적인 ‘스킬 라이브러리’에 전부 맡겨버립니다.

  • 강점: 시스템이 매우 안정적입니다. 로봇이 왜 이렇게 움직이는지 단계별로 명확히 파악할 수 있고, 문제가 생기더라도 어느 모듈에서 에러가 났는지 쉽게 찾아내 해결할 수 있습니다.

  • 한계: 융통성이 부족합니다. 로봇은 오직 사람이 미리 짜놓은 행동 목록 안에서만 똑똑해질 수 있어서, 주변 환경이 조금만 낯설게 바뀌어도 제대로 대처하지 못합니다.

RT-2가 처음 제시하고, 최근 오픈소스 진영의 OpenVLA가 발전시켜 나가고 있는 구조입니다. 로봇의 연속적인 움직임을 일정 구간으로 쪼개어 단어(Token)로 만든 뒤, 거대 모델의 입력 사전에 포함해 함께 학습시키는 방식입니다.

특히 OpenVLA는 구글의 RT-2처럼 폐쇄적이었던 대형 모델 아키텍처를 오픈소스 생태계로 가져온 대표적인 사례입니다. Llama 기반 언어 모델에 시각 인코더를 결합하고, 다양한 로봇 데이터를 모아 학습을 진행했습니다. 모델 크기를 줄이면서도 파인튜닝 기법과 경량화 알고리즘을 적용해, 다양한 제조사의 로봇들이 거대 모델의 상식을 활용해 실무에 적용할 수 있는 길을 열었습니다.

  • 강점: 인터넷 데이터로 학습한 방대한 상식이 로봇의 움직임에 직접 반영됩니다. 덕분에 미리 정의되지 않은 도구가 없더라도, 주변의 컵을 망치 대용으로 골라내 알맞은 각도로 쥐는 높은 유연성을 보여줍니다.

  • 한계: 연속적인 물리 세계를 몇 개의 끊어지는 단어(이산적 수치)로 압축해 표현하다 보니, 구조적인 양자화 오차가 발생합니다. 손끝의 미세한 힘 조절이나 정밀한 조립 작업에는 아직 한계가 있습니다.

행동을 단어 형태로 쪼개는 대신, 로봇의 움직임을 부드러운 연속적인 궤적 자체로 생성해 내는 방식입니다. Diffusion Policy가 이러한 접근법의 기반을 다졌고, 최근 Physical Intelligence사의 π0(파이제로)가 이 흐름을 대표하는 모델로 주목받고 있습니다.

이 계열은 실제 물리 세계에서 마주하는 다양한 선택지(멀티모달 상황)를 자연스럽게 처리할 수 있다는 점이 특징입니다. 단어 기반 방식은 여러 대안을 하나의 시퀀스로 압축하는 과정에서 정보 손실이 발생할 수 있지만, 확률 분포에 기반한 이 구조는 가능한 여러 행동 경로를 유연하게 표현할 수 있습니다. 특히 π0는 상위 인지 영역에는 VLM을 활용하면서 행동 생성은 연속적인 흐름 기반으로 처리하여, 정밀 제어의 가능성을 보여줍니다.

  • 강점: 물리 법칙에 부합하는 정교한 고주파 제어가 가능합니다. 액체를 따르거나 천을 접는 등 비정형적이고 복잡한 조작 작업도 안정적으로 소화합니다.

  • 한계: 최적의 경로를 찾기 위해 확률 분포 계산(Sampling)을 반복해야 하므로 연산 비용이 많이 들고, 전체적인 시스템 구조가 복잡해집니다. 확률 계산을 끊임없이 반복해야 하므로, 컴퓨터의 연산 부담이 크고 시스템 구조가 다소 복잡해집니다.

다양한 아키텍처의 고민을 종합하여 최근 휴머노이드 진영의 대세 표준으로 떠오른 방식입니다. 인간의 ‘느린 사고(System 2)’와 ‘빠른 반사 신경(System 1)’을 그대로 본떴습니다. 속도가 다른 두 개의 신경망을 한 몸에 얹는 것이죠.

거대한 상위 모델(VLM)이 주변 상황을 이해하고 작업 의도를 압축해 하위 계층으로 내려보내면, 가볍고 빠른 운동 정책(Policy) 모델이 이를 받아 초고속으로 모터를 실시간 제어하는 구조입니다. Figure AI의 Helix나 NVIDIA의 GR00T N1 등이 이 방식을 활용해 자유도가 높은 휴머노이드 전신을 정밀하게 제어하는 성과를 보여주었습니다. 하나의 신경망이 판단과 제어를 모두 처리하게 만드는 대신, 연산 속도가 다른 두 시스템에 역할을 효율적으로 분업시키자는 접근입니다.

  • 강점: 범용적인 문맥 이해와 실시간의 정교한 움직임을 동시에 달성할 수 있습니다. 사람과 유사하게 관절의 자유도가 높은 복잡한 로봇 몸체에도 확장하기 좋습니다.

  • 한계: 작동 주파수와 연산 속도가 서로 다른 두 시스템을 매끄럽게 연동하고, 이를 유기적으로 함께 학습시키는 엔지니어링 과정의 복잡도가 높습니다.

네 가지 비교 축과 트릴레마

겉보기에는 복잡해 보이는 로봇 AI의 시도들도, 결국은 한 가지 숙제를 풀기 위한 과정입니다. 바로 ‘인터넷 데이터로 똑똑해진 AI의 지능을 실제 로봇의 움직임으로 어떻게 연결할 것인가?’라는 점이죠. 엔지니어들은 이 숙제를 해결하기 위해 다음 네 가지 조건을 따져보며 최적의 조합을 찾게 됩니다.

축 1. 행동의 표현 방식 (문장인가, 궤적인가)

로봇의 움직임을 단어들의 문장으로 볼 것인가, 아니면 부드러운 선의 궤적으로 볼 것인가에 대한 접근 차이입니다.

  • 단어(토큰) 방식 (RT-2, OpenVLA): 로봇의 움직임을 쪼개서 마치 문장을 쓰듯 글자(토큰)로 다룹니다. 인터넷에 있는 엄청난 양의 글과 지식을 그대로 가져다 쓸 수 있어, 새로운 명령을 알아듣는 확장성에 아주 유리합니다.
  • 연속된 궤적 방식 (π0, Diffusion Policy): 물리 세계의 움직임은 본래 끊어지지 않는 연속적인 흐름이라는 점에 집중합니다. 부드러운 ‘선의 궤적’ 자체를 통째로 그려내기 때문에, 상황에 따른 여러 선택지를 유연하게 반영하며 훨씬 정교하고 자연스럽게 움직입니다.

축 2. 모델의 책임 범위 (전부 맡길 것인가, 안전장치를 둘 것인가)

AI가 주변을 인식하는 것부터 로봇 손가락을 제어하는 것까지, 과연 어디까지 책임지게 할 것인가의 문제입니다.

  • 모든 과정을 AI 신경망 하나에 통째로 맡기면(엔드투엔드 방식), 판단과 실행 사이에서 정보가 새 나가지 않는다는 장점이 있습니다. 하지만 AI가 왜 그런 행동을 했는지 안을 들여다보기 힘들고(블랙박스 현상), 갑작스러운 오작동을 막기 어렵다는 안정성 문제가 생깁니다.
  • 이를 해결하기 위해 똑똑한 거대 AI 밑단에 ‘물리 법칙 기반의 클래식 안전 필터’를 결합하는 하이브리드 설계를 쓰기도 합니다. 머리(AI)가 그리는 움직임의 유연성은 그대로 살리되, 손가락 끝에서 일어날 수 있는 치명적인 실수는 기존의 꼼꼼한 제어기가 안전하게 걸러내는 방식입니다.

축 3. 데이터 전략 (규격화할 것인가, 날것 그대로 쓸 것인가)

로봇 AI의 성능은 결국 ‘데이터를 어떻게 조합해 학습시켰는가’에서 갈립니다. 여기서 OpenVLA와 π0의 재미있는 차이가 발생합니다.

  • OpenVLA의 전략: 전 세계의 다양한 로봇 데이터를 한데 모아 기본 뼈대로 삼았습니다. 다만 형태나 관절 수가 저마다 다른 로봇들을 소화해야 하므로, 데이터를 똑같은 규격의 포맷(토큰 상자)에 맞춰 정돈하는 가공 과정을 거칩니다.
  • π0의 전략: 로봇의 형태가 완전히 달라도 데이터를 가공하지 않고 원본 그대로 학습시킵니다. 특수한 학습 기법(플로우 매칭)을 활용해, 각 로봇 고유의 신체적 특징과 모터 주파수를 왜곡 없이 AI에 그대로 녹여냅니다.

축 4. 로봇 지능의 트릴레마 (현실적인 실용성)

마지막은 현장에 로봇을 실제로 적용할 때 마주하는 실무적인 문제입니다. 현대 로봇 AI는 다음 세 가지 가치를 한 번에 모두 만족하는 단일 모델을 만들기 어렵다는 전형적인 ‘트릴레마(삼중고)’를 겪고 있습니다.

  • 범용성 (Generality): 처음 보는 물건이나 새로운 명령에도 유연하게 대처하는 능력 (거대 AI 모델 진영의 우위)
  • 정밀성 (Dexterity): 물리 법칙을 정교하게 이해하며 미세한 힘을 조절하는 능력 (궤적 생성 진영의 우위)
  • 배포 가능성 (Deployability): 컴퓨터 연산 비용이 낮고 현장에서 실시간으로 빠르게 반응하는 능력 (전통적 제어 방식의 우위)

결국 “어떤 방식이 무조건 맞다”는 정답은 없습니다. 진짜 엔지니어링적인 질문은 “우리가 해결하려는 현장에서 범용성, 정밀성, 배포 가능성 중 무엇을 가장 우선순위에 둘 것인가”입니다. 정밀한 조립 공장에서는 빠른 반응 속도와 정밀성이 최우선일 것이고, 집안일을 돕는 가사 도우미 로봇에게는 새로운 물건을 알아보는 범용성이 더 우선되는 것처럼 말이죠.


그럼에도 불구하고 쉽지 않은 네 가지 병목

아무리 완벽한 설계도를 짜더라도, 현실 세계의 벽 앞에서는 모든 모델이 공통적으로 한계에 부딪히게 됩니다. 이는 특정 아키텍처의 문제라기보다, 물리 세계가 가진 본질적인 제약 때문입니다. 현장에서 가장 크게 마주하는 네 가지 병목을 짚어보겠습니다.

로봇의 행동을 단어(토큰)로 표기하면 대화하듯 유연하게 확장할 수 있지만 정밀도가 떨어집니다. 반대로 연속적인 궤적으로 만들면 정교함은 살아나지만 AI가 계산해야 할 공간과 연산량이 기하급수적으로 커집니다. “인간의 지능을 끊어지는 기호(언어)로 표현할 것인가, 아니면 연속적인 흐름(물리)으로 표현할 것인가”라는 인공지능 역사상 가장 오래된 질문이 로봇 공학에서 여전히 충돌하고 있습니다.

인터넷 웹 데이터는 우주만큼 방대하지만 ‘실제 물건을 만져본 감각’이 없고, 로봇 데이터는 생생한 ‘실제 움직임’을 담고 있지만 데이터의 양이 턱없이 작습니다. 이 극단적인 두 데이터를 합치기 위해 최근 연구진은 [사전 학습(Pre-train) ➔ 정렬(Post-train)]이라는 2단계 구조를 씁니다. 인터넷 데이터로 세상의 일반적인 상식을 먼저 머리에 주입한 뒤, 시뮬레이터나 특정 로봇 신체에 맞춘 반복 학습을 통해 손끝의 미세한 힘(토크)을 조절하도록 정렬하는 식이죠. 이 두 학습 데이터를 어떤 비율로 섞어 구워내느냐가 현재 차세대 로봇 AI 기업들의 핵심 영업비밀입니다.

로봇의 몸 안에서는 새로운 사물을 이해하는 ‘머리의 지능(의미론적 일반화)’과 새로운 마찰력이나 무게를 견디는 ‘손끝의 감각(운동 제어적 일반화)’이 자주 어긋납니다. 최근 π0.5 같은 최신 모델은 대규모 공동 학습을 통해 전혀 가본 적 없는 ‘처음 보는 집’에 들어가 물건을 정리하는 멋진 시연을 보여주기도 했습니다. 하지만 이 역시 첫 시도에 매번 성공하지는 못한다는 점에서, 영리한 이해력과 견고한 물리 제어력을 양손에 완전히 쥐는 일은 여전히 큰 숙제입니다.

실시간 현장에서 0.1초의 판단 지연은 단순한 컴퓨터 버그가 아닙니다. 로봇 팔이 벽에 부딪히거나 물건을 파손하는 물리적 재앙으로 이어지죠. 문장을 받아쓰듯 다음 행동을 하나하나 순차적으로 생성하는 방식(자동 회귀)은 실시간 반응에 치명적입니다. 이를 우회하기 위해 디퓨전 기반 모델들은 한 번 추론할 때 앞으로 움직여야 할 1~2초간의 연속적인 움직임 묶음을 통째로 내려보내는 ‘액션 청킹(Action Chunking)’ 기법을 생존책으로 사용합니다.


그래서 앞으로의 로봇 AI는 어떤 방향으로 진화할까요?

미래의 로보틱스는 인지, 계획, 제어의 경계가 완전히 사라진 하나의 거대한 단일 모델로 수렴할 수 있을까요?

최근 구글 딥마인드가 Gemini 2.0 기반으로 행동 능력을 결합해 공개한 Gemini Robotics의 사례를 보면 가능성이 보입니다. 종이접기나 카드 다루기 같은 정교한 작업을 새로운 로봇 플랫폼에서도 잘 해내며, 하나의 공통된 AI 공간이 가진 강력한 범용성을 증명해 냈죠. 마치 기존 로봇 제어 구조의 변화가 눈앞에 다가온 것처럼 보입니다.

그러나 실험실 데모를 넘어 현실의 산업 현장을 생각하면 이야기가 다릅니다. 물리 세계의 로봇은 단순히 상황을 잘 이해하는 것만으로는 작동할 수 없기 때문입니다. 밀리초(ms) 단위로 빠르게 반응해야 하고, 오작동 원인을 명확히 추적할 수 있어야 하며, 완벽한 안전성을 보장해야 합니다.

그렇기에 미래의 로보틱스는 하나의 방식으로 통일되기보다, 현장의 목적에 따라 크게 세 가지 방향으로 나뉘어 발전할 가능성이 높습니다.

거대한 기반 모델에 몇 줄의 명령어를 주거나 소량의 데이터만 파인튜닝하여, 다양한 로봇과 작업에 즉각 적응시키는 방식입니다. 거대 모델 아키텍처의 확장성을 로봇 시장에도 그대로 적용하려는 시도입니다.

“위험한 물건을 치워라” 같은 고차원적인 판단과 작업 계획은 거대 모델이 담당하고, 손가락이 미끄러지지 않게 실시간 힘을 제어하거나 위험 상황에 대응하는 영역은 고속 로컬 제어기가 전담하는 방식입니다. 실시간성과 안전 검증이 필수인 실제 산업 환경에서는 이 하이브리드 구조가 가장 실용적인 표준이 될 것입니다. 경량화된 SmolVLA 같은 온디바이스(On-Device) 흐름도 이 방식을 따르고 있습니다.

연속적인 궤적을 주파수 영역으로 압축해 효율과 정밀함을 모두 잡으려는 π0-FAST 연구나 잠재 행동 공간(Latent Action Space) 연구가 여기에 해당합니다. 웹의 상식과 물리 세계의 정밀함을 손실 없이 동시에 담아낼 최적의 행동 문법을 정의하려는 기술 경쟁입니다.

로보틱스의 병목은 점점 모델 구조 자체보다 데이터의 문제로 옮겨가고 있습니다. 웹 기반의 방대한 언어·시각 데이터와 실제 로봇의 신체(Embodied) 데이터를 어떻게 조합하고 정렬하느냐가 핵심입니다. 특히 실제 물리적 상호작용 데이터의 부족을 해결하기 위해 시뮬레이터 데이터와 현실 데이터를 영리하게 배합하는 기술이 주요 경쟁력이 될 것입니다.

로보틱스는 정보 세계에서 발전해온 AI의 대형화 흐름을 흡수하면서도, 훨씬 더 엄격한 물리적 제약과 안전 요구를 동시에 만족해야 하는 영역입니다. 언어 모델은 오답을 출력하더라도 다음 문장 생성으로 보정할 수 있지만, 물리 세계의 로봇은 단 한 번의 잘못된 행동이 실제 기기 파손이나 인명 피해로 이어질 수 있기 때문입니다.

우리가 이 제어의 구간을 ‘생각과 행동 사이의 간극’이라 부르는 이유는 단순한 기술적 한계 때문이 아닙니다. 인간의 의미 이해를 물리적 행동으로 연결하는 과정에서 발생하는 복합적인 제약들(지각, 계획, 제어, 안전, 그리고 데이터의 문제)이 모두 압축되어 있는 구간이기 때문입니다.

그러나 지금 이 간극은 더 이상 단단한 장벽이 아닙니다. 계획에서 정책으로, 토큰에서 궤적으로 이어지는 다양한 방식의 연결 구조들이 흥미진진하게 재구성되는 시점입니다.

결국 로보틱스에서의 진짜 지능은 모델이 얼마나 많은 상식을 이해하고 있느냐가 아니라, 그 이해를 실제 세계 속 손끝의 행동으로 얼마나 안정적이고 신뢰할 수 있게 변환해 내는가에 의해 비로소 증명될 것입니다.