“테이블 위에 있는 빨간 머그컵 가져와.”
당신이 로봇에게 이렇게 말하면, 로봇의 카메라가 작동하며 주변 사물을 관찰하기 시작합니다. 빨간색이 무엇인지, 머그컵이 무엇인지 이미 알고 있는 로봇은 비슷하게 생긴 물체가 여러 개 놓여 있어도 최신 비전-언어 모델 덕분에 꽤 높은 확률로 올바른 대상을 골라낼 수 있습니다.
그런데 어느 순간 로봇 팔이 컵 쪽으로 뻗어가다가 어색하게 흔들리고, 손목 각도가 조금 어긋납니다. 그 사이에 컵 손잡이를 놓치거나, 힘 조절을 잘못해 컵을 밀어버리죠. 로봇은 무엇을 집어야 하는지는 알지만, 어떻게 집어야 하는지는 아직 서툽니다.
이 장면은 오늘날 AI와 로보틱스가 마주한 흥미로운 역설을 압축해서 보여줍니다.
최근 몇 년 사이 비전-언어 모델(VLM)은 엄청난 속도로 발전했습니다. 이미지와 텍스트를 함께 이해하며 세상에 대한 풍부한 의미 지식을 쌓아왔죠. 이제 이 모델들은 사진 한 장만 보고도 상황을 설명하고, 물체의 용도를 추론하고, 심지어 “이 물건은 망치 대신 쓸 수 있겠다” 같은 상식적 판단까지 내릴 수 있습니다.

하지만 문제는 그 지식이 실제 세계에서의 행동으로 잘 이어지지 않는다는 점입니다. 화면 속 픽셀의 세계를 이해하는 것과, 마찰과 무게 중심과 지연(latency)이 있는 물리 세계에서 정확하게 움직이는 것은 전혀 다른 차원의 문제이기 때문입니다.
바로 그 지점, ‘이해’가 ‘행동’으로 바뀌는 과정에는 여전히 메워지지 않는 마지막 간극이 남아 있습니다. 그리고 오늘날 피지컬 AI가 도전하고 있는 과제도 바로 이 ‘마지막 간극’를 메우는 일입니다.
의미와 행동 사이, 보이지 않는 간극
AI가 세상을 이해하는 것과 실제로 행동하는 것 사이에는 여전히 중요한 간극이 존재합니다. 인간에게는 너무 자연스러워 의식조차 하지 못하는 과정이지만, 로봇에게는 가장 어려운 문제 중 하나입니다. 우리가 어떤 의미를 이해한 뒤 자연스럽게 몸을 움직이듯, 로봇 역시 인식한 정보를 실제 행동으로 변환해야 합니다. 하지만 바로 이 ‘의미를 행동으로 번역하는 과정’이 아직 완전히 해결되지 않은 핵심 과제로 남아 있습니다.
지금까지의 로보틱스는 이 간극을 정면으로 해결하기보다, 인지(Cognition), 계획(Planning), 제어(Control)를 각각 분리해 발전시켜 왔습니다. 그리고 이를 인터페이스로 연결하는 방식으로 문제를 해결해 왔는데요. 이 구조는 안정성과 신뢰성을 확보하는 데 효과적이었지만, 의미와 행동 사이에 보이지 않는 또 다른 경계를 남겼습니다.

그 결과, 최근의 뛰어난 AI 모델들조차 로보틱스 영역에서는 고차원적인 명령만 전달하는 ‘계획가(Planner)’ 역할에 머무를 수밖에 없었습니다. 세상의 온갖 지식을 학습한 AI가 왜 직접 행동하는 데는 어려움을 겪는 걸까요?
여기에는 두 가지 결정적인 기술적 병목(Bottleneck)이 존재합니다.
- 주파수의 불일치 (Low vs High Frequency)
첫 번째 문제는 ‘생각의 속도’와 ‘행동의 속도’ 사이의 격차입니다.
– 거대한 VLM의 연산 (수 Hz 수준): AI가 주변 상황을 시각적으로 판단하고 다음 행동을 계획하는 데는 수백 밀리초(ms)에서 수 초의 시간이 걸립니다.
– 실시간 모터 제어 (100Hz ~ 1kHz 수준): 반면, 로봇 팔이 흔들리지 않고 컵을 안전하게 쥐려면 모터의 토크를 제어하는 루프가 1초에 100번에서 1,000번까지 초고속으로 돌며 실시간 피드백을 반영해야 합니다.
쉽게 말해, 뇌의 연산 속도가 근육의 실시간 반응 속도를 따라가지 못하는 셈입니다. 아무리 영리한 계획을 세워도, 로봇의 관절을 실시간으로 보정해 주지 못하면 물리 세계에서는 무용지물이 됩니다. - 모달리티의 부재 (시각을 넘어 촉각으로)
두 번째 문제는 웹 데이터와 실제 물리 세계의 괴리입니다.
– 기존의 VLM은 인터넷상에 존재하는 ‘시각(Image)’과 ‘언어(Text)’ 데이터만을 학습하며 성장했습니다. 하지만 문고리를 부러뜨리지 않고 부드럽게 돌리거나, 달걀을 깨뜨리지 않고 정확하게 쥐는 ‘힘 조절’은 눈이 아니라 손가락 끝에 전해지는 압력(촉각)과 모터에 걸리는 전류 값(고유감각, Proprioception)에 의존합니다.
현재의 거대 웹 데이터셋에는 로봇이 물리 세계와 상호작용할 때 필요한 이러한 ‘물리적 감각 데이터’가 절대적으로 부족합니다. 시각과 언어만으로는 현실의 마찰력과 무게, 저항을 완벽히 계산할 수 없기 때문입니다.
생각과 행동 사이의 간극을 좁히기 위한 패러다임 시프트: VLA 모델의 등장
바로 이 지점에서 최근 로봇 AI의 전선(Frontier)이 급격하게 바뀌고 있습니다.
기존의 VLM이 단순히 상위 계획만 짜던 단계(Planner)에서 벗어나, 이제는 로봇의 관절 각도와 말단 장치(End-Effector)의 좌표 변화량을 마치 텍스트 토큰처럼 직접 출력하는 VLA(Vision-Language-Action, 비전-언어-행동) 모델로의 진화가 시작된 것입니다. 이는 고차원적인 ‘의미 이해’와 저차원적인 ‘물리적 제어’를 하나의 거대 신경망으로 통합하려는 정면 돌파 시도입니다.
만약 거대 지능의 언어를 로봇의 움직임으로 번역하는 이 장치가 완벽히 작동한다면, 로봇은 더 이상 미리 입력된 정형적인 절차만 반복하는 기계가 아닙니다. 새로운 상황을 스스로 해석하고 유연하게 적응하는 주체가 됩니다.
예를 들어,
- 기존 로봇: 정해진 위치에 지정된 물건이 없으면 에러(Error) 발생
- VLA 기반 로봇: “집게가 없으면 주변에서 비슷한 길쭉한 물건을 찾아 대신 사용해”라는 비정형적 지시를 이해함. 주변 사물의 형태를 시각적으로 분석하고, 대안을 골라 직접 쥐어보며 임기응변으로 문제를 해결함.
이 순간 로봇은 단순한 공장 자동화(Automation)를 넘어, 현실 세계와 실시간으로 상호작용하는 진정한 ‘Physical AI’의 영역으로 진입하게 됩니다.
물론 거대 모델의 상식적 지식이 로봇의 행동 벡터로 직접 번역되어 생각과 행동 사이의 벽이 좁혀진다고 해서 모든 문제가 곧바로 해결되는 것은 아닙니다. 우리가 살아가는 실제 현실 세계는 예측 불가능한 외란(Disturbance)과 수많은 마찰 변수로 가득 차 있기 때문입니다.
- 산업 현장에서의 과제: 단 한 번의 실수나 오작동도 치명적인 손실로 이어지는 제조·물류 현장이나 일상 공간에서, 데이터 기반의 확률형 학습 모델이 과연 100%에 수렴하는 안정성과 견고함(Robustness)을 보장할 수 있을 것인가?
거대 모델의 지능을 물리적 신체와 결합하여 지능과 제어의 간극을 메우려는 인류의 도전은 이제 가장 핵심적인 관문에 들어섰습니다. 지금부터는 VLA 모델이 구체적으로 어떤 내부 메커니즘을 통해 구동되는지, 그리고 우리가 당면한 과제들은 무엇인지 조금 더 깊이 있게 살펴보겠습니다.
VLM은 왜 ‘생각하는 모델’의 벽에 부딪혔는가
기존 로봇 시스템을 조금 단순화해서 말하면, 대체로 세 가지 단계로 작동해 왔습니다.
- 인지 모듈: 카메라와 센서로 주변 환경을 파악한다.
- 계획 모듈: “무엇을 해야 할지” 상위 계획을 정한다.
- 제어 모듈: 모터를 어떻게 움직일지 구체적인 물리 값을 계산한다.
얼핏 보면 아주 합리적인 구조입니다. 사람으로 치면 눈으로 상황을 보고, 머리로 계획을 세우고, 손발이 움직이는 식이니까요. 비전-언어 모델(VLM)이 로보틱스와 처음 결합했을 때 맡았던 영역이 바로 이 ‘머리(Planner)’였습니다.
이 패러다임의 문을 연 구글의 SayCan(2022년)을 보면, 그 핵심은 거대 언어모델(LLM) 기반의 지능이었습니다.
- Say (말이 되는가): 언어 모델이 사용자의 모호한 지시를 해석해 “무엇을 해야 말이 되는지” 후보를 추립니다.
- Can (할 수 있는가): 로봇이 그 행동을 “실제로 수행할 수 있는지”를 별도의 어포던스 가치함수(Affordance Value Function)로 따집니다.
즉, ‘의미를 아는 뇌(Say)’와 ‘몸이 할 수 있는 일(Can)’을 곱해 다음 행동을 정하는 방식이었습니다.
“물병을 냉장고에서 꺼내 테이블 위에 올려라.”
이런 명령이 주어지면, VLM은 높은 수준에서 해야 할 일을 꽤 그럴듯하게 분해해 냅니다.
- 냉장고 앞으로 이동 → 문 열기 → 물병 찾기 → 집기 → 문 닫기 → 옮기기 → 내려놓기
이 단계만 보면 VLM은 이미 완벽한 현실세계의 지능처럼 보입니다.

그러나 선명했던 VLM의 지능은 하위 제어 계층으로 내려가는 순간 급격히 흐려집니다. 현장에서 마주하는 진짜 복잡한 질문들은 대개 이런 실전적인 것들이기 때문입니다.
- 냉장고 문 손잡이를 어느 각도로 잡아야 하는가?
- 물병이 뒤쪽에 반쯤 가려져 있다면 어떻게 손을 밀어 넣을 것인가?
- 병이 플라스틱인지 유리인지에 따라 힘을 얼마나 줄 것인가?
이 질문들은 고속으로 물리 값을 계산해야 하는 저수준 제어(Low-level control)의 영역입니다. 그리고 바로 이 순간, 모델이 고차원에서 갖고 있던 풍부한 맥락 정보는 하위 계층으로 전달되지 못하고 상당 부분 소실됩니다. 학술적으로 이를 ‘의미론적 병목(Semantic Bottleneck)’이라 부릅니다.
모델은 “저 물건은 깨지기 쉬운 유리병이니 조심스럽게 다뤄야 한다”는 맥락을 분명히 이해하고 있었지만, 실제 모터 명령을 만들어내는 하위 제어 시스템은 대개 그런 지식을 직접 소비할 능력이 없습니다. 대신 3D Point Cloud 데이터 기반의 기하학적 위치나 사전 정의된 규칙에만 의존합니다.
결국 로봇은 움직이지만, 그 움직임은 ‘이해’기반하여 자연스럽게 흘러나온 행동이라기보다 고차원 지능이 끊긴 채 따로 노는 것에 가까웠던 셈입니다.
‘무엇을 쓸 것인가’와 ‘어떻게 쥘 것인가’의 괴리
이 차이는 생각보다 치명적입니다. 예를 들어 테이블 위에 작은 망치가 없는데, 사용자로부터 “가볍게 두드려 뚜껑을 열어봐”라는 지시를 받았다고 가정해 봅시다. 사람은 주변을 둘러보다가 손잡이가 단단한 금속 컵이나 두꺼운 손전등을 대체 도구로 쉽게 떠올릴 수 있습니다.
이때 기존의 Planner 기반 구조 역시 “망치가 없으니 금속 컵을 망치 대신 쓰자”라는 상식적 추론까지는 해냅니다. 하지만 이를 곧바로 저수준 행동으로 이어붙이지는 못했습니다.
- 기존 로봇의 한계: 로봇의 스킬 라이브러리에 저장된 컵 집기 알고리즘은 오직 ‘음료를 마시기 위해 컵을 똑바로 세워 잡는 법’만 알고 있기 때문입니다.
- 실제 필요한 행동: 이를 망치로 쓰려면 컵의 밑동이나 손잡이를 거꾸로 단단히 쥐는 ‘기능적 파지(Functional Grasping)’가 필요합니다.
‘망치처럼 거꾸로 쥐어야 한다’는 고차원 상식이 손끝의 제어기까지 온전히 내려가지 못하니, 로봇은 평소 물 마시듯 컵을 정방향으로 얌전하게 잡고 어설프게 휘두르다가 결국 바닥에 떨어뜨리고 맙니다.
감독은 굳이 벤치에만 앉아있어야 할까?
기존 구조의 강점은 선명합니다. 인지, 계획, 제어를 완고하게 분리해 두면 각 모듈을 따로 검증하고 개선할 수 있어, 산업 현장에서 가장 중요한 ‘안정성’을 확보하기 유리합니다. 하지만 구조가 단절된 만큼, 의미가 행동으로 내려가면서 점점 압축되고 휘발되었습니다. VLM은 세상을 깊이 ‘이해’했지만, 그 지능이 끝내 로봇의 손끝까지 닿지 못했던 이유입니다.
비유하자면 이렇습니다. 초기 VLM 기반의 로봇 시스템은 마치 훌륭한 감독과도 같았습니다.
벤치에 앉아 상황을 읽고, 전략을 짜고, “이제 저걸 잡아, 다음엔 저기로 가”라고 완벽한 작전을 지시할 수 있습니다.그러나 정작 경기장 안에서 몸을 부딪치며 공을 차는 선수는 다른 사람입니다. 감독의 축구 철학과 경기의 미묘한 감각이 선수의 발끝까지 그대로 전달되지는 못했습니다.
그리고 바로 이 지점에서 하나의 급진적인 질문이 등장합니다.
“감독이 굳이 벤치에만 머물러야 할까? 의미를 이해하는 거대 모델이 경기장 안으로 직접 걸어 들어와 선수들과 함께 뛰며 패스 길을 열어주는 ‘플레잉 코치(Playing Coach)’가 될 수는 없을까?”
작전 지시를 넘어, 손발의 움직임(행동 궤적)을 직접 생성해 내는 모델. RT-2 (2023년)는 바로 그 질문을 정면으로 던지며 등장했습니다.

RT-2: 행동을 ‘제어 신호’가 아니라 ‘언어’처럼 보기 시작한 순간
구글이 개발한 RT-2(2023년)의 발상은 의외로 아주 단순하고 기발했습니다. 로봇의 움직임을 복잡한 공학적인 계산으로 보지 말고, AI가 제일 잘하는 ‘글자(단어)’로 다루자는 생각이었죠.
이게 왜 대단한 패러다임의 전환인지 이해하려면, 기존 로봇이 어떻게 움직였는지 살짝 알아야 합니다. 기존 로봇 제어는 언제나 3차원 좌표나 관절 각도 같은 정밀한 소수점 숫자를 계산하는 방식이었습니다.
- 따라서, 기존 로봇의 방식 (수학 컴퓨터): 기존 로봇에게 팔을 움직이게 하려면
[오른쪽으로 3.14cm 이동, 관절 각도는 45.2도 꺾기]처럼 아주 미세한 소수점 숫자(좌표)를 실시간으로 계산해서 명령을 내려야 했습니다.
컴퓨터에게는 너무나 익숙한 수학 공식이었지만, 인간의 ‘글자’와 ‘언어’를 바탕으로 똑똑해진 거대 AI 모델에게 이러한 연속적인 수치 데이터는 낯설고 어색한 영역이었습니다.
숫자를 단어로 바꾸는 발상의 전환 : 행동 토큰화 (Action Tokenization)
그런데 RT-2는 여기서 전혀 다른 방향으로 패러다임을 비틀어 버립니다.
로봇의 하위 제어 명령(좌표 이동량, 회전 각도 등)을 일정한 구간으로 쪼갠 뒤(양자화, Quantization), 이를 기존 VLM 단어 사전에 비어 있는 토큰들에 1대1로 매핑한 것입니다. 즉, 로봇이 움직일 수 있는 미세한 거리나 각도들을 마치 가나다라나 알파벳 같은 하나의 ‘글자’로 지정해 버린 것입니다.
- 기존 방식:
[X:+0.032, Y:-0.015, Z:+0.102]와 같은 소수점 데이터 연산 - RT-2 방식:
[Action_Token_142],[Action_Token_89]처럼 텍스트 단어로 변환
결과적으로 모델 입장에서는 “머그컵”이라는 단어를 생성하는 것과 “X축으로 +3만큼 이동하라”는 제어 토큰을 뱉는 것이 완전히 동일한 연산 과정이 된 것입니다.
학술적으로 이를 ‘행동 토큰화(Action Tokenization)’라고 부릅니다. RT-2는 PaLI-X나 PaLM-E 같은 당대 최고 수준의 거대 VLM을 그대로 가져와, 그 뇌 위에 이 행동 토큰을 얹어 함께 학습시켰습니다. 지능의 언어와 행동의 언어가 마침내 하나로 통합된 것입니다.
공동 학습(Co-training)의 마법
이 생각의 파괴력은 상상 이상이었습니다. 입력으로 이미지와 지시문을 받고, 출력으로 곧바로 로봇의 움직임(행동 토큰)을 만들어낼 수 있게 되면서 로보틱스의 오래된 경계선이 무너지기 시작한 것입니다. 이제 계획과 제어는 분리되지 않고, 하나의 거대한 신경망 안에서 매끄러운 연속 과정으로 통합되었습니다.
여기서 오해하지 말아야 할 중요한 공학적 진실이 있습니다. AI가 인터넷의 글과 사진만 보고 갑자기 로봇 팔을 움직이는 법을 스스로 깨우친 것은 아닙니다. RT-2가 보여준 진짜 마법은 바로 ‘공동 학습(Co-training)’에 있었습니다. 구글 딥마인드(DeepMind)는 웹 스케일의 방대한 상식 데이터와, 기존 로봇들이 실제 몸으로 부딪치며 모은 정밀한 로봇 조작 데이터셋을 하나의 용광로에 넣고 함께 구워냈습니다.
그 결과, 웹 데이터에 담긴 인간의 고차원적 ‘상식’이 실제 로봇의 ‘행동 궤적’ 위로 자연스럽게 미끄러져 들어가는 지식의 전이(Transfer)가 일어났습니다.
예를 들어 로봇이 “쓰레기를 집어 휴지통에 버려라”라는 명령을 받았을 때를 생각해 봅시다.
- 기존 로봇: 단순히 눈앞에 있는 물체의 위치와 크기 같은 기하학적 형태만 인식합니다. 모양만 보고 지갑까지 쓰레기통에 넣어버리는 치명적인 실수를 할 수 있죠.
- Co-training된 로봇: 공동 학습된 뇌 덕분에 “먹다 남은 과자 봉지는 버려야 할 쓰레기지만, 옆에 놓인 지갑은 소중한 자산이니 남겨둬야 한다” 같은 웹상의 상식적 분류 능력이 작동합니다.
이 상식적 판단이 손끝의 행동 결정에 직접적인 재료로 개입하여, 과자 봉지만 정확하게 골라 쥐어 쓰레기통으로 향하게 만듭니다.

상식이 행동의 재료가 될 때: 도구의 선택과 행동의 일반화
이 거대한 변화를 가장 단적으로 보여주는 예시가 바로 ‘도구의 사용’입니다.
- 과거의 전통적인 로봇: “망치를 사용하라”는 명령이 들어오면, 로봇 개발자가 시스템 내부에 망치를 쥐고 두드리는 미세한 각도와 스킬을 일일이 수식으로 코딩(Hard-coding)해 두어야만 했습니다.
- VLA 패러다임의 로봇: 반면 RT-2 계열의 모델은 웹 데이터를 통해 “망치는 무엇이고, 어떤 기능을 하며, 망치가 없을 땐 어떤 물건이 비슷한 역할을 대체할 수 있는가”에 대한 넓은 맥락과 상식을 이미 머릿속에 품고 있습니다.
이 고차원적인 상식이 실제 로봇의 행동 데이터와 결합하자, 놀라운 기적이 일어나기 시작했습니다.
망치가 없는 돌발 상황에서도 주변을 둘러보더니 단단한 금속 컵을 망치 대용으로 스스로 골라내고, 이를 단단히 내리치기 적합한 각도로 거꾸로 쥐는 ‘행동의 일반화(Generalization)’를 보여준 것입니다. 앞서 상하위 계층이 단절되어 컵을 얌전하게 잡고 허공을 휘두르다 바닥에 떨어뜨리던 그 무기력한 로봇이 아닙니다.
세상에 대한 깊은 ‘이해’가 박제된 매뉴얼에 머물지 않고, 시시각각 변하는 현실에 유연하게 대처하는 ‘상황 적응적 행동’으로 변환되기 시작한 순간입니다.
패러다임의 증명과 물리적 한계
RT-2가 당장 인간 수준의 정밀하고 유연한 조작(Manipulation) 성능을 완성한 것은 아닙니다. RT-2의 핵심적 의의는 비전-언어 모델의 추론 지능이 하위 제어 계층과 직접 통합될 수 있다는 패러다임을 실증(Proof of Concept)한 데 있습니다.
기존 VLM 기반 시스템이 벤치에 앉아 지시만 내리는 ‘감독’에 머물렀다면, RT-2는 거대 모델이 물리적 행동 궤적을 직접 생성하며 현장에서 함께 뛰는 ‘플레잉 코치’로 전환될 수 있음을 증명했습니다.
그러나 이 통합 구조는 실제 물리 세계의 제약과 부딪히며 명확한 한계에 직면합니다.
양자화 오차(Quantization Error)로 인한 정밀도 한계: 무한하고 연속적인 물리 세계의 제어 신호를 수백 개의 이산적인 단어(Action Token)로 쪼개어 표현하는 구조는 필연적으로 오차를 남깁니다. 밀리미터(mm) 단위 이하로 작동하는 마찰력과 저항을 제어하기엔 토큰화된 단어의 세계가 너무 투박하기 때문입니다.
거대 모델의 연산 부하와 속도 한계: 수십억에서 수백억 개의 파라미터를 가진 거대 모델의 추론 속도는 초당 수백 번씩 실시간으로 상호작용해야 하는 고주파수 폐루프 제어(Closed-loop control)의 속도 요구 조건을 충족하기 어렵습니다.
결국 RT-2는 거대 모델의 지능을 로봇의 손끝까지 연결하는 경로를 제시했을 뿐, 양산 가능한 수준의 정밀도와 속도를 완전히 확보하지는 못했습니다.
그렇다면 이 투박함과 속도의 병목을 극복하고, 로봇에게 실시간 수준의 기민한 물리 반응을 부여하기 위해 현재 AI 로보틱스 학계와 업계는 어떤 후속 돌파구를 모색하고 있을까요? 다음 글에서는 연속적인 제어를 부드럽게 생성해 내는 디퓨전 정책(Diffusion Policy)과 계층형 VLA 아키텍처를 중심으로 살펴보겠습니다.