로봇 행동 생성 패러다임의 변화: Diffusion에서 Flow Matching까지

Insight 10분 읽기
조회 194

요즘 AI는 글도 잘 쓰고 이미지도 척척 이해합니다. 하지만 현실 세계에서 로봇의 몸을 자연스럽게 움직이게 하는 ‘행동(Action)’ 영역은 여전히 넘기 힘든 벽입니다.

로봇 제어가 어려운 이유는 주변을 ‘보는 것’과 실제로 ‘움직이는 것’ 사이에 큰 차이가 있기 때문입니다. 주변 상황을 다 알아차려도, 손가락에 얼마큼 힘을 주어야 하는지, 어떤 경로로 가야 안전한지 실시간으로 계산해 몸을 움직이는 건 완전히 다른 문제입니다.

기존에는 사람이 시연한 동작을 로봇이 그대로 따라 하는 방식을 주로 썼습니다. 하지만 여기엔 치명적인 문제가 있었습니다. 예를 들어 사람이 물건을 왼쪽으로 잡기도 하고 오른쪽으로 잡기도 하면, 로봇은 두 방식을 수학적으로 ‘평균’내어 버립니다. 결국 왼쪽도 오른쪽도 아닌 엉뚱한 한가운데 허공을 향해 손을 뻗다가 실패하는 것이죠. 이를 기술적으로 ‘모드 블러링(Mode Blurring)’ 현상이라고 합니다.

이 문제를 해결하며 등장한 구원투수가 바로 Diffusion 기반 정책(Diffusion Policy)입니다. 로봇이 한 가지 정답만 고집하지 않고 여러 가지 행동 가능성을 함께 학습할 수 있게 만든 기술입니다. 덕분에 로봇은 훨씬 유연하게 움직이기 시작했습니다.


Diffusion Policy가 마주한 속도의 벽

하지만 Diffusion Policy도 현장에 적용하려니 치명적인 문제가 있었습니다. 바로 계산 속도가 너무 느리다는 점이었습니다.

Diffusion 모델은 본질적으로 아무것도 없는 노이즈 상태에서 시작해, 수십 번씩 계산을 반복하며 조금씩 정답을 깎아나가는 구조입니다. 그러다 보니 로봇이 할 수 있는 행동의 다양성을 동시에 고려할 수 있는 장점은 행동 하나를 만드는 데 시간이 오래 걸립니다.

문제는 로봇입니다. 로봇이 현실에서 멈칫거리지 않고 부드럽게 움직이려면, 초당 최소 10번에서 100번씩 실시간으로 움직임 신호를 만들어내야 합니다. Diffusion의 계산 속도로는 이 박자를 맞추기가 불가능에 가까웠습니다.

미래의 움직임을 미리 묶어서 한 번에 명령을 내리는 꼼수도 써봤지만, 명령을 실행하는 동안 갑작스러운 돌발 상황이 생기면 로봇이 즉각 대처하지 못하고 얼어버리는 부작용이 있었습니다.

결국 “움직임은 정밀하게 만들지만, 실시간으로 쓰기엔 너무 느리다”는 벽에 부딪힌 것입니다. 이때 연구자들은 완전히 새로운 생각을 해냈습니다. “굳이 여러 번 계산하면서 노이즈를 깎아야 할까? 정답까지 한 번에 가는 지름길은 없을까?” 이 고민에서 탄생한 기술이 바로 Flow Matching(플로우 매칭)입니다.


Flow Matching: 지그재그 경로를 직선 지름길로

Flow Matching은 Diffusion과 비슷해 보이지만, 목적지에 도달하는 길을 설계하는 방식이 완전히 다릅니다. Diffusion이 정답을 찾기 위해 복잡한 곡선을 그리며 지그재그로 헤맨다면, Flow Matching은 처음부터 끝까지 이어지는 경로를 최대한 곧은 직선으로 펴서 학습합니다.

쉽게 비유해 볼까요? 서울에서 부산까지 갈 때 Diffusion은 수십 번 방향을 틀며 복잡하게 돌아가는 방식이고, Flow Matching은 전체 지형을 딱 파악한 뒤 가장 빠른 직선 지름길을 찾아 단숨에 달리는 방식입니다.

이 방식은 실제 로봇을 제어할 때 엄청난 장점을 줍니다.

  • 압도적으로 빠른 속도: 목적지까지의 경로가 직선에 가깝게 최적화되어 있기 때문에, Diffusion처럼 수십 번의 반복 과정을 거치지 않고 단 몇 번의 계산(Fewer steps)만으로도 아주 높은 품질의 결과를 생성할 수 있습니다.

  • 안정적인 학습: 노이즈를 단계별로 정밀하게 제거해야 하는 복잡한 확률 과정을 배울 필요 없이, 단순히 “어떤 방향으로 곧장 움직여야 하는가”를 배우는 구조이기 때문에 학습이 더 직관적이고 안정적입니다.

  • 부드러운 움직임: 로봇의 움직임은 본질적으로 연속적인 흐름입니다. Flow Matching은 이 특성과 완벽히 맞닿아 있기 때문에, 로봇에게 더 부드럽고 자연스러운 행동 제어 플로우를 제공합니다.

π₀: Flow Matching이 현실 세계에 내려온 순간

이 Flow Matching의 이론적 매력을 현실 세계의 복잡한 로봇에 성공적으로 이식하며 세상을 놀라게 한 첫 번째 사례가 바로 Physical Intelligence 사의 π₀(파이-제로)입니다.

π₀는 주변 상황을 이해하는 거대한 VLM(두뇌) 위에, 몸을 어떻게 움직일지 결정하는 Flow Matching 모듈(근육)을 유기적으로 결합했습니다. 시각적 이해와 물리적 행동이 하나의 큰 시스템 안에서 엔드투엔드(End-to-End)로 연결된 구조입니다.

여기서 주목할 점은 π₀ 역시 미래 행동을 묶어 출력하는 ‘액션 청크(Action Chunk)’ 방식을한다는 것입니다. 앞서 Diffusion에서는 이것이 반응성을 떨어뜨리는 독이 되었다고 했는데, π₀는 어떻게 이 문제를 해결했을까요?

비결은 바로 Flow Matching의 압도적인 연산 속도 덕분에 가능해진 ‘고주파 재계획(Re-planning)’에 있습니다. π₀는 액션 청크를 일단 내릴 뿐 가만히 있지 않습니다. 무려 최대 50Hz(초당 50번) 수준으로 미래의 액션 청크를 실시간으로 계속 새로 고쳐 씁니다.

덕분에 셔츠를 접거나 가사 노동을 할 때, 동작이 뚝뚝 끊기지 않고 초당 50번씩 흐름을 미세 조정하며 하나의 유연하고 연속적인 움직임을 만들어냅니다. 드디어 이론을 넘어 현실 환경의 실시간 반응성을 완벽히 만족하는 시스템이 등장한 것입니다.


패러다임의 변화: “눈으로 보면서 동시에 움직인다”

π₀와 Flow Matching이 가져온 진짜 혁신은 오랫동안 유지되어 온 전통적인 로봇 시스템의 경계를 무너뜨렸다는 점입니다.

예전에는 [1단계: 인식하기 ➔ 2단계: 계획 짜기 ➔ 3단계: 제어하기]처럼 로봇의 사고 과정이 칼로 자르듯 분리되어 있었습니다. 그래서 중간에 작은 오류나 돌발 장애물이 하나만 생겨도 전체 행동이 꼬여 멈춰버렸습니다.

하지만 지금의 새로운 패러다임은 인지와 행동을 하나의 흐름으로 합쳤습니다. “완벽하게 인지한 뒤, 한참 고민하고, 마지막에 움직이는 것”이 아니라, “실시간으로 들어오는 정보를 온몸으로 느끼며 즉각적으로 움직임을 수정하는” 방식입니다.

우리가 일상에서 컵을 집을 때를 생각하면 이해하기 쉽습니다. 우리는 컵의 정확한 수학적 좌표를 머릿속으로 다 계산한 뒤에 손을 뻗지 않습니다. 그냥 손을 움직이면서, 눈으로 컵의 위치를 보고 손끝을 미세하게 수정하며 자연스럽게 쥐어 잡을 뿐입니다. 이 직관적인 인간의 제어 흐름이 드디어 AI 모델로 가능해진 것입니다.


π₀ 이후의 방향성과 아직 남은 숙제들

이 변화는 단순한 유행이 아니라 거스를 수 없는 거대한 방향성입니다. 효율적인 플로우 매칭 덕분에 연산 속도가 확보되면서, 로봇 AI는 실험실을 벗어나 청소, 정리, 인간과의 정밀한 협업 등 일상적인 실제 현장으로 빠르게 확장되고 있습니다.

하지만 실제 현장에서 100% 신뢰할 수 있는 시스템을 만들려면 여전히 해결해야 할 치명적인 병목들이 있습니다.

  • 실전 환경에서의 안전성: 흐름 기반 모델은 유연한 대신, 순간적으로 엉뚱하거나 위험한 움직임 신호를 만들 확률이 존재합니다. 인간과 같은 공간을 쓰는 환경에서는 단 한 번의 오작동도 치명적입니다. 또한, 이를 온디바이스(로봇 자체 기기)에서 실시간으로 구동하기 위한 연산 자원과 하드웨어 단가를 낮추는 것도 큰 상용화 과제입니다.
  • 비싼 물리 데이터 비용: 언어 모델은 인터넷의 글만으로도 똑똑해질 수 있지만, 로봇은 실제 물리 환경에서 부딪히며 얻은 ‘실전 경험 데이터’가 필수적입니다. 사람이 일일이 시연해야 하므로 수집 비용이 매우 높습니다.
  • 낯선 상황에서의 한계 (일반화 문제): 아무리 유연한 연속 흐름을 만들어도, 학습할 때 본 적 없는 특이한 물건이 나타나거나 조명이 급격히 바뀌면 성능이 떨어질 위험이 있습니다. 처음 보는 환경에서도 직관적으로 적응하는 인간의 수준에는 아직 미치지 못합니다.

일반 물리 지능(Physical Intelligence)을 향하여

물론 하드웨어의 절대적인 안전이 최우선인 산업 현장에서는 당분간 고수준 AI와 안전 제어 모듈을 철저히 분리하는 하이브리드 아키텍처가 쓰일 것입니다.

그럼에도 불구하고 한 가지는 분명합니다. 로봇 기술의 발전 연대기에서 이번 변화는 아주 명확한 이정표를 세우고 있습니다.

  • Behavior Cloning은 로봇에게 사람을 똑같이 “따라 하는 법”을 가르쳤습니다.
  • Diffusion Policy는 로봇에게 고정된 정답 외에 “여러 가능성을 고려하는 유연함”을 주었습니다.
  • Flow Matching은 로봇에게 실시간 환경에서 “가장 빠르고 자연스럽게 움직이는 효율성”을 구현하기 시작했습니다.

과거에는 공장 로봇 팔 하나, 청소 로봇 하나마다 완전히 분리된 전용 제어 모델이 필요했습니다. 하지만 거대 언어 모델이 전 세계의 문장을 하나로 통합했듯이, 로봇 영역에서도 하나의 아키텍처로 모든 움직임을 통합하는 거대한 서사가 시작되었습니다.

우리는 머지않은 미래에 특정 작업만 반복하는 기계가 아니라, 눈앞의 상황을 스스로 이해하고 최적의 흐름을 만들어내는 ‘일반 물리 지능(Physical Intelligence)’ 시스템을 현장에서 마주하게 될 것입니다. 그리고 Flow Matching은 그 위대한 여정의 가장 핵심적인 도약점입니다.