Physical AI

[Physical AI] Diffusion-VLA: VLA의 행동 생성

powderblue0 2026. 2. 16. 17:29

이번 글에서는 지난 글에 미처 정리하지 못한 Physical AI에 대한 부분과, 더 나아가 이러한 모델들이 실제로 어떤 원리로 행동을 생성하게 되는지에 대한 내부 구조들을 들여다보도록 하겠습니다.


목차

I. 요즘 뜨는 Physical AI

II. VLA는 로봇의 행동을 어떻게 생성하는가?

III. 사고 과정(Reasoning)의 추가

IV. Diffusion Model이란 무엇인가?

V. Diffusion과 VLA의 결합: DiVLA

 

 

I. 요즘 뜨는 Physical AI

다시 VLA에 대해 설명하기 전에 2025년부터 뜨고 있는 Physical AI에 대해 먼저 말해 봅시다. 다음은 엔비디아에서 올린 Physical AI에 대한 소개 영상입니다. 

https://www.youtube.com/watch?v=AYSfcgVv9-U&t=1s

 

뭐 요즘 이런 게 트렌드라는데...

소위 Physical AI라고 불리는 것들은 "단순히 로보틱스/ 제어 + AI 를 결합하는 것"에서 무엇이 더 발전한 것인가? 그리고 이것이 왜 트렌드가 되고 있는가? 에 대해 조금 정리해두려고 합니다.

 

https://brunch.co.kr/@1212ac31a500435/186

 

20화 2025 AI 트렌드 Physical AI?

지난 CES 2025 기조연설에서 젠슨 황은 '피지컬(Physical·물리적) AI'에 대해서 이야기했습니다. ‘피지컬 AI’  기존의 소프트웨어 중심 인공지능에서 벗어나, 물리적 기기에 탑재되는 인공지능(AI)

brunch.co.kr

 

기존 로보틱스 + AI의 접근방식은 강화학습(Reinforcement Learning)을 주된 툴로서 이용하였습니다. 몬테카를로 트리 탐색 등의 최적화 이론과 강화학습을 기반으로 하는 최적제어에 초점을 맞춰 왔다고 합니다.

(강화학습, 최적제어… 같은 건 제가 이번 학기에 공부할 예정이기 때문에 배우고 나서 기회가 되면 정리하러 올게요..)

 

그렇다면 로보틱스 및 제어 기술에 있어서, 기존 기술과 Physical AI는 무엇이 다른가? 그리고 무엇이 더 발전한 것인가? 에 대해서는 다음과 같이 정리할 수 있겠습니다. (이하는 그냥 제 뇌피셜)

  • 우선은 LLM의 등장을 꼽을 수 있습니다. 단순한 보조적 툴로서의 도움을 받을 수 있는 것 말고도, 파인튜닝 과정을 추가하여 로보틱스에서 인간이 로봇에게 언어로서 작업 지시가 가능해지고, 추론 과정까지도 추가할 수 있게 되었습니다.
  • 또한, 멀티모달(Multi-modal) 모델의 등장을 꼽을 수 있겠습니다. 인간의 텍스트 명령과 더불어 로봇의 시각적 피드백이 가능해졌습니다. 로봇이 실시간으로 수집한 시각 데이터를 반영할 수 있게 된 것입니다.

이 둘을 합치면 더 나아가서는,

텍스트 명령 (= 자연어 명령, 즉 인간의 언어적 혹은 음성 명령)만으로 로봇제어를 할 수 있는 가능성이 제시된 것이라고 볼 수 있습니다. 

 

 

II. VLA는 로봇의 행동을 어떻게 생성하는가?

다음으로는 VLA를 접하면서 제가 가장 궁금했었던, "그래서 로봇의 행동을 어떻게 생성하는가?"에 대해 정리해보겠습니다. 

지난 글에서 OpenVLA의 아키텍쳐와 작동 원리에 대해 정리해 두었는데

https://powderblue0.tistory.com/22

 

[Physical AI] VLA(비전-언어-행동) 모델 개요

새로운 연구주제를 정하려고 이것저것 알아보다가 요즘은 이런 게 유행이라길래 가져왔습니다.요즘 인공지능 커뮤니티에서도 자주 언급되고, 국내외 대학에서 논문들이 끊임없이 나오는 주제

powderblue0.tistory.com

 

기존 기술의 경우 (Autoregression Model)

“행동을 생성하는 것이 아닌 행동 명령 토큰을 생성하는" 방식으로 작동됩니다. 즉 Transformer, 그러니까 Decoder가 생성하는 토큰을 기준으로 행동을 그대로 옮기는 것입니다.

 

일종의 “다음 토큰 예측”의 원리, 이미지 + 언어 ⇒ 토큰 의 구조였습니다. 

 

이를 뒤에 나오는 Diffusion 기술이 추가된 Diffusion-VLA와 구분하기 위해 Autoregression Model이라고 부르겠습니다.

 

 

III. 사고 과정(Reasoning)의 추가

이러한 Autoregression Model의 ‘다음 토큰 예측’의 원리에서 발전하여, 로봇의 자체적인 사고 과정을 추가하는 방법으로 로봇의 행동을 생성하는 방법이 제시된 것이 DiVLA입니다.

 

정확히는 Diffusion-VLA라고 Diffusion 모델과 VLA를 결합한 모델인데 Diffusion 모델 자체나 DiVLA의 아키텍쳐에 대해서는 아래에서 조금 더 자세히 정리하겠습니다. 

 

여기서는 다음 토큰 예측의 원리가 아닌 다른 원리로 어떻게 로봇의 행동을 생성할 것인가? 에 대해 정리해보겠습니다.

 

유튜브에 자세히 설명해둔 영상이 있습니다. 아래에 정리한 내용은 영상의 설명들을 참고한 내용입니다. 

https://www.youtube.com/watch?v=_lHYOCWnJGM

 

영상에서 소개하고 있는 것은 Diffusion-VLA: Generalizable and Interpretable Robot Foundation Model via Self-Generated Reasoning이라는 논문에 소개된, Diffusion-VLA (줄여서 DiVLA) 모델입니다.

 

기존 "다음 토큰 예측"의 대안으로 제시된 것이 Diffusion Policy입니다. 간단히 정리하자면 로봇이 직접 Reasoning을 하는, 행동에 대한 사고를 하는 과정을 도입한 것입니다.

영상에 나온 거 캡쳐본입니당~~ 자세한 건 영상 보세용

영상 내용을 정리하자면 해당 모델은 Diffusion Policy에 따라 이산적인 행동 생성이 아니라 → 행동의 시퀀스를 생성합니다. 

 

행동을 하나하나 예측하는 것이 아니라 행동의 덩어리(Chunk)를 예측하는 것입니다. 

즉, 연속적인 행동의 시퀀스 자체를 만들어내는 것이라고 볼 수 있습니다.

 

 

IV. Diffusion Model이란 무엇인가?

그런데, 여기서 말하는 이 Diffusion이라는 개념을 그냥 DiVLA 수준에서만 이해하기에는 부족합니다. 왜냐하면, 이 Diffusion Model이라는 게 원래는 로봇 제어가 아니라 이미지 생성에서 널리 사용되는 생성모델이기 때문이죠.

 

Diffusion Model에 대한 설명은 이미지던 로봇의 행동(Action)이던, 그것을 어떻게 생성할 것인가? 하는 질문에서 시작합니다. 

 

Diffusion Model의 Diffusion이란 말 그대로 발산이라는 뜻입니다. 정확히는 Diffusion-based Generative Model 그러니까 확산 기반의 생성 모델이라고 부릅니다. 이러한 '발산'이 어디서부터 어디로, 무엇이 발산되는 건지에 대해 알아봅시다.

 

DIffusion Model의 핵심은 노이즈만 가득한 곳에서, 노이즈를 점점 제거하면서 무언가를 생성하는 것입니다. 

https://process-mining.tistory.com/182

 

Diffusion model 설명 (Diffusion model이란? Diffusion model 증명)

Diffusion model은 데이터를 만들어내는 deep generative model 중 하나로, data로부터 noise를 조금씩 더해가면서 data를 완전한 noise로 만드는 forward process(diffusion process)와 이와 반대로 noise로부터 조금씩 복

process-mining.tistory.com

간단히 작동 과정을 살펴보겠습니다. 

  • 우선 기존 데이터(X0이라고 하겠습니다.)에 조금씩 노이즈를 추가합니다. 이때 추가되는 노이즈는 가우시안 노이즈로, 모델 학습이 아닌 수학적인 과정입니다.
  • 이러한 과정을 거쳐 완전한 노이즈로 만듭니다. (Xt라고 하겠습니다.)
  • 여기에 Diffusion Model은 이 완전한 노이즈를 다시 디노이징(De-noising, Reverse Process)하는 과정을 배웁니다.

두 가지를 구분해서 기억하면 되겠습니다.

Forward Process: 데이터(X0)로부터 noise를 점점 더해서, 완전한 노이즈(Xt) 로 나아가는 과정
→ 모델 학습은 Forward Process를 기반으로 함.

Reverse Process: 완전한 노이즈(Xt)로부터 데이터(X0)를 복원하는 과정
→ 모델의 실제 생성 과정

 

예를 들어, 토끼 이미지를 생성하는 과정을 보면

이미지 생성의 과정을 살펴보면,

  • 명령을 입력하면, Encoder가 텍스트를 embedding 벡터로 바꿉니다.
  • 이후 랜덤 노이즈의 이미지를 생성합니다. 마치 빈 스케치북에 그림을 그리는 것과 같습니다.
  • 텍스트 벡터를 참고하여, 요청한 '토끼 이미지'와 가까운 방향으로 노이즈를 제거합니다. (De-noising)
  • 이를 반복하면 토끼 이미지가 생성됩니다.

 

V. Diffusion과 VLA의 결합: DiVLA

앞에서 설명한 Diffusion Model의 핵심 내용을 정리한다면, Noising을 통해 학습을 진행하고, De-noising을 반복해서 요청한 데이터를 생성하는 것이라고 볼 수 있겠습니다.

 

Diffusion-VLA(이하 DiVLA)는 로봇의 행동(Action) 생성을 Diffusion 방식으로 처리한 모델입니다. 즉, 기존 Vision Encoder와 Text Encoder에 Diffusion-based Action Generator(디퓨전 기반의 행동 생성)을 추가한 것입니다.

 

이는 2025년 Diffusion-VLA: Generalizable and Interpretable Robot Foundation Model via Self-Generated Reasoning 논문에서 제시된 모델입니다. 논문은 아래 링크에서 볼 수 있습니다. 

https://arxiv.org/abs/2412.03293

 

Diffusion-VLA: Generalizable and Interpretable Robot Foundation Model via Self-Generated Reasoning

In this paper, we present DiffusionVLA, a novel framework that seamlessly combines the autoregression model with the diffusion model for learning visuomotor policy. Central to our approach is a next-token prediction objective, enabling the model to reason

arxiv.org

 

DiVLA의 아키텍쳐는 다음과 같습니다. 

 

Vision+Language의 멀티모달 Input을 받는 것까지는 기존 OpenVLA와 동일합니다. 

이후로는 완전한 랜덤 행동 노이즈를 생성합니다. 그리고 Input으로 받은 정보(= Vision+Language 정보)를 토대로 Reverse Process를 진행합니다. 이러한 Diffusion 방식으로 행동의 시퀀스를 생성합니다.

[Vision Encoder]  →  
                     →  Multimodal Fusion →  Diffusion Action Head → Action trajectory
[Language Encoder] →

 

여기서 말하는 "행동의 시퀀스", 즉 "행동들의 연속된 동장"을 Action Trajectory라고 합니다. 기본적으로 이미지 생성 모델(Diffusion-based Image Generation)에서 출력을 이미지가 아닌 Action Trajectory로 바꾼 것일 뿐입니다.

 

이러한 과정을 거치면,

 

텍스트 지시문을 바로 행동으로 맵핑하는(기존의 Autoregression Model의 행동 생성 과정) 것이 아닌, 로봇이 행동 생성 과정에서 자체적으로 Input에 대한 Diffusion의 Reverse Process를 거치면서 Reasoning(사고)을 하게 됩니다.  그리고 이를 Chain of Thought, CoT(중간 추론 과정을 거치는 구조)라고 한다.

 

명령 → 실행이 아니라, 명령→사고→ 실행의 과정을 거칠 수 있도록 되는 것입니다.

'Physical AI' 카테고리의 다른 글

[Physical AI] VLA(비전-언어-행동) 모델 개요  (0) 2026.02.16