새로운 연구주제를 정하려고 이것저것 알아보다가 요즘은 이런 게 유행이라길래 가져왔습니다.
요즘 인공지능 커뮤니티에서도 자주 언급되고, 국내외 대학에서 논문들이 끊임없이 나오는 주제인 VLA(비전-언어-행동) 모델 입니다.
실제로 관련 논문들을 읽다 보면 state of the art 기술이라는 표현이 참 많이 나옵니다.
개인적으로 트렌드를 따라가는 걸 좋아하는 편은 아닙니다. 그렇지만 2년 간 학부생활을 하면서 깨달은 건, "대학은 정적인 것만을 공부하는 곳"이라고 믿었던 것과는 달리, 대학도 학계도 트렌드에 민감한 곳이라는 것이었습니다. 어느 정도 무엇이 트렌드인지, 그래서 앞으로 연구 방향이나 기술은 어느 방향으로 흘러갈 것인지에 대해 알아둘 필요도 있다는 것입니다.
그래서, 이번 글에서는 2025년 AI 트렌드라고도 할 수 있는 이른바 Physical AI의 핵심이 되는 모델인 VLA에 대해 정리해보려고 합니다. 그리고 더 나아가, 이 VLA가 "왜" 요즘 핫한 이슈가 되고 있는지에 대해서도 간단히 다루겠습니다.
목차
I. VLA 모델이란 무엇인가?
II. VLA의 아키텍쳐
III. OpenVLA 아키텍쳐 파헤치기
IV. AIHub 데이터 소개
V. 각종 논문리뷰 등
I. VLA 모델이란 무엇인가?

VLA 모델(Vision-Language-Action Model)이란 텍스트, 비디오, 시연(Demonstration)등의 Input을 받아 Action을 생성하는 로봇 파운데이션 모델이다.
라는 것이 위키피디아 등에 적혀있는 설명입니다.
위에서도 말했지만 요즘 뜨는 Physical AI의 연장선이자 최전선에 위치한 기술이라고 할 수 있겠습니다.
간단히 정리하자면,
- 로봇의 Vision(시각)과 인간의 명령(Language)을 Input으로 받고
- 이에 대한 적절한 Action을 출력하는 모델
이라고 볼 수 있습니다.
Vision의 경우 이미지의 형태로, Language(명령)의 경우 텍스트의 형태로 입력됩니다. 즉, 이미지와 언어를 동시에 입력받는 멀티모달(Multi-modal) 모델인 것입니다. (자연어처리 + 컴퓨터비전이 합쳐진 것이라고 볼 수도 있겠구요.)
그리고 Action의 경우 로봇의 움직임과 관련된 여러 벡터 형태(x축방향 변화, 각도 변화 등)로 출력됩니다.
VLA의 아키텍쳐를 자세히 살펴봅시다.
II. VLA의 아키텍쳐
VLA에 대해 어떤 교수님이 한글로 정리해두신 개쩌는 html 링크를 발견했습니다.
https://www.kim2kie.com/res/html/0_formula/00%20AI/VLM.html
VLM (Vision-Language Model)
[Home] AI로 돌아가기 🔗 관련 문서: Wikipedia - Multimodal AI | Wikipedia - CLIP | Wikipedia - Transformer VLM (Vision-Language Model; 비전 언어 모델) VLM은 이미지(또는 비디오)와 텍스트를 동시에 이해하고 생성하는
www.kim2kie.com
링크에 소개된 아키텍쳐는 다음과 같습니다.

아키텍쳐와 관련하여 핵심이 되는 내용만을 정리하면 다음과 같습니다.
- 비전-언어 모델(Vision-Language Model)을 Fine Tuning하여 구성된다. (그릐고 여기에 Action 출력을 추가한 것)
- 이미지 관찰 + 자연어 설명(= 캡션)을 잠재공간 내의 분포로 변환
- 비전-언어 인코더 (=Vision Transformer)와 이를 동작으로 변환하는 동작 디코더를 결합
또 영어로 되어있긴 하지만 VLA에 대한 개념적인 설명부터 간단한 구현방법까지 정리해둔 페이지가 있으니 참고하시면 좋을 것 같습니다.
https://substack.com/home/post/p-180266695
Building Vision-Language-Action Model from scratch
Understand what are VLAs? How to build VLAs from scratch?!
substack.com
전체적인 아키텍쳐와 관련하여, "그래서 이게 왜 인기인가?"라는 질문에 대해 생각해보았습니다.

이미지는 위에 첨부한 링크에 있는 내용을 그대로 가져온 겁니다. single model to perceive, reason AND act라고 되어 있는데,
말 그대로 모든 게 짬뽕되어 있는 ("complex stacks of systems") 기술이다 보니 더욱 더 핫해질 수 밖에 없는 기술입니다.
우선 '비전 + 언어'를 합쳐서 Input으로 받는 멀티모달 모델이라는 점도 흥미롭고, 이를 통해 실제로 Action까지 출력하는 파이프라인이 주는 이점도 흥미롭습니다.
이게 얼마나 아이디어만으로도 개쩌는 거냐면 우리가 시리나 빅스비한테 "오늘 날씨 알려줘", 혹은 "10분 타이머 설정해줘"라고 명령하던 것들이 "저기 있는 우유 좀 가져다 줘"라던지, 더 나아가서는 "내 책상 좀 정리해줘"까지도 발전할 수 있다는 말이 됩니다.
III. OpenVLA의 아키텍쳐 파헤치기
VLA는 대략 2020년부터 뜨기 시작한 최신 기술입니다. VLA의 시작은 구글 DeepMind가 개발한 RT-2부터 시작되었다고 할 수 있습니다. (RT-2는 RT-1을 전신으로 하지만, 대부분은 RT-2를 VLA의 시작점이라고 보는 편.)
그리고 2024년 VLA 기술을 오픈소스화한 OpenVLA가 등장했습니다. 논문 OpenVLA: An Open-Sourse Vision-Language-Action Model에서 공개한 아키텍쳐에 대해 자세히 정리해보도록 하겠습니다.
https://arxiv.org/abs/2406.09246
OpenVLA: An Open-Source Vision-Language-Action Model
Large policies pretrained on a combination of Internet-scale vision-language data and diverse robot demonstrations have the potential to change how we teach robots new skills: rather than training new behaviors from scratch, we can fine-tune such vision-la
arxiv.org

이 아키텍쳐에서 OpenVLA는 어떻게 "로봇의 Vision(시각)과 인간의 명령(Language)을 Input으로 받고, 이에 대한 적절한 Action을 출력" 하는지의 과정에 대해 자세히 들여다봅시다.
아키텍쳐에도 굉장히 직관적으로 표현이 되어 있는데,
- 이미지 Input를 보고 ‘어떤 물체가, 어디에’ 있는지를 알아낸다. ‘어떤 물체’를 보고 있는지는 SigLIP 모델이, ‘어디에’ 있는지는 DINOv2 모델이 알아낸다.
- 명령 Input의 경우 Llama Tokenizer로 전달된다.
그리고 이 두 정보(이미지, 텍스트)가 모두 Llama-2 7B로 들어가게 됩니다. (Llama는 GPT와 맞먹을 정도로 굉장히 널리 쓰이는 LLM 모델입니다.) 대신 이 모델에 ‘적절한 Action을 출력하게끔’ 하는 파인튜닝 과정을 추가합니다.
결국 ‘명령 이해’와 ‘그에 따른 행동 출력’의 경우 단순히 명령 문장의 토크나이징 → 다음 토큰 예측의 원리로 진행되고,
마지막 ‘행동 명령’만 텍스트 토큰이 아니라 ‘로봇의 언어’로 번역한 ‘행동 토큰’(예를 들어, 팔을 오른쪽으로 10cm 움직이라는 명령)으로 출력되는 것입니다.
IV. AIHub 데이터 소개
VLA 연구에 사용되는 대표적인 데이터셋으로는 구글에서 제공하는 Open X-Embodiment 데이터셋이나 구글 DeepMind의 RT-1 Dataset 등이 오픈소스로 접근 가능합니다.
https://robotics-transformer-x.github.io/
Open X-Embodiment: Robotic Learning Datasets and RT-X Models
Project page for Open X-Embodiment: Robotic Learning Datasets and RT-X Models.
robotics-transformer-x.github.io
그리고 위에서도 설명한 바와 같이 2020년부터 쭉 트렌드를 유지하던 주제라, AIHub에서도 여러 데이터를 제공하고 있습니다. 세 가지 정도만 간단하게 소개하려고 합니다.
(1) 제조환경 사람-로봇 공유작업 데이터
AI-Hub
샘플 데이터 ? ※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며, 데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되
www.aihub.or.kr
(2) 가정환경 사람-로봇 공유작업 데이터
AI-Hub
샘플 데이터 ? ※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며, 데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되
www.aihub.or.kr
(3) 대규모 물리환경 로봇조작 데이터
AI-Hub
샘플 데이터 ? ※샘플데이터는 데이터의 이해를 돕기 위해 별도로 가공하여 제공하는 정보로써 원본 데이터와 차이가 있을 수 있으며, 데이터에 따라서 민감한 정보는 일부 마스킹(*) 처리가 되
www.aihub.or.kr
세 번째의 '대규모 물리환경 로봇조작 데이터'의 경우 "한글 기반 데이터셋으로 OpenVLA를 구현할 수 있는가?"에 집중하여 서술하고 있습니다. 실제 데이터의 경우 json 파일 형식으로 되어 있습니다.
기존 연구에 쓰이는 데이터셋과 달리 한국어 기반으로 제작된 데이터셋이라는 점이 이점이 될 수 있으니 참고용으로 보시길 바라겠습니다.
V. 각종 논문리뷰 등
VLA는 현 시점에서 다양한 세부적인 주제로 논문이 쏟아져나오는 주제이므로,
논문을 하나하나 찾아보고 읽는 건 힘듭니다. 중요한 논문만 골라보고 싶거나 한글로 된 정보가 필요하다면 논문 리뷰글을 찾아보는 게 도움이 되기 때문에 논문리뷰글을 따로 정리해두려고 합니다.
https://velog.io/@nyl0522/series/VLA-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0
시리즈 | VLA 논문 리뷰 - nyl0522.log
[ Abstract ] 대규모, 다양한, 특정 Task에 얽매이지 않은 데이터셋으로부터 transferring knowledge을 함으로써, 모델은 특정 Task를 추가 데이터 없이 바로 수행하거나 소량의 과제별 데이터셋만으로도 높
velog.io
굉장히 잘 정리되어있는 글이 있어서 가져왔습니다.
들어가면 RT-1부터 RT-2, Open X-Embodiment, OpenVLA까지의 VLA 기술의 전반적인 굵직한 흐름에 따라 논문리뷰가 정리되어 있습니다. 마일스톤적인 논문들이기에 읽으면 도움이 될 것 같습니다.
그리고 아래는 그냥 개인적으로 흥미롭게 읽은 논문인데
https://mimic-video.github.io/
mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs
Prevailing Vision-Language-Action Models (VLAs) for robotic manipulation are built upon vision-language backbones pretrained on large-scale, but disconnected static web data. As a result, despite improved semantic generalization, the policy must implicitly
mimic-video.github.io

기존 Vision-Language-Action의 파이프라인 대신 Video-Action이라는 새로운 파이프라인을 제시한 연구입니다. (일명 VAM, Video-Action Model)
'Physical AI' 카테고리의 다른 글
| [Physical AI] Diffusion-VLA: VLA의 행동 생성 (0) | 2026.02.16 |
|---|