비전-언어-행동 모델 설명: VLA가 최신 로봇을 구동하는 방법
비전-언어-행동 모델은 광범위한 물리적 작업을 수행하도록 미세 조정할 수 있는 사전 훈련된 대규모 신경망인 GPT-4와 동등한 로봇입니다. VLA가 무엇인지, 어떻게 작동하는지, 언제 사용해야 하는지 이해하는 것은 이제 진지한 로봇 공학 실무자에게 필수적인 지식입니다.
비전-언어-행동 모델이란 무엇입니까?
VLA(비전-언어-동작 모델)는 시각적 관찰(카메라 이미지)과 자연어 명령을 입력으로 취하고 로봇 동작(관절 속도, 엔드 이펙터 포즈 또는 그리퍼 명령)을 출력하는 신경망입니다. "비전 언어" 부분은 사전 훈련된 백본을 나타냅니다. 이러한 모델은 CLIP 또는 VLM(비전 언어 모델)과 마찬가지로 이미지-텍스트 쌍에 대한 대규모 인터넷 사전 훈련에서 시각적 및 의미론적 이해를 상속합니다. "동작" 부분은 로봇 시연 데이터를 학습한 미세 조정 헤드입니다.
핵심 통찰은 인터넷 데이터에 대한 사전 훈련을 통해 로봇 백본이 로봇 시연을 보기 전에 물체가 무엇인지, 공간적으로 어떻게 관련되는지, 언어가 의미하는 것과 같은 물리적 세계에 대한 풍부한 표현을 제공한다는 것입니다. 그런 다음 미세 조정을 통해 이 표현을 로봇의 구현 및 대상 작업에 맞게 조정합니다. 백본은 이미 "파란색 컵을 집으세요" 또는 "왼쪽에 있는 서랍을 엽니다"를 이해하고 있기 때문에 모델은 처음부터 훈련된 정책보다 훨씬 적은 수의 시연으로 새로운 개체와 작업 문구로 일반화할 수 있습니다.
RT-2: 최초의 대규모 VLA
2023년 Google DeepMind가 출시한 RT-2(Robotics Transformer 2)는 비전 언어 모델을 로봇 제어로 확장하여 질적으로 새로운 기능을 생성한 최초의 시연이었습니다. RT-2는 웹 데이터와 로봇 궤적에 대한 PaLI-X 비전 언어 모델을 동시에 공동 미세 조정하여 새로운 지침을 따르고 개체 속성에 대한 추론을 수행하고 로봇 시연에서 본 적이 없는 개체로 일반화할 수 있는 정책을 생성했습니다. 인터넷에서만 가능했습니다.
RT-2는 VLA가 일련의 사고 추론을 수행할 수 있음을 보여주었습니다. "유출물을 청소하는 데 사용할 수 있는 것"을 선택하라는 요청을 받은 모델은 스펀지를 청소와 연관시키라는 명시적인 지시를 받지 않은 채 현장에서 스펀지를 식별했습니다. 이러한 새로운 기능(훈련 배포를 넘어서는 의미론적 일반화)은 VLA를 기존 모방 학습 정책과 질적으로 다르게 만드는 요소입니다. 단점은 컴퓨팅입니다. RT-2는 550억 개의 매개변수가 있는 모델에서 실행되므로 배포하려면 상당한 인프라가 필요합니다.
OpenVLA: 오픈 소스 VLA 미세 조정
2024년 스탠포드와 버클리 연구진이 출시한 OpenVLA는 오픈 소스 Prismatic VLM(자체는 LLaMA 기반)을 기반으로 구축하고 Open X-Embodiment 데이터 세트(22개의 서로 다른 구현에서 나온 970k 에피소드의 로봇 데모 모음)에 대한 교육을 통해 VLA 미세 조정을 민주화했습니다. OpenVLA는 완전한 오픈 소스이고 잘 문서화되어 있으며 표준 조작 벤치마크에서 강력한 성능을 달성하기 때문에 오늘날 대부분의 연구 팀이 사용하는 출발점입니다.
사용자 정의 작업에 대해 OpenVLA를 미세 조정하려면 50~200개의 데모, HuggingFace LeRobot 규칙으로 형식화된 데이터 세트, 몇 시간의 훈련 실행을 위한 단일 80GB A100 또는 H100 GPU가 필요합니다. 결과 정책은 놀랍게도 사전 훈련된 시각적 백본 덕분에 훈련에서 볼 수 없는 장면 변화와 새로운 개체 위치로 일반화할 수 있습니다. SVRC 데이터 수집 서비스 OpenVLA 미세 조정이 가능한 LeRobot 호환 형식의 데이터 세트를 생성합니다.
pi0: 물리 지능의 일반 정책
Physical Intelligence(pi.ai)의 pi0은 VLA 개발의 상업적 개척지를 나타냅니다. 언어 모델 백본을 상속하는 OpenVLA와 달리 pi0은 연속적이고 부드러운 작업 궤적을 생성하는 흐름 일치 작업 헤드를 사용합니다. 이는 개별 토큰화된 작업보다 민첩한 작업에 더 적합합니다. pi0은 수십 가지 작업과 하드웨어 플랫폼에 걸쳐 10,000시간이 넘는 로봇 시연이 포함된 독점 데이터세트로 교육을 받았습니다.
pi0를 구조적으로 구별하는 것은 "느린" 언어 조건 추론 경로와 "빠른" 반응 운동 제어 경로 사이의 분리입니다. 이는 이중 프로세스 제어 시스템에 대한 인지 과학의 통찰력을 반영합니다. 느린 경로는 작업 지침과 현재 장면을 처리하여 높은 수준의 계획을 생성합니다. 빠른 경로는 대기 시간이 짧은 모터 명령을 생성합니다. 그 결과, 장거리 추론과 고주파수 반응 제어를 모두 처리할 수 있는 정책이 탄생했습니다. 즉, 두 가지가 동시에 필요한 세탁물 개기 같은 작업에 대한 문을 열어주는 것입니다.
Physical Intelligence의 엔터프라이즈 프로그램을 통해 상업용 배포를 위한 pi0에 액세스할 수 있습니다. pi0 스타일 아키텍처를 탐색하는 팀을 위해 SVRC는 벤치마크 표준 조작 제품군에 대한 흐름 일치 정책 평가를 포함하여 교육 실행을 시작하기 전에 예상 성능에 대한 참조 지점을 제공합니다.
VLA가 기존 모방 학습 정책과 다른 점
클래식 IL 정책(ACT, 확산 정책, BC-Z)은 로봇 데모 데이터에서 완전히 학습합니다. 시각적 표현은 처음부터 또는 미리 훈련된 좁은 인코더(예: R3M 또는 MVP)에서 학습됩니다. 그들은 훈련 분포 내에서 잘 일반화하지만 새로운 물체, 조명 변경 또는 목표를 다시 표현하는 작업 지침에 어려움을 겪습니다. 또한 사전 훈련이 제공하는 사전 의미 체계가 부족하기 때문에 주어진 성능 수준을 달성하려면 더 많은 데모가 필요합니다.
VLA는 일반화를 위해 계산을 교환합니다. GPU에 대한 고전적인 ACT 정책은 추론당 비용이 1센트입니다. 7B 매개변수 모델의 VLA 추론 단계에는 훨씬 더 많은 비용이 듭니다. 환경과 지침 전반에 걸쳐 광범위하게 일반화해야 하는 작업의 경우 VLA가 승리합니다. 1,000개 이상의 시연이 있고 환경을 조정할 수 있는 좁게 정의된 반복적인 산업 작업의 경우 전통적인 정책을 사용하면 더 낮은 비용으로 더 나은 속도와 안정성을 얻을 수 있는 경우가 많습니다. 실용적인 의사 결정 프레임워크: 작업에 일반화가 필요한 경우 VLA 백본으로 시작하세요. 범위가 좁고 처리량이 높은 경우 클래식 정책을 최적화하세요.
SVRC 데이터로 VLA 미세 조정
SVRC는 VLA 미세 조정 프로젝트에 대한 엔드투엔드 지원을 제공합니다. 우리의 원격운영 인프라 동기화된 다중 카메라 비디오, 고유 감각 상태 및 50Hz의 동작 레이블을 사용하여 RLDS/LeRobot 형식으로 데모를 캡처합니다. 우리의 데이터 세트 파이프라인에는 에피소드 품질 필터링(실패한 시도 및 망설임 제거), 카메라 보정 메타데이터 및 작업 지침 주석이 포함됩니다.
대규모 맞춤형 데이터가 필요한 팀의 경우 Mountain View 시설의 관리형 수집 서비스를 통해 숙련된 운영자가 조작 작업 라이브러리 전반에 걸쳐 하루에 수백 건의 데모를 생성할 수 있습니다. 또한 일반화 가능한 정책을 실제로 교육할 데이터 세트의 범위, 변형 축 및 성공 기준을 정의하는 작업 설계에 대한 상담도 제공합니다. 우리 팀에 문의하세요 VLA 미세 조정 프로젝트에 대해 논의하거나 기존 데이터세트 카탈로그를 탐색해 보세요. SVRC 플랫폼.