OpenVLA와 Octo: 어떤 로봇 학습 모델을 선택해야 할까요?

VLA(비전-언어-행동) 모델을 선택하는 연구원과 개발자를 위한 실제 비교입니다.

VLA 모델은 인식 + 언어를 행동으로 매핑합니다.

이미지 언어 행위

둘 다 오픈VLA 그리고 옥토 로봇 학습을 위한 오픈 소스 비전-언어-행동 모델입니다. 비교 방법과 각각의 사용 시기는 다음과 같습니다.

건축학

오픈VLA Prismatic VLM을 기반으로 하며 동작 예측 헤드를 추가합니다. 다양한 로봇 형태와 행동 공간을 지원합니다. 옥토 Open X-Embodiment 데이터에 대해 훈련된 변환기 기반 아키텍처를 사용합니다. 둘 다 이미지 + 언어를 취하고 작업을 출력합니다.

훈련 데이터

OpenVLA는 Open X-Embodiment 및 추가 데이터 세트에 대해 교육을 받았습니다. Octo는 Open X-Embodiment(RT-X, BridgeData, DROID 등)에 대한 교육을 받았습니다. 둘 다 대규모의 다양한 로봇 데이터의 이점을 활용합니다. 우리를 참조하십시오 데이터세트 카탈로그 데이터 소스의 경우.

미세 조정

둘 다 로봇과 작업에 대한 미세 조정을 지원합니다. 일반적으로 50~500번의 데모를 수행하면 성능이 크게 향상될 수 있습니다. OpenVLA는 다양한 로봇 유형에 대한 체크포인트를 제공합니다. Octo의 아키텍처는 새로운 행동 공간에 유연하게 적응합니다.

OpenVLA를 선택해야 하는 경우

일반적인 조작 작업에는 강력한 기본 성능이 필요합니다.
귀하의 로봇은 Open X-Embodiment(WidowX, ALOHA 등)의 로봇과 유사합니다.
잘 문서화되고 적극적으로 유지 관리되는 모델을 원합니다.

옥토를 선택해야 할 때

당신은 새로운 로봇 형태를 실험하고 있습니다.
사용자 정의 작업 공간에 대한 최대의 유연성을 원합니다.
Open X-Embodiment 데이터를 직접 기반으로 구축하고 있습니다.

미세 조정을 위한 데이터 수집

어떤 모델을 선택하든 작업별 데모가 필요할 수 있습니다. 우리는 제공합니다 데이터 수집 서비스 모방 학습용 — 원격 조작, 학습 준비 형식 및 QA. 빠른 반복을 위해 Palo Alto에서 당일 하드웨어 픽업.

모든 VLA 모델 보기 →