VLA & VLM

비전-언어-액션 및 비전-언어 모델 — 언어 조절 로봇 제어.

VLA와 VLM이란 무엇입니까?

VLM(비전-언어 모델) — 이미지와 텍스트를 모두 이해하는 다중 모드 모델입니다. 캡션, VQA 및 접지에 사용됩니다.

VLA(비전-언어-액션) — 로봇 동작을 출력하도록 확장된 VLM입니다. 이미지 + 언어 지침을 취하고 제어 명령(예: 관절 위치, 그리퍼)을 출력합니다. "빨간색 블록 선택" 스타일 컨트롤을 활성화합니다.

주요 모델

오픈VLA — 70억 오픈 소스 VLA, 970K 데모
RT-2 / RT-X — Google의 VLA 제품군
옥토 — 언어 조건화를 통한 확산 정책
로보플라밍고 — OpenFlamingo 기반 로봇용 VLM

관련 자료

오픈 소스 VLA 및 VLM 모델 — 링크가 포함된 전체 카탈로그
데이터 세트 — 언어 레이블이 지정된 조작 데이터