← 용어집

VLA & VLM

비전-언어-액션 및 비전-언어 모델 — 언어 조절 로봇 제어.

VLA와 VLM이란 무엇입니까?

VLM(비전-언어 모델) — 이미지와 텍스트를 모두 이해하는 다중 모드 모델입니다. 캡션, VQA 및 접지에 사용됩니다.

VLA(비전-언어-액션) — 로봇 동작을 출력하도록 확장된 VLM입니다. 이미지 + 언어 지침을 취하고 제어 명령(예: 관절 위치, 그리퍼)을 출력합니다. "빨간색 블록 선택" 스타일 컨트롤을 활성화합니다.

주요 모델

  • 오픈VLA — 70억 오픈 소스 VLA, 970K 데모
  • RT-2 / RT-X — Google의 VLA 제품군
  • 옥토 — 언어 조건화를 통한 확산 정책
  • 로보플라밍고 — OpenFlamingo 기반 로봇용 VLM

관련 자료