로봇을 위한 모방 학습: 실용 가이드
모방 학습은 로봇의 능숙한 조작 기술을 가르치는 지배적인 패러다임으로 부상했습니다. 보상 기능을 직접 작성하거나 모션 계획을 작성하는 대신 로봇에게 무엇을 해야 할지 보여주기만 하면 됩니다. 이 가이드에서는 작동 방식, 사용할 알고리즘, 결과를 얻기 위해 필요한 인프라에 대해 설명합니다.
모방 학습이란 무엇입니까?
LfD(시연 학습) 또는 행동 복제라고도 하는 모방 학습(IL)은 인간 운영자로부터 캡처한 작업을 복제하는 정책을 교육합니다. 데이터 수집 중에 숙련된 시연자는 센서가 관절 위치, 엔드 이펙터 자세, 카메라 프레임 및 기타 관련 상태를 기록하는 동안 대상 작업을 통해 로봇을 원격 작동합니다. 기록된 데이터는 신경망 정책을 위한 훈련 세트가 됩니다.
강화 학습에 비해 IL의 매력은 실용적입니다. 보상 신호를 설계하거나 수백만 개의 시뮬레이션 롤아웃을 실행하거나 희소 보상 탐색 문제를 해결할 필요가 없습니다. 인간이 작업을 수행할 수 있다면 로봇은 잠재적으로 수백 번에서 수천 번의 시연을 통해 학습할 수 있습니다. 문제는 일반화입니다. 좁은 시연에 대해 훈련된 정책은 물체 위치, 조명 또는 작업 변형이 훈련 분포와 다를 때 실패할 수 있습니다.
최신 IL 연구에서는 더 나은 아키텍처, 더 크고 다양한 데이터 세트, 사전 훈련된 시각적 표현을 통해 이 문제를 해결합니다. 이 분야는 2023년부터 빠르게 발전했으며 이제 로봇 공학 박사 프로그램에 접근하지 않고도 팀이 생산 품질의 모방 학습을 이용할 수 있습니다.
ACT: 트랜스포머를 이용한 액션 청킹
스탠포드의 ALOHA 이중 수동 로봇 플랫폼과 함께 도입된 ACT는 로봇 제어를 시퀀스 예측 문제로 취급합니다. 이 정책은 단일 다음 작업이 아닌 일련의 향후 작업(일반적으로 50~100개 시간 단계)을 예측합니다. 이 작업 청크는 작은 예측 실수가 궤적에 누적되는 순진한 행동 복제의 주요 실패 모드인 복합 오류를 줄입니다.
ACT는 훈련 중에 CVAE(Conditional Variational Autoencoder)를 사용하여 인간 시연의 다양한 방식을 포착합니다. 즉, 작업을 완료하는 데 올바른 방법이 두 개 이상인 경우가 많습니다. 추론 시 디코더는 현재 카메라 관찰 및 관절 상태에 따라 조건이 지정된 동작 시퀀스를 생성합니다. 그 결과 모드 평균화 아티팩트 없이 인간이 시연하는 작업의 자연스러운 변화를 처리하는 정책이 탄생했습니다.
ACT는 양손 조작 작업의 강력한 출발점입니다. 비교적 적당한 데이터 볼륨(작업당 50~200개의 데모)이 필요하며 몇 시간 안에 단일 GPU에서 학습됩니다. ALOHA 하드웨어 또는 유사한 이중 수동 설정으로 작업하는 경우 ACT가 가장 먼저 시도해야 할 알고리즘입니다. SVRC 데이터 서비스 ALOHA 클래스 플랫폼에서 수집된 사전 처리된 ACT 호환 데이터 세트를 포함합니다.
확산 정책: 다중 모드 작업 배포 처리
확산 정책은 점수 일치 확산 모델(이미지의 Stable Diffusion을 지원하는 동일한 클래스의 모델)을 로봇 작업 공간에 적용합니다. 정책은 하나의 최선의 조치를 예측하는 대신 인간 시연자가 취할 수 있는 조치의 전체 분포를 학습합니다. 추론 시에는 해당 분포에서 고품질 작업을 샘플링하기 위해 노이즈 제거 프로세스를 실행합니다.
ACT에 비해 가장 큰 장점은 인간이 왼쪽이나 오른쪽에서 물체를 잡거나 여러 유효한 각도에서 대상에 접근할 수 있는 시나리오인 다중 모드 작업을 처리하는 방법입니다. 표준 동작 복제는 이러한 모드의 평균을 계산하여 중간에 실패하는 정책을 생성합니다. 현재 컨텍스트에서 올바른 모드의 확산 정책 샘플을 사용하여 모호한 작업에 대해 보다 강력한 동작을 생성합니다.
단점은 추론 속도입니다. UNet 백본을 사용한 확산 정책에는 기본적으로 추론 시 100개의 노이즈 제거 단계가 필요하며 이는 실시간 제어에 비해 너무 느릴 수 있습니다. DDIM 샘플러 및 일관성 증류 변형은 이를 10~25단계로 줄여 실시간 작업을 실행 가능하게 만듭니다. 데이터 요구 사항의 경우 확산 정책은 일반적으로 ACT보다 더 많은 데모를 통해 이점을 얻지만 원시 수량보다 데이터 세트 다양성을 더 많이 보상합니다.
비전-언어-행동 모델: IL at Scale
OpenVLA, pi0 및 RT-2와 같은 VLA는 로봇 시연을 미세 조정하기 전에 인터넷 규모의 시각적 및 언어 데이터에 대한 사전 교육을 통해 모방 학습을 확장합니다. 사전 훈련된 백본은 로봇 조작으로 강력하게 전달되는 객체, 장면 및 관계에 대한 풍부한 표현을 제공합니다. 미세 조정에는 처음부터 훈련하는 것보다 훨씬 적은 수의 데모가 필요합니다. 때로는 작업별 예가 10~50개 정도에 불과합니다.
컴퓨팅 및 라이선스 요구 사항을 감당할 수 있는 팀의 경우 VLA는 IL 성능의 현재 최전선을 나타냅니다. 그들은 새로운 객체, 새로운 환경, 언어별 작업 변형에 대해 더 잘 일반화합니다. SVRC는 미세 조정 데이터 세트를 제공하고 원격운영 인프라 주요 VLA 교육 파이프라인에서 예상되는 데이터 형식과 호환됩니다. 우리를 참조하십시오 VLA 모델 설명 가이드 더 깊은 기술 분석을 위해.
모방 학습을 위한 데이터 요구 사항
단일 조작 작업에 대해 실행 가능한 최소 데이터 세트는 일반적으로 ACT의 경우 50개 데모, 확산 정책의 경우 100~200개, VLA 미세 조정의 경우 20~50개입니다. 이는 일관된 조명, 고정된 카메라 시점, 예측 가능한 위치에 있는 개체 등 유리한 조건에서의 바닥 추정치입니다. 실제 배포에서는 프로덕션 환경에서 시스템이 직면하게 될 변형을 처리하기 위해 3~5배 더 많은 데이터가 필요합니다.
데이터의 질은 양만큼 중요합니다. 작업을 일관되고 깔끔하게 완료하는 숙련된 작업자가 데모를 수집해야 합니다. 실패한 시도, 망설임, 훈련 세트에 성공이라는 레이블이 붙은 수정 등은 정책 성능을 저하시킵니다. SVRC 관리형 데이터 수집 서비스 숙련된 운영자, 품질 필터링된 에피소드 선택 및 구조화된 데이터 세트 패키징을 제공하여 엔지니어링 팀의 데이터 파이프라인 작업을 몇 주씩 단축합니다.
센서의 다양성도 중요합니다. 단일 손목 카메라에 대해 학습된 정책은 해당 카메라가 가려지면 실패하는 경우가 많습니다. 가장 좋은 방법은 두 개 이상의 카메라 시점(고정된 오버헤드 또는 측면 뷰와 손목 장착 뷰)에서 수집하고 시각적 관찰과 함께 고유 감각 상태(관절 각도 및 속도)를 포함하는 것입니다.
IL 연구를 위한 하드웨어 및 인프라
모방 학습 연구 프로젝트를 위한 최소 하드웨어 스택에는 작업에 충분한 자유도(일반 조작의 경우 최소 6-DOF)가 있는 로봇 팔, 데이터 수집을 위한 리더-추종자 또는 VR 기반 원격 조작 시스템, 두 대 이상의 카메라, 최소 하나의 NVIDIA GPU(ACT/확산 정책의 경우 RTX 3090 이상, VLA 미세 조정의 경우 A100 또는 H100 권장)가 있는 워크스테이션이 포함됩니다.
SVRC 하드웨어 카탈로그 표준 카메라 구성을 위한 호환 가능한 원격 조작 리더 암 및 장착 하드웨어와 함께 제공되는 OpenArm 플랫폼이 포함되어 있습니다. 그만큼 SVRC 플랫폼 에피소드 녹화, 데이터 세트 관리, 정책 교육 파이프라인 및 평가 도구 등 소프트웨어 계층을 제공합니다. 팀은 단기 프로젝트를 위해 하드웨어를 구매하는 대신 임대할 수 있습니다. 로봇 임대 프로그램이는 작동하는 IL 프로토타입으로 가는 가장 빠른 경로인 경우가 많습니다.
하드웨어에 투자하기 전에 데이터부터 시작하려는 팀을 위해 SVRC는 Mountain View 시설에서 수집된 엄선된 다중 작업 데모 데이터세트에 대한 액세스를 제공합니다. 이러한 데이터 세트는 선택, 배치, 붓기, 접기, 조립과 같은 일반적인 조작 기본 요소를 다루며 ACT, 확산 정책 및 Hugging Face LeRobot과 함께 직접 사용할 수 있도록 형식화되었습니다. 우리 팀에 문의하세요 데이터 세트 액세스 옵션에 대해 논의합니다.