ACT 정책 설명: 로봇 학습을 위한 Transformers를 사용한 액션 청킹
ACT(Action Chunking with Transformers)는 Tony Zhao와 스탠포드의 공동 작업자가 출판한 후 손재주 조작을 위해 가장 널리 채택된 모방 학습 알고리즘 중 하나가 되었습니다. 다음은 작동 방식과 사용 방법에 대한 실제적인 설명입니다.
ACT란 무엇입니까?
ACT는 로봇이 시각적 관찰을 기반으로 부드럽고 조화로운 움직임을 만들어야 하는 세밀한 조작 작업을 위해 설계된 모방 학습 알고리즘입니다. 추론 시 ACT는 로봇의 카메라와 현재 관절 상태에서 일련의 이미지를 가져와 단일 다음 작업이 아닌 일련의 미래 작업(짧은 관절 위치 목표 시퀀스)을 출력합니다. 로봇은 이 청크를 실행한 후 다음 청크에 대한 정책을 다시 쿼리합니다. 이러한 여러 단계를 미리 예측하는 설계는 ACT의 정의 기능이자 단순한 행동 복제에 비해 ACT가 제공하는 대부분의 장점의 원천입니다.
ACT는 ALOHA 이중 수동 조작 시스템의 맥락에서 도입되었으며 이전에는 모방 학습이 불가능하다고 간주되었던 작업(배터리 끼우기, 지퍼백 열기, 바늘 꿰기)에서 성공을 입증했습니다. 청크 동작 예측이 복합 오류를 줄이고 궤적을 매끄럽게 한다는 핵심 통찰력은 이후 수많은 후속 알고리즘에 채택되었습니다.
액션 청킹의 작동 방식
표준 행동 복제(BC)는 현재 관찰을 바탕으로 다음 단일 작업을 예측하는 정책을 교육합니다. 추론 시간에는 예측 오류가 누적됩니다. 각각의 작은 실수로 인해 로봇의 상태가 조금씩 바뀌고 정책이 훈련되지 않은 분포에 배치되어 다음 예측이 더 나빠지는 등의 현상이 발생합니다. 이 복합 오류는 미세 조작 작업에 대한 순진한 BC의 주요 실패 모드입니다.
액션 청킹은 k개의 미래 액션 시퀀스(일반적으로 50Hz에서 50~100단계, 1~2초의 모션에 해당)를 예측하여 이 주기를 깨뜨립니다. 정책은 이 계획을 커밋하고 다시 쿼리하기 전에 실행합니다. 계획은 일관된 단일 관찰을 통해 생성되었기 때문에 궤도는 매끄럽고 내부적으로 일관성이 있습니다. 여러 재쿼리에서 겹치는 작업 청크를 평균화하는 시간적 앙상블은 실행을 더욱 원활하게 하고 청크 간 경계에서 지터를 줄입니다.
ACT 아키텍처
ACT는 CVAE(Conditional Variational Autoencoder) 아키텍처를 사용합니다. 훈련 중에 인코더는 전체 데모 궤적(이미지, 관절 상태 및 동작)을 처리하고 데모의 "스타일"(빠른 vs 느린, 왼쪽으로 기울어지는 접근 방식과 오른쪽으로 기울어지는 접근 방식 등)을 캡처하는 잠재 스타일 변수 z를 생성합니다. 그런 다음 변환기 기반 디코더는 현재 관찰, 잠재 z 및 위치 인코딩을 가져와 작업 청크를 예측합니다. 추론 시간에 z는 0(이전 평균)으로 설정되어 관찰에 따라 정책이 결정적이 됩니다.
비전 백본은 일반적으로 각 카메라 뷰를 독립적으로 처리하는 ResNet-18이며, 결과 기능 맵은 토큰으로 변환기 디코더에 전달됩니다. 손목 카메라와 오버헤드 카메라 등 여러 카메라 뷰는 각각 토큰 스트림을 제공하여 조작 장면에 대한 풍부한 공간 정보를 정책에 제공합니다.
데이터 요구 사항 및 좋은 데이터의 구성 요소
ACT는 대부분의 게시된 결과에서 작업당 50~200개의 데모에서 잘 작동합니다. 그러나 데이터의 질은 양보다 더 중요합니다. 시연은 원활하고 목적이 있어야 합니다. ACT 정책은 망설임, 수정, 최적이 아닌 접근 방식을 포함하여 데이터에 있는 모든 동작 패턴을 학습합니다. SVRC 데이터 수집 표준 운영자는 눈에 띄는 오류가 발생한 후 계속하기보다는 에피소드를 다시 시작해야 하므로 훈련 데이터세트에 의도적이고 성공적인 동작만 포함되도록 해야 합니다.
카메라 일관성도 중요합니다. 녹화 세션 간에 카메라 배치가 변경되면 정책에서 학습한 시각적 기능이 더 이상 배포 설정과 일치하지 않습니다. 유연한 암 대신 물리적 마운트를 사용하고 각 데이터세트와 함께 카메라 보정 매개변수를 기록합니다. SVRC의 다중 카메라 녹화 파이프라인은 이를 자동으로 시행합니다.
ACT 대 행동 복제: 결과
원래 ALOHA 작업에서 ACT는 동일한 데이터에 대해 표준 BC의 20~50%에 비해 80~95%의 성공률을 달성했습니다. 이러한 개선은 정확한 타이밍, 두 팔 사이의 원활한 조정, 작은 동요로부터의 우아한 회복이 필요한 작업에서 가장 두드러집니다. 허용 오차가 허용되는 간단한 선택 및 배치 작업에서는 ACT와 BC 간의 격차가 좁아집니다. 또한 ACT는 실행 속도가 중요한 작업에서 확산 정책보다 성능이 뛰어납니다. 확산 기반 정책에는 추론 단계당 더 많은 계산이 필요하기 때문입니다.
SVRC 데이터를 사용한 ACT 교육
SVRC 데이터 플랫폼 오픈 소스 ACT 교육 코드의 표준 입력 형식인 LeRobot 호환 HDF5 형식으로 데이터 세트를 내보냅니다. 데이터세트를 다운로드한 후 기본 ACT 정책을 교육하려면 최소 16GB VRAM을 갖춘 GPU와 단일 작업에 대한 약 8시간의 교육이 필요합니다. SVRC 엔지니어링 지원은 팀이 교육 실행을 구성하고, 청크 크기 및 학습 속도를 조정하고, 정책 성과를 평가하는 데 도움이 됩니다. 자체 데이터를 수집하는 하드웨어에 대해서는 당사를 참조하세요. 하드웨어 카탈로그 또는 탐색 로봇 임대 옵션.