ALOHA 로봇: 정의, 작동 방식 및 시작 방법
ALOHA는 스탠포드 대학의 양손 원격 조작 플랫폼으로, 로봇이 소수의 인간 시연을 통해 칩 봉지 열기, 케이블 묶기, 요리와 같은 능숙한 양손 조작 작업을 배울 수 있음을 처음으로 시연했습니다. 현재 세계에서 가장 널리 참조되는 양손 연구 플랫폼입니다. 이 가이드에서는 ALOHA가 무엇인지, 어떻게 작동하는지, 어떻게 사용하는지 설명합니다.
스탠포드 기원 이야기
ALOHA — 양손 원격 조작을 위한 저비용 오픈 소스 하드웨어 시스템 —은 Stanford의 Mobile Manipulation Lab에서 개발되었으며 Tony Z. Zhao 외 연구진이 "저비용 하드웨어를 사용하여 세밀한 양손 조작 학습"이라는 논문에 게재했습니다. 핵심 주제는 도발적이었습니다. 인상적인 손재주 조작을 수행하기 위해 값비싼 독점 로봇 하드웨어가 필요하지 않다는 것입니다. ALOHA는 총 20,000달러 미만의 비용이 드는 4개의 ViperX 300 및 WidowX 250 로봇 팔(측면당 2개, 원격 조작용 리더로 하나, 추종자로 하나)을 ACT 알고리즘과 결합하여 사용하여 이전에는 훨씬 더 많은 비용이 드는 맞춤형 엔지니어링 시스템이 필요했던 작업을 수행했습니다.
이 논문에서는 사탕 포장 풀기, 슬롯에 배터리 삽입, 구멍에 밧줄 끼우기 등 10가지 양방향 작업을 시연했으며 모두 50번의 시연을 통해 80% 이상의 성공률을 보였습니다. 이러한 결과는 작업이 참신해서가 아니라 비용과 데이터 효율성 때문에 로봇 공학 커뮤니티에 충격을 주었습니다. ALOHA와 ACT는 함께 접근 가능한 손재주 조작 연구를 위한 새로운 기준을 확립했으며 오늘날에도 계속되는 후속 작업의 물결을 촉발했습니다.
ALOHA 하드웨어 설계와 모든 소프트웨어는 완전히 오픈 소스입니다. BOM, 조립 지침 및 ACT 교육 코드는 GitHub에서 공개적으로 제공됩니다. 이러한 개방성으로 인해 ALOHA는 전 세계 수십 개의 연구 그룹이 원래 디자인의 변형을 실행하는 사실상의 표준 이중 수동 연구 플랫폼이 되었습니다. SVRC는 당사를 통해 ALOHA급 플랫폼을 지원합니다. 데이터 서비스 그리고 하드웨어 임대 프로그램.
하드웨어 아키텍처: 양방향 리더-팔로워 설정
ALOHA 시스템은 각 팔에 하나씩 두 개의 운동학적 쌍으로 구성됩니다. 각 쌍에는 "리더" 암(작동자가 손으로 잡고 움직일 수 있는 가볍고 역구동 가능한 암)과 리더의 관절 위치를 실시간으로 반영하는 "추종자" 암이 있습니다. 팔로어 암은 실제 조작기(그리퍼, 도구 또는 엔드 이펙터)를 운반하고 물리적 세계와 상호 작용합니다. 리더 암에는 백구동이 가능하고 운전자에게 토크 피드백만 제공하면 되므로 엔드 이펙터 페이로드 요구 사항이 없습니다.
두 개의 완전한 리더-팔로워 쌍인 이중 수동 구성은 ALOHA를 독창적인 작업을 수행할 수 있게 만드는 요소입니다. 인간의 손은 본질적으로 양손입니다. 한 손은 물체를 잡고 다른 손은 물체를 조작하거나 두 손이 협력하여 두 개의 동시 접촉 지점이 필요한 작업을 완료합니다. 단일 팔 로봇은 복잡한 고정 장치나 순서 지정을 통해서만 이러한 작업을 대략적으로 수행할 수 있습니다. 양손 로봇이 이를 직접 처리할 수 있습니다. 공유 테이블 고정 장치에 두 암이 장착된 ALOHA 폼 팩터는 작업자가 시스템 앞에 앉아 있는 테이블 조작 작업에 최적화되어 있습니다.
원본 ALOHA 논문의 카메라 설정에서는 3개의 카메라를 사용했습니다. 하나는 머리 위(전체 작업 공간의 조감도), 왼쪽 손목에 하나, 오른쪽 손목에 하나였습니다. 세 대의 카메라는 모두 ACT 정책의 시각적 관찰로 사용됩니다. 이 다중 보기 설정은 매우 중요합니다. 손목 카메라는 잡기 및 접촉 이벤트에 대한 클로즈업 보기를 제공하고 오버헤드 카메라는 양손 조정에 대한 전역 컨텍스트를 제공합니다. 단일 카메라 ALOHA 변형은 조정이 많은 작업에서 측정 가능한 낮은 정책 성능을 보여줍니다.
ACT: ALOHA의 알고리즘
ACT(Action Chunking with Transformers)는 ALOHA와 함께 개발되었으며 플랫폼의 기본 학습 알고리즘입니다. ACT는 단일 다음 동작이 아닌 미래의 관절 위치 덩어리(일반적으로 50Hz에서 100개 시간 단계, 2초의 동작 포함)를 예측하는 변환기 기반 모방 학습 정책입니다. 이 액션 청킹 아키텍처는 각 단계의 작은 예측 실수가 작업 과정에서 큰 궤적 편차로 누적되는 순진한 행동 복제의 복합 오류 문제를 크게 줄입니다.
ACT 정책 아키텍처는 훈련 중에 CVAE(Conditional Variational Autoencoder) 인코더를 사용하여 각 데모의 잠재 스타일을 캡처합니다. 즉, 작업 결과가 "무엇인지"와는 달리 인간이 작업을 "어떻게" 완료했는지에 대한 압축된 표현입니다. 이를 통해 정책은 모드 평균화 아티팩트 없이 인간 시연의 자연스러운 변화를 모델링할 수 있습니다. 추론 시 현재 관측치와 샘플링된 잠재 벡터를 조건으로 CVAE 디코더만 실행되어 작업 청크를 생성합니다.
작업당 50개의 데모가 포함된 ALOHA 데이터 세트에 대한 ACT 교육은 단일 RTX 3090 GPU에서 2~4시간이 걸립니다. 원본 논문과 함께 공개된 훈련 코드는 표준 ALOHA 작업에 대해 문서화된 하이퍼파라미터를 사용하여 간단하게 실행할 수 있습니다. 사용자 정의 작업의 경우 조정해야 할 가장 영향력 있는 하이퍼파라미터는 청크 크기(구성의 kl_weight)입니다. 청크가 클수록 예상치 못한 변동에 대한 반응성을 희생하면서 시간적 일관성이 향상됩니다. SVRC 플랫폼 ALOHA 형식 데이터 세트를 위해 사전 구성된 ACT 교육 파이프라인이 포함되어 있습니다.
모바일 ALOHA: ALOHA를 테이블에서 벗어나세요
같은 스탠포드 그룹이 2024년에 출간한 모바일 ALOHA는 ALOHA 개념을 모바일 기반으로 확장했습니다. 양손 암 설정은 AgileX Tracer 모바일 베이스에 장착되어 시스템이 조작을 위해 ALOHA 암을 유지하면서 주방 카운터에 접근, 식탁으로 이동, 복도 탐색 등 공간 내의 다양한 위치로 탐색할 수 있도록 했습니다. 모바일 ALOHA는 스토브에서 새우 요리하기, 식기세척기에 넣기, 패키지 배달하기 등의 작업을 시연했습니다. 이는 이동과 능숙한 조작이 모두 필요한 작업입니다.
Mobile ALOHA는 전신 원격 조작 개념을 도입했습니다. 작업자는 별도의 제어 인터페이스 또는 작업자의 신체 움직임을 로봇의 전신 구성에 매핑하는 통합 인터페이스를 통해 모바일 베이스와 두 팔을 동시에 제어합니다. 모바일 ALOHA에 대한 데이터 수집은 테이블탑 ALOHA보다 훨씬 더 복잡합니다. 정책은 탐색 및 조작을 조정하는 방법을 배워야 하고 환경의 공간적 변화와 객체 변화를 포괄하는 데모가 필요하기 때문입니다.
모바일 ALOHA는 또한 공동 교육을 도입했습니다. 즉, 모바일 조작 시연과 정적 ALOHA 조작 시연에 대한 모바일 ALOHA 정책을 공동으로 교육하는 것입니다. 공동 훈련은 모바일 플랫폼의 조작 성능을 향상시켰으며, 이는 테이블탑 데이터의 양손 조작 지식이 모바일 컨텍스트에 유용하게 전달된다는 것을 시사합니다. SVRC는 모바일 ALOHA 호환 데이터 세트를 제공하며 Mountain View 시설에서 모바일 조작 시연을 수집할 수 있습니다. 문의하기 모바일 ALOHA 데이터 요구 사항을 논의합니다.
ALOHA, ALOHA 2 및 상업용 파생상품의 차이점
2024년 후반에 출시된 ALOHA 2는 더 나은 반복성을 갖춘 고품질 암, 개선된 카메라 장착 시스템, 케이블 라우팅 복잡성을 줄이는 수정된 손목 디자인 등 여러 차원에서 원본을 개선했습니다. 전기 시스템도 데이지 체인 전원 케이블 대신 전용 배전판을 사용하도록 업데이트되어 긴 데이터 수집 세션 동안 안정성이 향상되었습니다. ALOHA 2는 원본과의 완전한 소프트웨어 호환성을 유지합니다. 하나에서 수집된 데이터 세트는 하드웨어 변형에 대한 일반적인 주의 사항에 따라 다른 하나에서 평가된 정책을 훈련할 수 있습니다.
현재 몇몇 상용 공급업체에서는 ALOHA 호환 플랫폼(제작자가 부품을 조달하고 암을 직접 조립할 필요 없이 ALOHA 기계 및 소프트웨어 사양을 따르는 사전 조립 및 테스트된 시스템)을 판매하고 있습니다. 이러한 상업용 ALOHA 시스템은 DIY BOM보다 비용이 많이 들지만 설정 시간과 조립 오류 위험이 크게 줄어듭니다. SVRC의 하드웨어 카탈로그에는 ALOHA 호환 구성이 포함되어 있습니다. 참조 가게 현재 옵션 및 가격을 확인하세요.
SVRC를 통해 ALOHA 시작하기
SVRC는 모든 단계에서 ALOHA 기반 연구를 지원합니다. 이제 막 시작한 팀을 위해 우리는 ALOHA 플랫폼 임대를 제공합니다. 로봇 임대 프로그램 — 하드웨어 구입에 대한 자본 약정 없이 월 고정 요금으로 완전한 이중 수동 설정에 액세스합니다. 임대 시스템은 사전 보정되어 도착하고 첫날부터 데모를 수집할 준비가 되어 있습니다.
데이터 수집을 위해 당사는 매니지드 서비스 ACT, 확산 정책 및 OpenVLA 교육 파이프라인과 호환되는 RLDS/LeRobot 형식으로 제공되는 데이터 세트를 통해 Mountain View 시설에서 데모를 수집할 수 있는 숙련된 ALOHA 운영자를 제공합니다. 우리 운영자는 양방향 조정 작업에 대한 경험이 풍부하고 초보 연구자가 일반적으로 달성하는 것보다 더 깨끗한 데이터 세트를 생성하는 구조화된 품질 프로토콜을 따릅니다. 귀하의 업무에 필요한 경우 현장 데이터 수집 캠페인을 위해 귀하의 사이트를 방문할 수도 있습니다.
정책 교육 및 평가를 위해 SVRC 플랫폼 ALOHA 정책을 위한 사전 구성된 ACT 교육 파이프라인, 실험 추적 및 평가 도구를 제공합니다. 우리의 벤치마크 정책 성능을 참조 구현과 비교할 수 있는 ALOHA 관련 작업 평가를 포함합니다. 처음부터 양손 조작 연구 프로그램을 구축하든, 기존 시스템의 성능을 향상시키든, SVRC 팀 올바른 접근 방식을 계획하는 데 도움이 될 수 있습니다.