로봇학습 확산정책: 정의 및 활용방법

Chi 등이 소개한 확산 정책. 2023년에는 로봇 제어에 생성 모델링 혁명을 가져왔습니다. 동작 생성을 잡음 제거 문제로 처리함으로써 단순한 동작 복제 알고리즘이 처리할 수 없는 방식으로 조작 동작의 다중 모드, 고차원 특성을 처리합니다. 자신의 로봇 프로젝트에 적용하기 위해 알아야 할 사항은 다음과 같습니다.

확산정책이란 무엇인가?

확산 정책은 잡음 제거 확산 확률 모델(DDPM)(안정 확산과 같은 텍스트-이미지 모델의 기초가 되는 동일한 수학적 프레임워크)을 기반으로 하는 로봇 제어 정책 클래스입니다. 로봇 맥락에서 생성되는 "이미지"는 일련의 로봇 동작(궤적)입니다. 동작 공간의 순수한 가우스 잡음에서 시작하여 모델은 현재의 시각적 관찰 및 로봇 상태를 조건으로 반복적으로 잡음을 제거하여 10~100개의 잡음 제거 단계 후에 일관된 고품질 동작 시퀀스를 생성합니다.

핵심 통찰력은 확산 모델이 단일 최선의 행동을 예측하는 대신 행동에 대한 전체 확률 분포를 학습한다는 것입니다. 로봇 공학의 경우 이는 매우 중요합니다. 동일한 작업에 대한 인간의 시연은 자연스럽게 다중 모드입니다. 사람은 미묘한 상황적 단서에 따라 왼쪽이나 오른쪽에서 컵을 잡을 수 있습니다. 이 분포를 단일 예측으로 축소해야 하는 모델은 한 모드에 전념하고 나머지 절반 시간 동안 실패하거나 모드의 평균을 계산하고 항상 실패하는 기괴한 중간 궤적을 생성합니다. 확산 정책은 분포를 명시적으로 모델링하고 추론 시 분포에서 샘플링하여 이를 방지합니다.

확산 정책이 표준 행동 복제보다 뛰어난 이유

표준 행동 복제(BC)는 감독된 회귀 문제로 정책을 교육합니다. 관찰이 주어지면 조치를 예측합니다. 이는 관찰에서 동작으로의 매핑이 결정적이고 단봉일 때 작동합니다. 실제로 조작 작업은 거의 없습니다. 테이블에서 블록을 집는 것과 같은 "간단한" 작업에도 여러 가지 유효한 접근 각도, 파악 자세 및 사전 파악 구성이 필요합니다. Naive BC는 결정 지점에서 주저하거나, 타협된 모션 선택을 하거나, 테스트 분포가 훈련과 약간 다를 때 완전히 실패하는 정책을 생성합니다.

확산 정책은 벤치마크 조작 제품군에서 BC 기준선보다 지속적으로 뛰어난 성능을 발휘합니다. 원본 논문에서는 Robomimic 벤치마크의 12개 작업 중 11개 작업에 대해 최첨단 결과를 달성했으며, 특히 액션 다중 모드가 높은 작업에서 큰 마진을 얻었습니다. 실제 로봇 평가에서 확산 정책은 보다 강력한 복구 동작을 보여주었습니다. 즉, 로봇이 약간 잘못된 중간 상태에 도달한 경우 정책은 결정론적 경로를 따르기보다는 광범위한 배포에서 샘플링했기 때문에 복구할 수 있었습니다.

ACT(Action Chunking with Transformers)와 비교하여 확산 정책은 일반적으로 강력한 다중 모드가 있는 작업에서 더 잘 수행되고 ACT의 청크 예측이 빛나는 긴 지평선 종속성이 있는 작업에서는 더 나쁩니다. 실제로 두 알고리즘 모두 정책 아키텍처 선택보다 데이터 세트 품질과 양이 더 중요할 정도로 경쟁력이 있습니다. 어떤 것을 사용해야 할지 확실하지 않은 경우 반복 속도를 위해 먼저 ACT를 시도한 다음 모드 평균 오류가 관찰되면 확산 정책을 시도하십시오.

확산 정책에 대한 데이터 요구 사항

확산 정책은 ACT보다 더 많은 데이터로부터 이점을 얻습니다. 그 이유는 잡음 제거 네트워크가 더 많은 매개변수와 더 풍부한 모델링 목표를 갖기 때문입니다. 실제 최소값은 통제된 조건에서 단일 작업에 대해 100~200번의 시연입니다. 물체 위치 변화, 조명 변화, 간헐적인 센서 소음 처리 등 강력한 배포 성능을 달성하기 위해 작업당 300~500개의 데모 예산을 책정합니다. ACT와 달리 확산 정책은 상당히 큰 데이터 세트 크기까지 추가 데이터를 통해 지속적으로 개선되는 경향이 있으므로 대규모 데이터 수집 노력에 투자할 계획이라면 더 나은 선택이 됩니다.

데이터의 다양성은 양만큼 중요합니다. 데모는 배포 시 예상되는 개체 위치, 방향 및 장면 구성 범위를 포괄해야 합니다. 물체가 항상 정확히 같은 위치에 있는 밀집된 시위 클러스터는 물체가 몇 센티미터 이동하는 순간 실패하는 정책을 생성할 것입니다. SVRC 관리형 데이터 수집 서비스 일반화 가능한 정책을 생성하는 데이터 세트를 보장하기 위해 개체 위치, 조명 조건 및 작업자 그립 스타일을 체계적으로 무작위화하는 구조화된 변형 프로토콜을 따릅니다.

관찰 표현도 중요합니다. 엔드투엔드 훈련된 ResNet 이미지 인코더를 사용한 확산 정책은 일반적으로 좁은 작업 분포에서 고정된 사전 훈련된 인코더를 사용하는 정책보다 성능이 뛰어납니다. 그러나 사전 훈련된 인코더(R3M, MVP, DINO)는 테스트 조건이 훈련과 다를 때 더 나은 일반화를 생성합니다. 대부분의 실용적인 프로젝트의 경우 사전 훈련된 인코더로 시작하여 데이터세트의 가치를 극대화하고, 500개 이상의 데모와 안정적인 환경이 있는 경우에만 엔드투엔드 훈련으로 전환하세요.

교육 설정 및 컴퓨팅 요구 사항

확산 정책의 참조 구현(Columbia Robotics Lab GitHub에서 사용 가능)은 UNet 백본(더 빠른 추론, 더 낮은 용량) 또는 Transformer 백본(더 느린 추론, 더 높은 용량)을 사용하여 학습합니다. 대부분의 단일 작업 프로젝트의 경우 UNet 변형이 올바른 시작점이 됩니다. 단일 RTX 3090 또는 4090에 대한 교육은 관측 해상도 및 작업 지평선 길이에 따라 200개 에피소드 데이터 세트의 경우 4~12시간이 소요됩니다.

올바르게 설정해야 하는 주요 하이퍼매개변수: 작업 범위(예측할 미래 단계 수 - 일반적으로 테이블탑 작업의 경우 16~32개), 확산 단계 수(최소 품질 손실로 DDPM의 경우 100, DDIM의 경우 10~25), 관찰 창(포함할 과거 프레임 수 - 일반적으로 2). 세 가지를 동시에 변경하지 마십시오. 하나를 튜닝할 때 다른 것들도 수정하세요. 정책 성능 향상을 위한 가장 영향력 있는 변화는 일반적으로 아키텍처 하이퍼파라미터를 조정하는 것이 아니라 데이터 세트 크기를 늘리는 것입니다.

실제 로봇에 대한 추론의 경우 100단계의 DDPM은 일반적으로 고주파수 제어에 비해 너무 느립니다. RTX 3090에서 ~20Hz로 실행되는 10~25단계의 DDIM 스케줄러를 사용하세요. 버퍼가 있는 10Hz 제어에 적합합니다. 또는 일관성 정책 증류를 통해 더 간단한 작업에 대해 성능 저하를 최소화하면서 1~3단계 추론을 달성할 수 있습니다.

확산 정책을 위해 SVRC 데이터 서비스 사용

SVRC 데이터 서비스 파이프라인 확산 정책 참조 구현 및 HuggingFace LeRobot 프레임워크와 함께 직접 사용할 수 있는 형식의 데이터 세트를 생성합니다. 에피소드는 동기화된 이미지 스트림, 고유 감각 상태 및 50Hz 동작을 갖춘 ZARR 아카이브로 저장됩니다. 품질 필터링은 작업이 성공적으로 완료되지 않았거나, 로봇이 환경과 충돌했거나, 운영자가 주저하여 비대표적인 궤적을 생성한 에피소드를 제거합니다.

우리의 수집 서비스는 다음을 사용합니다. SVRC 원격운영 플랫폼 이중 팔이 가능한 리더-추종자 제어, 손목 장착 및 머리 위 카메라, 선택적인 힘-토크 로깅 기능을 갖추고 있습니다. 단일 정책이 작업 ID 또는 언어에 따라 여러 작업을 학습하는 다중 작업 확산 정책 교육의 경우 동일한 캠페인 내의 작업 변형을 수집하고 통합 데이터 세트를 제공할 수 있습니다. OpenArm 또는 ALOHA 하드웨어 플랫폼을 사용하는 팀은 기본 하드웨어 지원을 받습니다. 요청 시 맞춤형 하드웨어 통합이 가능합니다. 우리 팀에 문의하세요 데이터 요구 사항과 일정을 논의합니다.

관련된: 로봇을 위한 모방 학습 · VLA 모델 설명 · 로봇 훈련 데이터란 무엇입니까? · 데이터 서비스 · 벤치마크