로봇 학습

로봇 정책 일반화: 로봇이 새로운 개체에서 실패하는 이유

귀하의 정책은 교육 개체에 대해 90%의 성공을 달성했습니다. 새 컵, 다른 상자, 익숙하지 않은 도구를 도입하면 성능이 30%로 떨어집니다. 이것이 일반화 문제이며, 로봇 학습을 현실 세계에 적용하는 데 있어 핵심 과제입니다.

일반화가 로봇 정책에 미치는 영향

로봇 정책은 훈련 중에 보이지 않는 물체, 위치 및 조건에 대한 작업을 성공적으로 수행할 때 일반화됩니다. 이는 단순히 시연된 동작을 기억하는 것과는 다릅니다. 기억하면 배포 조건이 훈련 조건과 달라지자마자 실패하는 깨지기 쉬운 정책이 생성됩니다. 일반화를 위해서는 특정 시각적 입력에 연결된 특정 모션 시퀀스보다는 기본 작업 개념(용기 집어들기, 액체 붓기)을 학습하는 정책이 필요합니다.

실제로 중요한 일반화에는 여러 축이 있습니다. 객체 모양 일반화(동일한 모양, 다른 색상 또는 질감), 객체 기하학 일반화(동일한 범주, 다른 크기 또는 정확한 모양), 위치 일반화(동일한 객체, 다른 시작 위치) 및 구성 일반화(익숙한 작업 요소의 새로운 조합)입니다. 각 축에는 서로 다른 데이터 전략이 필요하며 정책 아키텍처에 따라 다소 어렵습니다.

실패 이유: 근본 원인

잘못된 일반화의 가장 일반적인 원인은 교육 데이터 세트의 다양성이 부족하기 때문입니다. 모든 시연이 동일한 시작 위치에서 동일한 빨간색 컵을 사용한 경우 정책은 "컵"의 일반적인 개념이 아닌 해당 컵과 해당 위치에 특정한 기능을 학습합니다. 정책은 "이 특정 위치에서 특정 빨간색 컵을 집는다"와 "어디서나 컵을 집는다"를 구분할 수 없습니다. 이는 알고리즘의 결함이 아닙니다. 데이터 문제입니다.

두 번째 원인은 시각적 특징의 분포 변화입니다. 통제된 스튜디오 조명 하에서 교육 시연을 녹화하고 배포가 다양한 주변 조명에서 발생하는 경우 정책이 학습한 시각적 기능이 배포 관찰에서 올바르게 활성화되지 않을 수 있습니다. 마찬가지로, 새 객체의 표면 질감이나 반사율이 훈련 객체와 다른 경우 정책 백본에서 사용하는 낮은 수준의 시각적 기능이 기대와 일치하지 않을 수 있습니다. 이것이 SVRC의 데이터 수집 표준이 다양한 조명 조건과 다양한 개체 인스턴스에서 데이터를 수집하도록 요구하는 이유입니다.

데이터 다양성 전략

일반화를 개선하는 가장 신뢰할 수 있는 방법은 의도적인 데이터 세트 다양화입니다. 개체 다양성을 위해: 크기, 색상, 재료 및 브랜드가 다양한 대상 개체 범주의 개별 인스턴스가 최소 10~20개 있는 데모를 수집합니다. 위치 다양성을 위해: 30~40cm 그리드에서 시작 위치를 변경하고 다양한 방향을 포함합니다. 배경 다양성을 위해 작업 공간 표면을 변경하고, 방해 요소를 추가하고, 세션 전반에 걸쳐 조명을 변경하세요.

데이터 증대는 실제 다양성을 보완할 수 있지만 대체할 수는 없습니다. 표준 시각적 보강(색상 지터, 무작위 자르기, 밝기/대비 변화)은 조명 변화에 대한 견고성을 향상시키지만 다양한 객체 인스턴스를 대체하지는 않습니다. 객체 변형을 생성하기 위해 이미지 편집 또는 생성 모델을 사용하여 합성 증강 데이터를 생성하는 것은 가능성을 보였지만 비현실적인 시각적 아티팩트가 발생하지 않도록 주의 깊은 품질 관리가 필요합니다.

VLA와 작업별 정책

비전-언어-행동 모델(VLA)(언어 지침과 시각적 관찰을 입력으로 받아들이고 행동을 생성하는 정책)은 일반화에 대한 다른 접근 방식을 제공합니다. 대규모 비전 언어 사전 학습의 풍부한 의미론적 표현에 로봇 동작을 기반으로 VLA는 언어 설명과 일치하는 시각적 모양을 기반으로 새로운 개체 인스턴스를 제로샷으로 처리할 수 있습니다("머그를 집어들다"는 모델이 머그로 인식하는 모든 개체를 일반화함). OpenVLA, Octo 및 RT-2와 같은 모델은 일부 조작 작업에서 의미 있는 제로샷 일반화를 보여주었습니다.

그러나 VLA는 마술 일반화 기계가 아닙니다. 이들은 의미론적 일반화(알려진 범주 내의 새로운 개체 인스턴스)에는 탁월하지만 기하학적 일반화(다양한 파악 구성이 필요한 새로운 개체 모양)와 정확한 힘 제어 또는 접촉이 많은 동작이 필요한 작업에는 여전히 어려움을 겪고 있습니다. 대부분의 연구팀의 실질적인 권장 사항은 VLA를 출발점이나 백본으로 사용한 다음 작업별 데모를 미세 조정하여 필요한 정밀도와 신뢰성을 달성하는 것입니다.

일반화를 위한 평가 방법

일반화는 배포 내 성능에서 추론하는 것이 아니라 명시적으로 평가해야 합니다. 표준 평가 프로토콜은 훈련에 존재하지 않는 객체의 유지 테스트 세트를 사용합니다. 이상적으로는 데이터 수집에서 의도적으로 제외된 범주당 5-10개의 객체 인스턴스입니다. 훈련 후 보류 세트를 평가하고 배포 내 성공률과 배포 외 성공률을 별도로 보고합니다. 분포 내 85%를 달성하지만 분포 외 40%만 달성하는 정책은 일반화에 한계가 있으며 더욱 다양한 훈련 데이터가 필요합니다.

SVRC의 품질 표준은 데이터 세트가 생산 준비가 완료되었다고 표시되기 전에 일반화 평가를 요구합니다. 우리의 주석 및 평가 파이프라인에는 모든 조작 데이터 세트에 대한 고정 객체 세트가 포함되어 있으며 엔지니어링 팀은 훈련된 정책에 대해 표준화된 일반화 평가를 실행할 수 있습니다. 보다 일반화 가능한 데이터 세트를 구축하는 데 도움이 필요한 경우 데이터 서비스또는 평가 지원을 위해 SVRC 팀에 문의하세요.