데이터 수집

로봇 훈련 데이터란 무엇이며 어떻게 수집하나요?

로봇 훈련 데이터는 현대 로봇 AI를 가능하게 하는 원재료입니다. 고품질 데모가 없으면 모방 학습 모델을 일반화할 수 없으며 VLA 시스템은 신뢰할 수 있는 실제 성능을 달성할 수 없습니다. 데이터 수집 프로그램을 시작하기 전에 알아야 할 사항은 다음과 같습니다.

로봇 훈련 데이터란 무엇입니까?

로봇 훈련 데이터는 동기화된 타임스탬프 스트림에서 관절 위치, 엔드 이펙터 자세, 카메라 이미지, 힘/토크 판독값 및 작업자 제어 입력 캡처 등 작업을 수행하는 로봇의 기록된 시연으로 구성됩니다. 이 데이터는 모방 학습 정책을 훈련하고, VLA(비전-언어-행동) 모델을 미세 조정하고, 강화 학습을 위한 보상 기능을 구축하는 데 사용됩니다. SVRC 데이터 서비스 연구 및 상업 팀을 위한 엔드 투 엔드 수집, 주석 및 내보내기를 처리합니다.

데이터 품질이 수량보다 더 중요한 이유

일반적인 오해는 더 많은 시연이 항상 더 나은 모델을 생성한다는 것입니다. 실제로는 다양한 개체 위치, 조명 조건, 운영자 전략 등 데이터 다양성이 순전히 에피소드 수보다 훨씬 더 중요합니다. 시끄럽거나 일관되지 않은 시위는 정책 성과에 적극적으로 해를 끼칩니다. SVRC의 수집 프로토콜은 일관성 검사, 재촬영 기준 및 다중 카메라 적용 범위 표준을 시행하여 모든 에피소드가 데이터 세트에 입력되기 전에 정의된 품질 기준을 충족하는지 확인합니다.

원격 조작 vs 운동감각 교육 vs 대본 수집

로봇 시연을 수집하는 데는 세 가지 주요 방법이 사용됩니다. 원격조작 — 사용 제어 인터페이스 로봇을 실시간으로 작동시켜 가장 자연스럽고 일반화 가능한 데이터를 생성합니다. 운동 감각 교육은 동작을 통해 로봇 팔을 물리적으로 안내하고 궤적을 기록합니다. 스크립팅된 컬렉션은 사전 정의된 모션 프리미티브를 실행하여 잘 정의된 하위 작업에 대한 대용량 데이터를 생성합니다. 대부분의 프로덕션 데이터 세트는 작업 복잡성과 필요한 다양성에 따라 세 가지를 모두 결합합니다.

어떤 하드웨어가 필요합니까?

최소한 데이터 수집 설정에는 로봇 팔 또는 모바일 플랫폼, 하나 이상의 RGB 카메라(손목 장착 및 머리 위), 원격 조작 컨트롤러 또는 장갑, 모든 스트림을 동기화하는 로깅 시스템이 필요합니다. SVRC 임대 하드웨어 패키지 OpenArm, Mobile ALOHA 및 기타 플랫폼에 대해 사전 구성된 데이터 수집 설정이 포함되어 있으므로 팀은 맞춤형 인프라를 구축하지 않고도 첫날부터 수집을 시작할 수 있습니다.

데이터 형식, 주석 및 내보내기

수집된 원시 데이터는 일반적으로 관찰 및 작업 스트림이 동기화된 HDF5 또는 zarr 파일로 저장됩니다. 주석 레이어(작업 분할, 성공 플래그, 언어 지침 레이블)는 후처리 중에 추가됩니다. SVRC는 LeRobot, Lerobot HF 데이터 세트, Open X-Embodiment 및 사용자 정의 정책 교육 파이프라인과 호환되는 형식으로 내보냅니다. 기존 찾아보기 공개 데이터 세트 자신만의 컬렉션을 디자인하기 전에 데이터 구조를 이해하세요.

SVRC로 데이터 수집 프로그램을 시작하는 방법

가장 빠른 길은 담당자에게 문의하는 것입니다. 데이터 서비스 작업 설명, 대상 로봇 플랫폼 및 원하는 에피소드 수를 팀으로 구성하십시오. SVRC는 San Francisco의 수집 운영자, 하드웨어, 통제된 실험실 환경 및 전체 후처리 파이프라인을 제공합니다. 특정 환경이나 개체가 필요한 작업의 경우 시설에서 SVRC 임대 하드웨어를 사용한 원격 수집도 지원됩니다.