형식 선택이 중요한 이유
데이터 세트 형식은 훈련할 수 있는 모델, 공동 작업자와 데이터를 얼마나 쉽게 공유할 수 있는지, 파이프라인에서 직면하는 엔지니어링 오버헤드의 양을 결정합니다. 잘못된 형식을 선택하면 나중에 변환하는 데 어려움을 겪게 되며, 더 나쁘게는 번역 시 메타데이터가 손실됩니다.
형식 비교
RLDS (Google): TFRecord 기반, Open X-Embodiment 및 RT-X에서 사용됩니다. 대규모 교차 구현 훈련에 탁월합니다. LeRobot(Hugging Face): 쪽모이 세공 마루 기반이며 Hugging Face Hub로 쉽게 푸시할 수 있어 커뮤니티 채택이 증가하고 있습니다. HDF5: RoboMimic 및 많은 이전 프로젝트에서 사용되는 자체 설명 바이너리 형식입니다. Zarr: 청크가 있고 클라우드 친화적이며 대규모 데이터 세트에 대한 관심을 얻고 있습니다.
- 교차 구현 훈련: RLDS
- 커뮤니티 공유 및 빠른 반복을 위해: LeRobot
- 레거시 호환성: HDF5
- 클라우드 네이티브 파이프라인의 경우: Zarr
SVRC의 데이터 파이프라인
SVRC의 데이터 수집 인프라는 기본적으로 RLDS 및 LeRobot 형식을 모두 출력합니다. 당사의 데이터 플랫폼은 형식 변환, 버전 관리 및 품질 검증을 자동으로 처리합니다.