로봇 데이터 주석: 훈련을 위해 로봇 시연에 라벨을 붙이는 방법
주석은 로봇 학습에서 가장 덜 매력적인 부분이지만 가장 중요한 부분입니다. 주석이 잘 달린 500개의 데모 데이터 세트는 레이블이 제대로 지정되지 않은 2,000개의 데모보다 더 나은 정책을 훈련할 것입니다. 로봇 데이터에 대한 주석의 의미와 이를 올바르게 수행하는 방법은 다음과 같습니다.
로봇 데이터에 대한 주석의 의미
주석이 상자를 그리거나 라벨을 클릭하는 것을 의미하는 이미지 분류와 달리 로봇 데모 주석은 더 풍부하고 구조적입니다. 단일 로봇 에피소드(일반적으로 20~200초의 조작)에는 에피소드가 성공했는지 실패했는지, 작업을 설명하는 언어는 무엇인지, 의미상으로 구별되는 단계는 어디에서 시작하고 끝나는지, 하드웨어 오류나 운영자 실수로 인해 훈련에서 제외해야 하는 프레임이 있는지 등 여러 수준에서 라벨을 지정해야 합니다.
주석은 일반적으로 접합 상태 및 그리퍼 조리개 플롯과 함께 기록된 에피소드의 비디오 재생을 보는 검토자가 수행합니다. 좋은 주석 도구는 여러 카메라의 동기화된 비디오를 동시에 표시하므로 로봇 자체 카메라가 명확하게 캡처하지 못할 수도 있는 관점에서 성공 여부를 쉽게 판단할 수 있습니다.
성공 플래그: 가장 중요한 주석
로봇 훈련 데이터세트의 모든 에피소드에는 로봇이 작업을 성공적으로 완료했는지 여부를 나타내는 바이너리 성공 플래그가 라벨로 지정되어야 합니다. 간단해 보이지만 주석을 시작하기 전에 성공 기준을 정확하게 정의해야 합니다. "접시 위에 컵을 놓으려면" 사양이 필요합니다. 컵이 똑바로 세워져 있어야 하는지, 핸들 방향이 중요한지, 위치 오류가 어느 정도 허용되는지 등이 필요합니다. 동일한 데이터세트에 서로 다른 암시적 표준을 적용하는 주석자는 훈련 성능을 저하시키는 잡음이 많은 레이블을 생성합니다.
주석이 시작되기 전에 성공 및 실패 사례의 예시 이미지와 함께 한 페이지 분량의 성공 사양 문서를 작성합니다. 이 문서를 사용하여 주석자를 보정하세요. 공유된 에피소드 하위 집합에 대한 주석자 간 동의를 측정합니다. 동의가 90% 미만인 경우 성공 기준을 명확히 해야 합니다. SVRC의 주석 파이프라인에는 데이터세트가 훈련 준비가 된 것으로 표시되기 전에 명시적인 성공 기준 문서와 주석자 간 합의 확인이 필요합니다.
언어 라벨
언어 주석은 에피소드 또는 에피소드 세그먼트에 자연어 설명을 첨부합니다. 이는 작업을 하드코딩하는 대신 "빨간색 블록 선택"과 같은 지침을 따르는 언어 조건 정책 교육에 필요합니다. 또한 언어 주석을 사용하면 VLA(비전-언어-작업) 모델과의 호환성이 가능하며 작업 설명을 기준으로 데이터 세트를 검색하고 필터링할 수 있습니다.
짧은 작업 이름("컵 배치")과 자연어 지침("흰색 컵을 들고 파란색 접시에 놓기")의 두 가지 구체적 수준으로 언어 주석을 작성합니다. 지침은 로봇의 내부 상태가 아니라 인간 관찰자가 보는 일을 설명해야 합니다. 작업에 다양한 개체, 다양한 대상 위치 등 다양한 작업 변형이 포함된 경우 각 변형에는 다른 변형과 구별되는 해당 지침이 있어야 합니다.
작업 세분화
여러 순차적 하위 작업과 관련된 장거리 작업의 경우 분할 레이블은 단계 간의 경계를 표시합니다. 테이블 세팅 작업은 도달 컵, 잡기 컵, 운반 컵, 컵 놓기, 컵 놓기 등으로 분류될 수 있습니다. 세분화를 통해 계층적 정책 교육, 하위 작업 수준 성공 지표 및 선택적 데이터 확대가 가능합니다. 또한 수술적 디버깅도 가능합니다. 정책이 전송 중에 실패했지만 파악 중에 성공한 경우 분할 레이블을 사용하면 가장 필요한 하위 작업 성공률과 대상 데이터 수집 노력을 측정할 수 있습니다.
분할 주석은 성공 플래그 지정보다 비용이 많이 들고 항상 필요한 것은 아닙니다. 의미상 서로 다른 3개 이상의 단계가 있는 작업이나 계층적 정책 아키텍처를 사용하려는 경우 분할의 우선 순위를 지정합니다.
주석 도구 및 품질 표준
로봇 데이터에 대한 일반적인 주석 도구에는 Label Studio(오픈 소스, 비디오 및 시계열 데이터 지원), CVAT(컴퓨터 비전 주석 도구, 경계 상자 오버레이에 적합) 및 Gradio 또는 Streamlit로 구축된 사용자 정의 에피소드 브라우저가 포함됩니다. SVRC의 데이터 플랫폼에는 웹 앱을 통해 액세스할 수 있는 에피소드 주석 인터페이스가 내장되어 있으며 성공 플래그, 언어 라벨 및 프레임 수준 제외 표시를 지원합니다.
품질 표준은 양보다 더 중요합니다. SVRC는 모든 데이터 세트에 3단계 품질 게이트를 적용합니다. 즉, 녹음 직후 운영자 자체 주석, 훈련된 주석자의 2차 검토, 공동 상태 통계와 주석을 비교하는 자동화된 일관성 검사(예: 그리퍼가 닫히지 않은 성공으로 표시된 에피소드에 재검토 플래그가 지정됨)입니다.
SVRC의 주석 파이프라인
SVRC를 사용하는 경우 데이터 수집 서비스, 주석은 결과물의 일부입니다. 우리 운영자는 녹음 세션 중에 성공 플래그와 언어 라벨로 각 에피소드에 주석을 달고, 우리 주석 팀은 데이터세트를 내보내기 전에 2차 검토를 수행합니다. 신뢰할 수 있는 주석, 주석자 동의 점수 및 전체 품질 보고서가 포함된 데이터 세트를 받습니다. 자체적으로 수집된 데이터를 가져오는 팀을 위해 SVRC는 주석 전용 서비스를 제공하며 지원되는 모든 하드웨어 플랫폼에서 수집된 기존 데이터 세트를 처리할 수 있습니다. 문의하기 데이터 세트 주석 요구 사항을 논의합니다.