← 연구

최고 수준의 학습 신호로서의 인간 참여 루프(Human-In-The-Loop)

운영자 수정, 복구 및 개입이 최신 로봇 데이터 파이프라인 설계 방식을 형성해야 하는 이유

인간의 입력이 감독이 되는 곳

입증하다 개입하다 다시 덮다 기차

많은 로봇 학습 시스템은 여전히 ​​사람들을 임시 발판으로 취급합니다. 처음에는 시연을 수집하는 데 유용하지만 정책이 훈련되면 대부분 무시됩니다. 실제로 그것은 잘못된 추상화입니다. 인간 행동은 단순한 부트스트랩 도구가 아닙니다. 이는 작업 의도, 오류 경계 및 복구 전략을 이해하는 데 사용할 수 있는 가장 풍부한 신호 중 하나인 경우가 많습니다.

신호가 존재하는 곳

그 가치는 성공적인 시연에만 국한되지 않습니다. 이는 일시 중지, 중간 궤적 수정, 그립 조정, 재시도 동작, 로봇이 잘못된 작업을 수행하기 전에 작업자가 작업이 실패할 것을 인지하고 전략을 변경하는 순간에 나타납니다.

이것이 데이터 디자인에 중요한 이유

팀이 최종 성공 궤적만 저장한다면 성공이 어떻게 달성되었는지 설명하는 많은 구조를 버리는 것입니다. 이러한 누락된 순간은 정책이 더욱 강력해지는 데 도움이 되는 경우가 많습니다. 드리프트에서 복구하는 방법, 접촉 전 속도를 늦추는 방법, 부분적인 누락 후 다시 접근하는 방법, 상태 추정이 약간 잘못되었을 때 대응하는 방법 등이 있습니다.

캡처할 내용

  • 개입 — 사람이 작업을 무시하거나 원래대로 되돌릴 때.
  • 수정 — 전문가의 판단을 반영하는 자세, 힘 또는 순서의 작은 변화.
  • 재시도 — 작업의 실제 난이도를 드러내는 시도가 실패했거나 부분적으로 이루어졌습니다.
  • 작업 메타데이터 — 선택 사항이 변경된 이유를 설명하는 운영자 신원, 난이도 태그 및 컨텍스트.

실용적인 테이크아웃

실제 로봇 시스템을 구축하는 팀은 인간의 입력을 "진정한" 자율 궤적 주변의 소음으로 취급하는 것을 중단해야 합니다. 이는 그들이 실제로 원하는 정책 행동을 가장 명확하게 표현하는 경우가 많습니다. 좋은 데이터 세트는 신호를 단순화된 성공 전용 재생으로 축소하는 대신 해당 신호를 보존합니다.

모범 사례 — 시연 자체와 함께 사람이 수정하고 복구한 내용을 기록합니다. 이는 명목 경로보다 더 많은 정보를 제공하는 경우가 많습니다.

데모 수집 방법 데이터 수집 가이드 ← 연구로 돌아가기

더 나은 인간 기반 데이터 루프 설계

운영자 워크플로, 원격 운영 루프 또는 개입 인식 데이터 세트를 구축하는 경우 파이프라인 구조화를 도와드릴 수 있습니다.