모방 학습
데모를 통해 학습 - 원격 조작 데이터에서 인간 행동을 복제하는 로봇.
모방 학습이란 무엇입니까?
모방 학습(IL)은 로봇이 전문가의 시연을 관찰하고 복제하여 작업 수행 방법을 배우는 패러다임입니다. 강화 학습에서와 같이 보상 신호로부터 학습하는 대신 로봇은 인간의 원격 조작 또는 운동 감각 교육 중에 수집된 상태-동작 쌍을 통해 학습합니다.
주요 접근법
- 행동 복제(BC) — (관찰, 행동) 쌍을 통한 지도 학습. 단순하지만 유통이 바뀌기 쉽습니다.
- 단검 — 반복적인 데이터 수집: 정책을 실행하고, 전문가의 수정을 받고, 재교육합니다. 유통 이동을 줄입니다.
- 역 강화 학습(IRL) — 데모에서 보상 기능을 추론한 후 정책을 최적화합니다.
관련 자료
- 오픈 소스 데이터 세트 — DROID, BridgeData, ALOHA, Open X-Embodiment
- 정책 모델 — ACT, 확산 정책, OpenVLA, Octo
- 데이터 서비스 — 귀하의 작업에 대해 학습 가능한 데모를 수집합니다.