정의
확산 정책은 작업 생성에 노이즈 제거 확산 확률 모델(DDPM)을 적용합니다. 단일 동작을 예측하는 대신 모델은 무작위 샘플을 반복적으로 동작 궤적으로 노이즈 제거합니다. 이를 통해 가능한 행동에 대한 다중 모드 분포를 캡처할 수 있습니다. 이는 여러 유효한 전략이 존재하는 접촉이 많은 조작에 중요합니다. 확산 정책은 양손 작업, 도구 사용 및 천 접기에서 강력한 결과를 보여주었습니다. 일반적으로 단일 단계 예측보다는 작업 청크(8~32개의 향후 작업 시퀀스)에서 작동합니다.
로봇 팀에 중요한 이유
실제 로봇 시스템을 구축하는 팀에게는 확산 정책을 이해하는 것이 필수적입니다. 데모 데이터를 수집하든, 시뮬레이션에서 정책을 교육하든, 프로덕션에 배포하든 이 개념은 작업 흐름과 시스템 설계에 직접적인 영향을 미칩니다.