Sim-to-Real 전송: 시뮬레이션에서 로봇을 훈련하고 실제 세계에 배포하는 방법

시뮬레이션 교육 및 실제 하드웨어 배포는 로봇 공학에서 가장 매력적인 아이디어 중 하나입니다. 무제한 데이터, 하드웨어 마모 없음, 병렬 교육입니다. 그러나 시뮬레이션과 현실 사이의 격차로 인해 많은 프로젝트가 위축되었습니다. 2026년에 작동하는 작업은 다음과 같습니다.

Sim-to-Real이 어려운 이유

시뮬레이터는 현실의 근사치입니다. 물리 엔진이 아무리 정교하더라도 간격이 있습니다. 시뮬레이션과 실제 엘라스토머 재료의 접촉 역학은 다르며, 액츄에이터 마찰과 백래시는 정확하게 모델링하기 어렵고, 카메라 렌더링은 실제 광학과 다르며, 공기 저항, 열팽창, 센서 소음과 같은 미묘한 세부 사항은 종종 무시되거나 단순화됩니다. 시뮬레이션으로 훈련된 정책이 실제 하드웨어에 배포되면 훈련 분포 외부에 있는 감각 입력과 물리적 반응을 만나 실패합니다.

시뮬레이션과 실제 간극의 심각도는 작업에 따라 다릅니다. 평평한 표면에서의 순수한 이동은 인상적인 결과를 통해 시뮬레이션에서 실제로 성공적으로 전송되었습니다(Boston Dynamics, ETH Zurich의 ANYmal 작업 및 OpenAI의 Rubik 큐브 실험 참조). 미세 조작(특히 변형 가능한 물체와의 접촉과 관련된 작업)은 접촉 물리학이 작업 성공에 중요하고 충실하게 시뮬레이션하기 어렵기 때문에 훨씬 더 어렵습니다.

도메인 무작위화

도메인 무작위화(DR)는 시뮬레이션과 실제 간 격차를 해소하기 위해 가장 널리 사용되는 기술입니다. 핵심 아이디어: 다양한 마찰 계수, 물체 질량, 액츄에이터 게인, 조명 조건 및 카메라 속성 등 광범위한 무작위 시뮬레이션 매개변수에 대해 훈련하는 경우 실제 세계는 이 분포의 또 다른 샘플이 됩니다. 광범위한 DR로 훈련된 정책은 단일 시뮬레이터 구성의 정확한 물리학을 활용할 수 없으므로 보다 강력한 표현을 개발해야 합니다.

효과적인 DR에는 올바른 매개변수를 무작위로 선택하는 것이 필요합니다. 모든 것을 균일하게 무작위화하는 것은 종종 비생산적입니다. 작업에 중요한 특정 격차를 반드시 메우지 않고도 학습 문제를 더 어렵게 만듭니다. 시뮬레이션과 실제 간의 격차를 경험적으로 프로파일링합니다. 실제 하드웨어에서 정책을 실행하고 오류 모드를 식별한 다음 오류를 일으킬 가능성이 가장 높은 시뮬레이션 매개변수를 무작위로 지정합니다. 조작 작업의 경우 접촉 강성, 마찰 및 물체 질량은 일반적으로 활용도가 가장 높은 무작위 축입니다.

물리학 충실도 및 시뮬레이터 선택

2026년 현재 NVIDIA Isaac Sim(PhysX 5를 기반으로 구축되었으며 현재 Omniverse 통합)은 충실도가 높은 로봇 시뮬레이션을 위한 최고의 선택입니다. GPU 가속 물리 엔진은 수천 개의 병렬 시뮬레이션 인스턴스를 지원하므로 복잡한 작업에서도 강화 학습을 쉽게 수행할 수 있습니다. Isaac Sim의 렌더링 품질은 렌더링된 이미지에 대해 훈련된 시각적 정책이 적당한 도메인 무작위화를 통해 실제 카메라로 전송할 수 있을 만큼 충분히 높습니다.

MuJoCo는 빠르고 정확한 접촉 물리학과 사전 구축된 환경의 광범위한 생태계로 인해 연구에 널리 사용되고 있습니다. 사실적인 렌더링이 필요하지 않은 조작 연구를 위한 표준 선택입니다. PyBullet은 설정하기 쉽지만 충실도가 낮아 신속한 프로토타이핑에 적합합니다. Gazebo/ROS 통합은 잘 확립되어 있지만 일반적으로 조작 연구를 위한 특수 시뮬레이터에 비해 물리 품질이 뒤떨어져 있습니다.

2026년의 성공적인 접근 방식

2026년에 여러 접근 방식이 신뢰할 수 있는 시뮬레이션-실제 전송을 입증했습니다. 훈련 중 특권 정보를 사용하여 이동을 위한 시뮬레이션(실제 물리적 상태에 액세스할 수 있는 교사 정책에서 학습한 후 센서 관찰만 사용하여 학생 정책으로 증류)은 다리가 있는 로봇의 표준 접근 방식이 되어 실제 하드웨어에서 거의 시뮬레이션에 가까운 성능을 달성합니다. 조작의 경우 시뮬레이션 사전 훈련과 소수의 실제 데모(보통 10~50개)를 결합하는 것이 매우 효과적인 것으로 입증되었습니다. 시뮬레이션 정책은 사전에 좋은 행동을 학습하고 실제 데모에서는 특정 격차를 처리하기 위해 이를 미세 조정합니다.

생성 시뮬레이션(대형 생성 모델을 사용하여 사실적인 렌더링 및 다양한 개체 구성을 포함하여 사실적인 합성 훈련 데이터를 생성)은 물리 기반 시뮬레이션의 강력한 보완책으로 등장했습니다. 1X Technologies 및 Physical Intelligence와 같은 회사는 생성 데이터 증강이 실제 정책 성과를 크게 향상한다는 결과를 발표했습니다.

프로젝트를 위한 실용적인 조언

시뮬레이션 교육에 투자하기 전에 시뮬레이션과 실제 간의 격차를 정량화하는 것부터 시작하십시오. 10번의 시도 동안 실제 하드웨어에서 시뮬레이션 학습 정책을 실행하고 실패 모드를 기록하십시오. 실패가 주로 시각적인 경우(정책이 개체를 올바르게 인식할 수 없음) 충실도 렌더링 및 시각적 도메인 무작위화에 중점을 둡니다. 오류가 동적인 경우(정책은 올바르게 인식할 수 있지만 잘못된 조치를 취함) 액츄에이터 모델링 및 접촉 물리학에 중점을 둡니다. 실패가 혼합된 경우 시뮬레이터를 개선하는 것보다 실제 데모를 수집하는 것이 더 많은 이점을 얻을 수 있습니다.

2026년 대부분의 조작 작업에 대해 SVRC는 하이브리드 접근 방식을 권장합니다. 시뮬레이션을 사용하여 다양한 사전 훈련 데이터와 대략적인 행동 초기화를 생성한 다음 다음을 사용하여 50-200개의 실제 데모를 수집합니다. 데이터 서비스 미세 조정을 위해. 이를 통해 실제 데이터의 충실도를 갖춘 시뮬레이션 범위를 제공합니다. 하드웨어가 실제 평가를 실행하려면 다음을 찾아보세요. 하드웨어 카탈로그 또는 로봇을 임대하다 파일럿 기간 동안.

관련된: 로봇 학습과 고전적 제어 · ACT 정책 설명 · 로봇 정책 일반화 · 데이터 서비스