로봇공학 용어집

모방 학습, VLA 모델, 원격 조작, 운동학 및 구현된 AI를 다루는 60개 이상의 용어가 연구원, 엔지니어 및 엔터프라이즈 팀을 위해 작성되었습니다.

65 자귀 A~Z 조직적인 업데이트됨 2026

A

ACT (트랜스포머를 이용한 액션 청킹)

ACT는 Tony Zhao 등이 소개한 모방 학습 알고리즘입니다. (2023)은 각 단계에서 단일 동작이 아닌 고정 길이의 미래 동작을 예측하기 위해 변환기 기반 정책을 훈련합니다. ACT는 한 번에 동작 시퀀스를 예측함으로써 단계별 동작 복제의 일반적인 복합 오류를 줄이고 시간적으로 일관된 동작을 생성합니다. 이 아키텍처는 CVAE 스타일 인코더를 통해 RGB 관찰 및 고유 감각 상태를 인코딩하고 변환기를 사용하여 동작 청크를 디코딩합니다. ACT가 시연되었습니다. ALOHA 가방 개봉, 계란 옮기기 등의 작업에서 강력한 성능을 발휘하는 이중 수동 플랫폼입니다. 참조: 액션 청킹(심층 다이브).

정책변신 로봇모방 학습

행동 공간

행동 공간은 로봇 정책이 각 단계에서 생성할 수 있는 완전한 출력 세트입니다. 로봇 팔의 경우 일반적으로 관절 위치, 관절 속도 또는 엔드 이펙터 자세(직교 위치 + 쿼터니언)가 포함됩니다. 모바일 로봇의 경우 휠 속도 또는 조향 명령이 포함됩니다. 행동 공간은 이산(유한한 행동 메뉴) 또는 연속(실수 값 벡터)으로 설명됩니다. 동작 공간의 차원성과 표현은 안정적인 정책을 훈련하는 것이 얼마나 쉬운지에 큰 영향을 미칩니다. 엔드 이펙터 델타 포즈 공간은 종종 모방 학습에 더 쉬운 반면, 조인트 토크 공간은 더 미세한 힘 제어를 제공하지만 더 신중한 정규화가 필요합니다.

정책제어

ALOHA (양방향 원격조종을 위한 저가형 오픈소스 하드웨어 시스템)

ALOHA는 스탠포드에서 개발된 오픈 소스 양방향 원격 조작 시스템으로, ViperX 300 로봇 팔 2개와 WidowX 250 리더 팔 2개가 통합 손목 카메라가 있는 공유 프레임에 장착되어 있습니다. 저렴한 비용으로 고품질 데모 데이터를 수집하도록 설계되었으며(원본 빌드 가격은 20,000달러 미만) ACT 정책 실험. 모바일 ALOHA는 바퀴 달린 베이스로 플랫폼을 확장하여 요리 및 청소와 같은 전신 이동 조작 작업을 가능하게 합니다. ALOHA 데이터세트는 공개적으로 이용 가능하며 양손 조작 연구를 위한 사실상의 벤치마크가 되었습니다. 자세히 알아보기 SVRC 데이터 서비스.

하드웨어원격조작양손

AMR (자율이동로봇)

자율 모바일 로봇은 SLAM, 경로 계획 및 장애물 회피 알고리즘과 결합된 온보드 센서(LiDAR, 카메라, IMU)를 사용하여 고정된 트랙이나 사람의 안내 없이 환경을 탐색합니다. 자기 띠를 따라가는 AGV(자동 가이드 차량)와 달리 AMR은 실시간으로 지도를 구축 및 업데이트하고 사람과 사물 주위로 동적으로 경로를 변경합니다. Boston Dynamics, Locus Robotics 및 6 River Systems와 같은 회사의 최신 창고 AMR은 물류 분야에서 광범위한 채택을 주도했습니다. AMR은 종종 조작기 암과 결합되어 모바일 조작기 대규모로 픽 앤 플레이스할 수 있습니다.

모바일 로봇공학항해SLAM

B

행동 복제 (기원전)

행동 복제는 가장 간단한 형태의 복제입니다. 모방 학습: 관찰된 각 상태에서 정책의 출력과 전문가의 행동 사이의 예측 오류를 최소화하여 전문가의 시연을 모방하도록 정책을 훈련하는 감독 회귀 문제입니다. BC는 구현하기 쉽고 데이터에 따라 잘 확장되지만 분배 변화 — 수정 피드백을 받지 못하기 때문에 작은 오류로 인해 로봇이 훈련 데이터에 없는 상태를 방문하게 되어 작업 실패로 이어질 수 있습니다. DAgger(Dataset Aggregation) 및 GAIL과 같은 기술은 BC의 복합 오류 문제를 해결하기 위해 특별히 개발되었습니다.

모방 학습지도 학습

이중 수동 조작

이중 수동 조작은 인간이 양손을 동시에 사용하는 것과 유사하게 두 개의 로봇 팔이 협력하여 작동하는 작업을 의미합니다. 예를 들어 세탁물 접기, 매듭 묶기, 병 열기, 한 손으로 고정하고 다른 손으로 미세한 작업을 수행해야 하는 부품 조립 등이 있습니다. 양손 작업은 팔 사이의 물리적 제약을 존중하면서 정책이 두 개의 고차원 작업 흐름을 조정해야 하기 때문에 단일 팔 작업보다 훨씬 더 어렵습니다. 그만큼 ALOHA 플랫폼은 이중 수동 데모를 수집하기 위해 특별히 제작되었으며, ACT 양손 제어를 위한 주요 정책 중 하나입니다.

시장 조작하드웨어

BOM (재료 명세서)

로봇 하드웨어에서 BOM에는 시스템을 구축하는 데 필요한 모든 구성 요소, 하위 어셈블리, 부품 번호, 수량 및 단가가 나열되어 있습니다. 정확한 BOM은 생산 확장, 조달, 공급망 위험 관리 및 비용 모델링에 매우 중요합니다. OpenArm 또는 ALOHA와 같은 오픈 소스 로봇 플랫폼의 경우 게시된 BOM을 통해 외부 팀이 독점 종속성 없이 하드웨어를 재현할 수 있습니다. 로봇 배포를 평가하는 기업 팀은 임대 또는 서비스형 로봇 대안에 대한 총 소유 비용을 벤치마킹하기 위해 BOM을 요청하는 경우가 많습니다. 비교 SVRC 임대 옵션.

하드웨어조작

C

데카르트 공간 (작업 공간)

데카르트 공간(작업 공간 또는 작동 공간이라고도 함)은 일반적으로 (x, y, z, 롤, 피치, 요) 또는 (x, y, z, 쿼터니언)으로 표현되는 세계 또는 기본 프레임을 기준으로 엔드 이펙터의 위치 및 방향 측면에서 로봇의 구성을 설명합니다. 데카르트 공간에서 로봇을 제어하는 것은 인간의 시연이 엔드 이펙터 궤적에 자연스럽게 매핑되기 때문에 모방 학습에 더 직관적인 경우가 많습니다. 변환에서 공동 공간 데카르트 공간으로 호출됩니다. 순운동학; 그 반대는 역기구학.

운동학제어

공동 훈련

로봇 공학에서의 공동 훈련은 여러 로봇 구현, 작업 또는 환경의 데이터에 대한 단일 정책을 동시에 훈련하는 것을 의미합니다. 가설은 다양한 데이터 소스가 새로운 설정에 더 잘 전달되는 강력한 시각적 및 행동적 표현을 정책에 가르친다는 것입니다. 그만큼 X 구현 열기 데이터 세트는 22개 이상의 로봇 유형에 걸쳐 공동 훈련을 가능하게 하기 위해 특별히 수집되었습니다. RT-2 및 OpenVLA와 같은 대규모 기초 모델은 일반화를 부트스트랩하기 위해 로봇 데모 데이터와 함께 인터넷 규모의 비전 언어 데이터를 사용한 공동 훈련에 의존합니다.

훈련일반화기초 모델

접촉이 풍부한 조작

접촉이 많은 조작 작업은 페그인홀 삽입, 볼트 조이기, 천 접기 또는 반죽 반죽과 같이 로봇과 환경 사이의 의도적이고 지속적인 접촉이 작업 성공에 필수적인 작업입니다. 작은 위치 오류로 인해 큰 힘 스파이크가 발생하고 뻣뻣한 위치 컨트롤러로 인해 부품이 손상되거나 로봇이 불안정해질 수 있기 때문에 이러한 작업은 어렵습니다. 성공적인 접근 방식은 규정 준수 제어(임피던스 또는 어드미턴스 제어), 힘-토크 감지, 접촉을 예측하고 활용하는 정책을 배웠습니다.

시장 조작제어힘 감지

지속적인 제어

연속 제어는 개별 동작 세트에서 선택하는 대신 실제 값 동작 벡터(예: 관절 토크, 속도 또는 데카르트 델타)를 출력하는 로봇 정책을 의미합니다. 대부분의 물리적 로봇 조작 작업에는 부드럽고 정확한 동작이 유한한 동작 메뉴로 적절하게 표현될 수 없기 때문에 지속적인 제어가 필요합니다. 지속적인 제어를 위한 표준 심층 RL 알고리즘에는 DDPG, TD3 및 SAC가 포함됩니다. 모방 학습, 행동 복제 및 확산정책 연속적인 행동 공간에서 일반적으로 사용됩니다.

제어강화 학습

D

데이터 증대 (로봇공학용)

로봇 학습의 데이터 증대는 훈련 관찰에 무작위 변환을 적용하여 추가 데모를 수집하지 않고도 정책 견고성을 향상시킵니다. 일반적인 이미지 확대에는 무작위 자르기, 색상 지터, 가우시안 흐림 및 컷아웃이 포함됩니다. 보다 정교한 증강은 산만한 배경을 오버레이하거나, 조명 조건을 변경하거나, 센서 노이즈를 주입하여 훈련 환경의 특정 시각적 기능에 대한 과적합을 방지합니다. 일부 접근법은 행동을 강화하기도 합니다. 예를 들어, 섭동으로부터 회복하는 정책을 가르치기 위해 공동 궤적에 노이즈를 추가하는 등의 방법이 있습니다. 학습 데이터의 비용이 높을 때(각 데모에는 작업자의 시간이 필요함) 증강은 특히 중요합니다.

훈련견고성데이터

자유도 (DOF)

자유도는 기계 시스템의 구성을 지정하는 데 필요한 독립적인 매개변수의 수를 나타냅니다. 6개의 회전 관절이 있는 로봇 팔에는 6개의 DOF가 있습니다. 이는 도달 가능한 작업 공간(특이점 제외) 내에서 엔드 이펙터를 임의로 배치하고 방향을 지정하기에 충분합니다. 7-DOF 암은 장애물 회피 또는 편안한 자세를 위한 널 공간 최적화를 허용하는 하나의 중복 조인트를 추가합니다. 인간의 팔은 어깨-팔꿈치-손목 체인에서 대략 7 DOF를 가지므로 7-DOF 로봇은 의인화 조작을 위한 자연스러운 선택이 됩니다. 이동식 기지는 2~3 DOF를 추가합니다. 완전한 휴머노이드는 30 DOF를 초과합니다.

운동학하드웨어

데모

데모(모방 학습 맥락에서 궤적 또는 에피소드라고도 함)는 작업 수행 방법을 보여주는 인간 또는 전문가 컨트롤러가 제공하는 관찰 및 작업의 기록된 시퀀스입니다. 데모는 행동 복제 및 기타 모방 학습 알고리즘의 기본 데이터 소스입니다. 다음을 통해 수집할 수 있습니다. 원격조종, 운동 감각 교육, 또는 모션 캡처. 데이터 품질(부드러운 동작, 일관된 작업 실행, 작업 상태 공간의 적절한 적용 범위)은 다운스트림 정책 성능의 양만큼 중요합니다. SVRC는 당사를 통해 생산 품질의 로봇 시연을 수집합니다. 데이터 서비스.

데이터모방 학습

확산정책

Chi 등이 소개한 확산 정책. (2023)은 이미지 생성에 사용되는 생성 모델과 동일한 클래스인 노이즈 제거 확산 프로세스로 로봇 동작 생성을 공식화합니다. 추론 시 정책은 학습된 점수 네트워크(일반적으로 CNN 또는 변환기)를 사용하여 가우스 노이즈 샘플을 현재 관찰에 따른 일련의 작업으로 반복적으로 구체화합니다. 결정론적 행동 복제와 비교하여 확산 정책은 자연스럽게 다음을 나타냅니다. 다중 모드 작업 분포(작업을 수행하는 여러 가지 유효한 방법)를 수행하고 접촉이 많은 조작 벤치마크에서 최첨단 결과를 얻습니다. 참조 자세한 기사.

정책생성 모델모방 학습

교묘한 조작

능숙한 조작은 손으로 다시 잡기, 손가락 끝으로 물체 굴리기, 카드 다루기, 외과적 봉합 및 유사한 작업 등 로봇 손의 전체 운동학 및 감각 기능을 활용하는 미세한 여러 손가락 조작 작업을 의미합니다. 손재주에는 높은 수준의 기술이 필요합니다.DOF 엔드 이펙터(각각 3개 이상의 관절이 있는 5개 이상의 손가락), 조밀한 촉각 감지 및 복잡한 접촉 기하학을 추론할 수 있는 정책. 시뮬레이션(예: OpenAI의 Dactyl) 및 최근 확산 기반 정책으로 훈련된 강화 학습은 한계를 뛰어넘었지만 인간 수준의 신뢰성에 대한 능숙한 조작은 여전히 공개 연구 문제로 남아 있습니다.

시장 조작하드웨어연구 프론티어

E

구체화된 AI

구체화된 AI(Embodied AI)는 순수하게 텍스트나 이미지만으로 작동하는 것이 아니라, 현실 세계에 위치한 물리적 신체를 통해 인식하고 행동하는 인공지능 시스템을 의미합니다. 체현 가설은 진정한 지능에는 감각 운동 기반, 즉 정적 데이터 세트의 패턴 매칭뿐만 아니라 상호 작용을 통한 학습이 필요하다고 주장합니다. 실제로 구현된 AI 연구에는 로봇 학습, VLA 모델, 시뮬레이션-실제 전송 및 물리적 기반 모델. Google DeepMind(RT 시리즈), Physical Intelligence(pi0) 및 NVIDIA(GR00T)와 같은 회사가 주요 산업 동인입니다. SVRC 자체의 데이터 플랫폼 구현된 AI 데이터 워크플로우를 위해 구축되었습니다.

기초 모델물리적 AI

엔드 이펙터

엔드 이펙터는 환경과 직접 상호 작용하는 로봇 팔의 말단부에 있는 장치입니다. 평행 조 그리퍼, 흡입 컵, 여러 손가락 손, 용접 토치, 페인트 노즐 또는 작업별 도구일 수 있습니다. 엔드 이펙터의 자세(공간에서의 위치와 방향)는 대부분의 조작 정책에 대한 기본 제어 출력입니다. 도구 중심점(TCP)은 데카르트 제어에 사용되는 엔드 이펙터의 기준점입니다. 올바른 엔드 이펙터를 선택하는 것은 중요한 배포 결정입니다. 하나의 객체 클래스(예: 단단한 상자)에 최적화된 그리퍼는 부드럽거나 불규칙한 항목에서 실패할 수 있습니다. 먹다 SVRC 하드웨어 옵션.

하드웨어시장 조작

삽화

에피소드는 초기 상태부터 작업 성공, 실패 또는 시간 초과까지 작업에 대한 단일의 완전한 시도입니다. 강화 학습에서는 에이전트가 한 에피소드 동안 환경과 상호 작용하고 보상을 축적한 후 환경이 재설정됩니다. 모방 학습에서는 녹음된 각 시연이 하나의 에피소드로 구성됩니다. 에피소드는 로봇 학습 데이터 세트의 기본 단위입니다. 1,000개의 에피소드로 구성된 데이터 세트에는 관련 관찰, 작업 및 결과가 포함된 1,000개의 작업 시도가 포함되어 있습니다. 일관된 데이터 수집을 보장하려면 에피소드 길이, 재설정 조건 및 성공 기준을 정확하게 정의해야 합니다.

데이터강화 학습모방 학습

외인성 (카메라)

카메라 외부 요소는 기준 프레임(일반적으로 로봇 베이스 또는 엔드 이펙터)을 기준으로 카메라의 위치와 방향(6-DOF 포즈)을 정의합니다. 내부 매개변수(초점 거리, 주점, 렌즈 왜곡)와 함께 외부 기능을 사용하면 3D 세계 점을 이미지 평면에 투영하고 반대로 2D 감지를 3D 공간으로 끌어올릴 수 있습니다. 일관된 좌표계에서 시각적 관찰을 로봇 동작에 매핑해야 하는 시각 운동 정책에는 정확한 외부 보정이 중요합니다. Eye-in-hand(손목 장착형) 카메라는 엔드 이펙터 또는 카메라를 교체할 때 재보정이 필요합니다.

지각구경 측정

F

힘 토크 센서 (FT 센서)

힘-토크 센서는 로봇의 손목이나 엔드 이펙터에 적용된 6축 렌치(세 개의 힘 Fx, Fy, Fz 및 세 개의 토크 Tx, Ty, Tz)를 측정합니다. FT 센서는 순수한 위치 제어가 접촉을 놓치거나 과도한 힘을 가하는 접촉이 많은 조립 작업에 필수적입니다. 임피던스 및 어드미턴스 제어 루프를 활성화하고 미끄러짐 및 충돌을 감지하며 학습된 정책에 대한 풍부한 감각 입력을 제공합니다. ATI와 Robotiq의 고정밀 FT 센서는 연구실의 표준입니다. MEMS 기반 저비용 센서는 생산 배포에 점점 더 적합해졌습니다.

하드웨어감지제어

기초 모델 (로봇공학)

기초 모델은 미세 조정이나 프롬프트를 통해 많은 다운스트림 작업에 적용할 수 있는 광범위하고 다양한 데이터에 대해 사전 훈련된 대규모 신경망입니다. 로봇 공학에서 기초 모델은 일반적으로 동작 출력으로 확장된 대규모 VLM(비전 언어 모델)입니다. VLA또는 교차 구현 데이터 세트에 대해 훈련된 대규모 시각 운동 정책. 예로는 RT-2(Google DeepMind), OpenVLA, Octo 및 pi0(Physical Intelligence)이 있습니다. 로봇 공학을 위한 기초 모델은 인터넷 규모의 사전 학습을 활용하고, 언어 조절을 지원하고, 작업별로 처음부터 재학습하지 않고도 작업 전반에 걸쳐 일반화할 수 있다는 점에서 매력적입니다. 보다 SVRC 모델 카탈로그.

VLA사전 훈련일반화

순운동학 (FK)

순운동학은 로봇의 관절 각도(또는 프리즘형 관절의 변위)를 고려하여 데카르트 공간에서 엔드 이펙터의 자세를 계산합니다. 직렬 체인 로봇의 경우 FK는 일반적으로 Denavit-Hartenberg(DH) 매개변수 또는 URDF 설명에서 파생된 일련의 동종 변환 행렬(조인트당 하나)을 곱하여 계산됩니다. FK는 반대 문제와는 달리 항상 관절 각도가 주어지면 엔드 이펙터 포즈가 정확히 하나인 고유한 솔루션을 가지고 있습니다.IK)에는 해가 없거나 1개 또는 여러 개 있을 수 있습니다. FK는 시뮬레이션, 충돌 검사, 시각화 및 실시간 로봇 상태 모니터링에 사용됩니다.

운동학제어

G

일반화 (로봇 정책)

일반화는 훈련 중에 보지 못한 객체, 장면 또는 작업에 대해 로봇 정책이 얼마나 잘 수행되는지를 측정합니다. 이는 로봇 학습의 핵심 과제입니다. 훈련 시연을 기억하지만 새로운 사례에서 실패하는 정책은 실질적인 가치가 없습니다. 연구자들은 객체 일반화(알려진 범주의 새로운 사례), 범주 일반화(완전히 새로운 객체 클래스) 및 작업 일반화(새로운 지침 문구 또는 목표 구성)를 구별합니다. 일반화를 개선하려면 일반적으로 더 크고 다양한 훈련 데이터, 인터넷 데이터와의 공동 훈련, 시뮬레이션의 도메인 무작위화 및 기초 모델 사전.

정책연구 프론티어

쥐는 자세

파악 자세는 그리퍼가 물체를 닫고 안전하게 잡을 수 있도록 물체를 기준으로 로봇 손이나 그리퍼의 6-DOF 위치와 방향을 지정합니다. 파악 자세 추정은 일반적으로 분석 방법(예: 대척점 파악 샘플링)이나 GraspNet-1Billion, GQ-CNN 또는 AnyGrasp와 같은 학습된 탐지기를 사용하여 깊이 또는 포인트 클라우드 데이터에서 수행됩니다. 유효한 파악 자세는 로봇이 도달할 수 있어야 하고 접근 중에 충돌이 없어야 하며 예상되는 작업 부하에서 안정적이어야 합니다. 파악 품질 지표에는 강제 폐쇄, 접촉 안정성 및 작업별 렌치 저항이 포함됩니다.

시장 조작지각

그리퍼

그리퍼는 가장 일반적인 로봇 종류입니다. 엔드 이펙터, 물체를 잡고 고정하도록 설계되었습니다. 평행 조 그리퍼는 모터 또는 공압 장치에 의해 구동되는 두 개의 반대쪽 핑거가 있는 가장 간단하고 가장 널리 사용됩니다. 흡입 그리퍼는 진공을 사용하여 부드럽고 평평한 표면을 집어냅니다. 소프트 그리퍼는 규정을 준수하는 재료(실리콘, 직물)를 사용하여 불규칙한 물체에 맞게 조정됩니다. 여러 손가락 손(3~5개 손가락) 사용 가능 능숙한 조작 하지만 통제하기가 더 어렵고 비용도 더 많이 듭니다. 그리퍼 선택은 물체의 기하학적 구조, 표면 특성, 필요한 페이로드 및 손에 있는 방향 조정이 필요한지 여부에 따라 크게 달라집니다.

하드웨어엔드 이펙터

H

HDF5 (계층적 데이터 형식 v5)

HDF5는 대규모의 구조화된 과학 데이터세트를 효율적으로 저장하고 액세스하기 위한 바이너리 파일 형식이자 라이브러리입니다. 로봇 공학에서 HDF5는 로봇 데모 데이터 세트를 위한 표준 컨테이너입니다. 단일 파일은 동기화된 카메라 이미지, 관절 각도, 그리퍼 상태, 힘 판독값 및 메타데이터를 계층적 그룹에 저장하고 청크 I/O를 통해 훈련 중에 빠른 무작위 액세스를 가능하게 합니다. LeRobot과 ALOHA 생태계는 모두 기본적으로 HDF5를 사용합니다. 대안 자르 format은 동시 쓰기를 더 효과적으로 지원하는 클라우드 기반 청크 분할 스토리지를 제공합니다. SVRC 데이터 수집 파이프라인 기본적으로 HDF5를 출력합니다.

데이터저장공학

휴머노이드 로봇

휴머노이드 로봇은 인간과 대체로 유사한 신체 구조(일반적으로 몸통, 다리 2개, 팔 2개, 머리 1개)를 갖고 있어 인간을 위해 설계된 환경에서 작동하고 인간 도구를 사용할 수 있습니다. 주목할만한 휴머노이드는 Boston Dynamics Atlas, Agility Robotics Digit, Figure 01 및 Tesla Optimus를 포함합니다. 휴머노이드는 극단적인 엔지니어링 과제를 제시합니다. 이족 보행에는 실시간 균형 제어가 필요하고 운동 조작 작업 요구 사항에 대해 30+ DOF 조정이 필요합니다. 전신 조절. 이러한 복잡성에도 불구하고 휴머노이드는 인프라 변경 없이 폼 팩터가 다양한 작업장에 걸쳐 일반화되기 때문에 막대한 투자를 유치하고 있습니다.

하드웨어운동양손

인간-로봇 상호작용 (HRI)

인간-로봇 상호작용은 사람과 로봇이 물리적 공간을 효과적이고 안전하게 통신하고, 협력하고, 공유하는 방법을 연구하는 학제간 분야입니다. HRI 연구는 안전 표준(협동 로봇을 위한 ISO/TS 15066), 원격 조작을 위한 사용자 인터페이스 설계, 자연어 지시, 읽을 수 있는 로봇 모션(방관자가 로봇 의도를 읽을 수 있도록 만들기), 소셜 로봇공학(비언어적 의사소통을 위한 응시, 제스처 및 음성 사용)을 포괄합니다. 산업용 협동로봇 배치에서 HRI는 작업자가 로봇을 수용하고 효과적으로 사용하는지 여부를 직접 결정합니다. 좋은 HRI 설계는 사고를 줄이고, 처리량을 향상시키며, 인간 측의 훈련 부담을 줄여줍니다.

안전협동

I

모방 학습 (IL)

모방 학습은 공학적 보상 기능이 아닌 인간의 시연을 통해 로봇 정책을 훈련하는 기계 학습 방법 계열입니다. 가장 간단한 형태는 행동 복제 (상태-행동 쌍에 대한 감독 회귀). 보다 발전된 변형인 DAgger(반복 수정), GAIL(적대적 모방) 및 IRL(보상 기능 복구)은 순수 BC를 괴롭히는 분포 변화 및 보상 사양 문제를 해결합니다. IL은 복잡한 조작에 대한 보상 엔지니어링이 극히 어려운 반면 인간 시연을 수집하는 것은 대규모로 다루기 쉽기 때문에 능숙한 조작을 가르치는 지배적인 패러다임이 되었습니다. 원격조종. 참조 전체 심층 기사.

핵심 개념정책데이터

역운동학 (나)

역운동학은 로봇의 엔드 이펙터를 원하는 데카르트 자세에 배치하는 관절 각도를 해결합니다. 같지 않은 순운동학, IK는 로봇의 운동학적 구조와 대상 포즈에 따라 0개, 1개 또는 무한히 많은 솔루션을 가질 수 있습니다. 표준 6-DOF 구성을 위한 분석 IK 솔버가 있습니다. 수치 방법(Jacobian pseudo-inverse, Newton-Raphson, 최적화 기반)은 임의의 형상과 중복 로봇을 처리합니다. IK는 동작 계획, 원격 조작 매핑(작업자의 손 자세를 관절 명령으로 변환) 및 모든 데카르트 공간 컨트롤러에 사용됩니다. KDL, IKFast 및 track-ik과 같은 라이브러리는 일반적으로 ROS 환경에서 사용됩니다.

운동학제어계획

아이작 심

NVIDIA Isaac Sim은 Omniverse USD 프레임워크를 기반으로 구축된 로봇 공학 시뮬레이션 플랫폼으로, 충실도가 높은 물리학(PhysX 5를 통해), 사실적인 렌더링(RTX 경로 추적을 통해) 및 ROS 2 통합을 즉시 제공합니다. 이는 합성 훈련 데이터 생성, 로봇 정책 테스트, 시뮬레이션-실제 전송 연구를 위해 특별히 제작되었습니다. Isaac Sim은 대규모로 텍스처, 조명, 개체 포즈의 도메인 무작위화를 지원하고 NVIDIA의 Isaac Lab 강화 학습 프레임워크와 통합됩니다. GPU 가속 물리학을 통해 수천 개의 병렬 시뮬레이션 인스턴스로 RL 정책을 교육할 수 있습니다. 자세한 내용은 다음에서 확인하세요. SVRC Isaac Sim 리소스 페이지.

시뮬레이션합성 데이터도구

J

공동 공간 (구성 공간)

관절 공간(구성 공간 또는 C 공간이라고도 함)은 로봇에 대해 가능한 모든 관절 각도 벡터의 공간입니다. 관절 공간의 한 지점은 로봇의 전체 구성을 고유하게 지정합니다. RRT 및 PRM과 같은 모션 계획 알고리즘은 조인트 공간에서 작동하여 구성 간 충돌 없는 경로를 찾습니다. 왜냐하면 충돌 검사가 데카르트 공간보다 더 간단하기 때문입니다. 많은 RL 정책은 공동 공간에서 직접 공동 위치 또는 속도를 출력하는 반면, 모방 학습 정책은 종종 데카르트 공간 인간-시연자 정렬을 더 쉽게 하기 위해. 참조 공동 공간 기사.

운동학계획

조인트 토크

관절 토크는 모터가 로봇 관절에 적용하는 회전력으로 뉴턴미터(Nm) 단위로 측정됩니다. 토크 제어 로봇(위치 제어 로봇과 반대)은 접촉력을 직접 조절할 수 있어 밀 때 양보하고 조립력을 정밀하게 제어하는 등의 규정 준수 동작을 가능하게 합니다. 각 관절의 토크 감지는 Franka Panda, Universal Robots UR 시리즈, Kuka iiwa와 같은 협동 로봇(코봇)의 핵심 기능으로, 안전한 인간-로봇 협업 및 전신 순응 제어를 가능하게 합니다. 위치가 아닌 관절 토크를 출력하는 정책을 학습하려면 불안정한 진동을 피하기 위해 세심한 훈련이 필요합니다.

제어하드웨어힘

K

운동학적 체인

운동학적 체인은 로봇의 기계적 구조를 함께 형성하는 관절로 연결된 일련의 강체 링크입니다. 개방형 체인(직렬 로봇 팔)에는 한쪽 끝(엔드 이펙터)이 있어 FK를 간단하게 만듭니다. 닫힌 체인(병렬 로봇, 헥사포드)에는 더 높은 강성과 속도를 제공하지만 더 복잡한 운동학이 필요한 여러 루프가 있습니다. 운동학적 체인은 로봇의 작업 공간, 특이점 및 데카르트 제어에 사용되는 야코비 행렬을 결정합니다. URDF 파일은 운동학적 체인을 시뮬레이션 및 제어 소프트웨어의 링크 및 조인트 트리로 설명합니다.

운동학역학

운동감각 교육

운동 감각 교육(코로 이끌기 또는 직접 안내라고도 함)은 로봇이 궤적을 기록하는 동안 인간이 로봇 팔을 물리적으로 잡고 원하는 동작 경로를 통해 움직이는 로봇 프로그래밍 방법입니다. 작업자가 최소한의 노력으로 로봇을 이동할 수 있도록 로봇은 백드라이브(낮은 관절 마찰 및 컴플라이언스)가 가능해야 합니다. 운동감각 교육은 직관적이고 외부 하드웨어가 필요하지 않지만 조작자가 물리적으로 시연할 수 있는 작업으로 제한되며 카메라가 공동 기록되지 않는 한 고유 감각 데이터(손목 카메라 관찰 없음)만 생성합니다. Franka Panda와 같은 토크 제어 로봇의 중력 보상 모드는 운동 감각 교육을 실용적으로 만듭니다.

데이터 수집모방 학습

L

언어 조건 정책

언어 조건 정책은 시각적 관찰과 함께 자연어 지침(예: "빨간 컵을 집어 트레이에 놓기")을 추가 입력으로 사용하여 단일 정책 네트워크가 재교육 없이 런타임에 선택된 여러 작업을 수행할 수 있도록 합니다. 언어 조절은 일반적으로 사전 학습된 언어 모델(CLIP, T5, PaLM)을 사용하여 명령을 인코딩하고 결과 임베딩을 이미지 기능과 융합하여 구현됩니다. VLA 모델 RT-2, OpenVLA 및 pi0과 같은 언어는 설계에 따라 언어 조절됩니다. 이 접근 방식은 작업별로 별도의 정책을 교육할 필요성을 줄이고 새로운 지침 문구에 대한 제로샷 일반화를 지원합니다.

VLA기초 모델일반화

잠재 공간

잠재 공간은 신경망에서 학습한 데이터의 압축된 저차원 표현입니다. 즉, 관찰의 작업과 가장 관련된 특징을 포착하는 인코더의 출력입니다. 로봇 학습에서 잠재 공간은 시각적 장면의 구조화된 표현을 학습하기 위한 VAE(변이 자동 인코더), 미래 상태 예측을 위한 세계 모델 및 다중 모드 동작 분포를 인코딩하기 위한 CVAE 기반 정책(예: ACT)에 사용됩니다. 잘 구조화된 잠재 공간은 의미상 유사한 관찰을 서로 가깝게 배치하여 원시 픽셀 공간이 아닌 잠재 도메인에서 보간, 계획 및 데이터 증대를 가능하게 합니다.

표현 학습정책

르로봇

LeRobot은 Hugging Face의 로봇 학습을 위한 오픈 소스 라이브러리로, 모방 학습 알고리즘의 표준화된 구현을 제공합니다(ACT, 확산정책, TDMPC), 통합 데이터 세트 형식, 시각화 도구 및 사전 훈련된 모델 가중치입니다. 이는 Transformers가 NLP를 위해 수행한 것과 유사한 단일 응집력 있는 프레임워크를 제공하여 로봇 학습 연구에 대한 진입 장벽을 낮추는 것을 목표로 합니다. LeRobot은 데이터세트 및 모델 공유를 위해 Hugging Face Hub와 통합되며 시뮬레이션(체육관-로봇공학, MuJoCo) 및 물리적 로봇 환경을 모두 지원합니다. 이와 함께 동반자 SO-100 저가 로봇 키트도 출시됐다.

도구오픈 소스모방 학습

LeRobot HF 데이터 세트

LeRobot 데이터 세트 형식은 Hugging Face Hub에서 호스팅되는 로봇 데모 데이터에 대한 표준화된 스키마입니다. 각 데이터 세트는 Parquet 파일(스칼라 시계열: 공동 위치, 작업, 보상, 완료 플래그용)과 카메라 스트림용 압축 MP4 비디오 청크로 구성되며 모두 에피소드 및 프레임별로 색인이 지정됩니다. 에이 meta/info.json 파일에는 정규화에 사용되는 카메라 이름, 로봇 유형, fps 및 데이터 통계가 설명되어 있습니다. 이 형식을 사용하면 모든 LeRobot 호환 알고리즘이 단일 코드 줄로 게시된 데이터세트를 로드할 수 있으므로 신속한 데이터세트 간 실험이 가능합니다. 수십 개의 조작 및 모바일 조작 데이터 세트가 이미 이 형식으로 게시되었습니다.

데이터기준오픈 소스

M

시장 조작

조작(Manipulation)은 따기, 놓기, 조립, 접기, 삽입하기, 붓기 및 유사한 작업 등 물체와의 의도적인 물리적 상호 작용을 의미합니다. 로봇 조작은 구현된 AI에서 가장 활발한 연구 분야 중 하나입니다. 간단한 일상 작업(식기세척기 넣기, 패키지 열기)에도 풍부한 인식, 정밀한 모터 제어 및 강력한 파악 계획이 필요하기 때문입니다. 조작의 어려움은 고정된 설정에서 알려진 객체를 사용하는 간단한 선택 및 배치부터 접촉이 많은 조립을 통해 구조화되지 않은 장면에서 새로운 객체를 사용하여 완전히 손으로 방향을 바꾸는 것까지 확장됩니다. SVRC 데이터 서비스 훈련과 평가를 위한 조작 시연 수집을 전문으로 합니다.

핵심 개념일

무브잇

MoveIt은 원래 Willow Garage에서 개발되었으며 현재는 PickNik Robotics에서 유지 관리하는 로봇 팔을 위한 가장 널리 사용되는 오픈 소스 동작 계획 프레임워크입니다. MoveIt 2는 ROS 2에서 실행되며 플래너(OMPL, CHOMP, PILZ), 데카르트 궤적 계획, MoveIt의 계획 장면에 대한 충돌 검사, 운동학 플러그인(KDL, IKFast, TracIK) 및 파악 계획 통합을 제공합니다. 이는 원하는 엔드 이펙터 포즈 또는 웨이포인트를 출력하는 로봇 학습 정책과 물리적 로봇에서 부드럽고 충돌 없는 궤적을 실행하는 하위 수준 조인트 컨트롤러 사이의 표준 미들웨어 계층입니다.

도구계획ROS

다중 작업 학습

다중 작업 학습은 작업 전반에 걸쳐 학습된 공유 표현이 각 개별 작업의 성능을 향상시키고 새로운 작업에 대한 일반화를 가능하게 한다는 기대와 함께 동시에 여러 개별 작업의 시연에 대한 단일 정책을 교육합니다. 로봇 공학에서 이는 다양한 물체, 목표 및 환경을 갖춘 수백 가지 작업에 대한 훈련을 의미하는 경우가 많습니다. 핵심 과제는 다양한 작업(그라디언트 간섭)의 그라데이션 기여도의 균형을 맞추고 정책이 추론 시 작업을 구별할 수 있도록 하는 것입니다. 일반적으로 언어 조절 또는 원-핫 작업 식별자를 통해 이루어집니다. 다중 작업 정책은 범용 로봇 보조원의 전제 조건입니다.

정책일반화훈련

N

신경 정책

신경 정책은 관찰(이미지, 고유 감각, 언어)을 행동(관절 위치, 데카르트 델타, 그리퍼 명령)에 직접 매핑하는 신경 네트워크에 의해 매개변수화된 로봇 제어 정책입니다. 기존 모션 계획 파이프라인과 달리 신경 정책은 수동으로 엔지니어링된 중간 표현 없이 데이터에서 엔드투엔드 매핑을 학습합니다. 최신 신경 정책은 비전을 위한 컨벌루션 인코더, 시퀀스 모델링을 위한 변환기, 동작 생성을 위한 ACT, 확산 정책 또는 VLA 백본과 같은 아키텍처를 사용합니다. 신경 정책의 주요 속성은 시연이나 보상 신호를 통해 훈련할 수 있어 직접 코딩한 컨트롤러로는 너무 복잡한 작업을 처리할 수 있다는 것입니다.

정책딥러닝

인간 조작(Non-prehensile Manipulation)

잡을 수 없는 조작이란 물체를 잡지 않고 물체를 조작하는 것을 의미합니다. 대신 중력과 표면 마찰을 활용하는 밀기, 구르기, 회전, 뒤집기, 기울이기 또는 기타 접촉 전략을 사용합니다. 예를 들어, 테이블 위로 상자를 밀어서 위치를 정하거나, 나무못을 집어들기 전에 똑바로 세우는 것입니다. 비잡기 전략은 물체를 잡을 수 있는 구성으로 이동하거나, 잡기에 너무 큰 항목의 위치를 변경하거나, 잡기 접근 방식이 불가능한 어수선한 장면에서 작업할 수 있습니다. 잡을 수 없는 동작을 계획하려면 준정적 또는 동적 개체 역학과 접촉 물리학을 모델링해야 하므로 조작과 동작 계획의 교차점에서 활발한 연구 주제가 됩니다.

시장 조작계획

O

관찰 공간

관찰 공간은 각 시간 단계에서 로봇 정책에 사용할 수 있는 모든 센서 입력을 정의합니다. 일반적인 양식에는 손목 또는 오버헤드 카메라의 RGB 이미지, 구조광 또는 스테레오 센서의 깊이 맵, 고유 감각 상태(관절 위치, 속도, 토크), 그리퍼 상태, 엔드 이펙터 자세, 촉각 판독 및 언어 임베딩 또는 목표 이미지와 같은 작업 사양 입력이 포함됩니다. 관찰 공간 설계는 정책 성과 및 일반화에 큰 영향을 미칩니다. 관찰이 풍부할수록 더 많은 정보를 전달하지만 모델 복잡성, 훈련 시간 및 관련 없는 시각적 특징에 대한 과적합 위험이 증가합니다.

지각정책

개루프 제어

개방 루프 제어는 실행 중에 센서 피드백을 사용하지 않고 미리 계획된 궤적을 실행합니다. 로봇은 실제로 일어나는 일에 관계없이 명령된 위치나 속도를 따릅니다. 이는 CNC 가공이나 고정 컨베이어에서의 픽 앤 플레이스 등 통제된 환경에서 반복성이 높은 작업에 적합합니다. 개루프 제어는 빠르고 간단하지만 장애가 발생하면 교정 조치가 취해지지 않기 때문에 실패합니다. 이와 대조적으로 폐쇄 루프(피드백) 제어는 실제 상태를 원하는 상태와 지속적으로 비교하고 수정 명령을 적용하므로 다양한 환경에서 로봇 학습에 훨씬 더 강력합니다.

제어

X 구현 열기

Open X-Embodiment(OXE)는 Google DeepMind와 33개 연구 기관이 수집한 대규모 로봇 데모 데이터세트로, 22개의 다양한 로봇 구현과 527개 이상의 기술로 구성된 100만 개가 넘는 로봇 에피소드로 구성되어 있습니다. 가능하도록 만들어졌습니다. 공동 훈련 다양한 실시예에 걸쳐 - 다양한 로봇 경험이 단일 로봇 데이터 세트만 사용하는 것보다 더 풍부한 조작 표현을 가르친다는 가설입니다. OXE에 대해 훈련된 모델인 RT-X는 단일 구현 기준선에 비해 실시예 전반에 걸쳐 긍정적인 전송을 보여주고 보류 작업에 대한 성능이 향상되었습니다. OXE 데이터는 공개적으로 이용 가능하며 교차 구현 로봇 연구의 물결을 촉진했습니다.

데이터세트기초 모델다중 구현

P

유효 탑재량

페이로드는 로봇 팔이 정격 위치 정확도와 동적 성능을 유지하면서 운반할 수 있는 최대 질량(엔드 이펙터 및 툴링의 무게 포함)입니다. 탑재량 사양은 일반적으로 공동 연구 로봇(WidowX 250: 250g)의 경우 1kg 미만부터 대형 산업용 팔의 경우 500kg 이상입니다. 중요한 점은 정격 탑재량은 일반적으로 팔을 완전히 뻗은 상태에서 최대 도달 범위로 표시된다는 것입니다. 더 가까운 거리와 더 유리한 자세에서 로봇은 종종 훨씬 더 많은 것을 처리할 수 있습니다. 페이로드 제한을 초과하면 정확도가 떨어지고 마모가 가속화되며 안전 결함이나 물리적 손상이 발생할 수 있습니다. SVRC 하드웨어 카탈로그 각 로봇의 페이로드를 나열합니다.

하드웨어명세서

정책 (기계 인간)

로봇 학습에서 정책(π로 표시)은 관찰을 행동에 매핑하는 함수입니다: π(o) → a. 정책은 로봇이 인식하는 것을 고려하여 모든 단계에서 무엇을 해야 할지 결정하는 로봇의 학습된 "두뇌"입니다. 정책은 신경망(신경망 정책), 의사결정 트리, 가우스 프로세스 또는 조회 테이블로 표현될 수 있습니다. 이는 결정론적(관찰당 하나의 작업)이거나 확률론적(작업에 대한 분포)일 수 있습니다. 정책 품질은 교육 시연뿐만 아니라 다양한 조건에서의 작업 성공률로 측정됩니다. 로봇 학습의 핵심 과제는 훈련 분포를 넘어 안정적으로 일반화하는 훈련 정책입니다.

핵심 개념딥러닝

정책 출시

정책 롤아웃은 초기 상태부터 작업 완료 또는 시간 초과까지 로봇(또는 시뮬레이션)에 대해 훈련된 정책을 실행하는 단일 에피소드입니다. 롤아웃은 정책 성능을 평가하고, 추가 교육을 위한 새 데이터를 수집하고(예: DAgger 또는 RL 미세 조정) 실패 모드를 디버그하는 데 사용됩니다. 신뢰할 수 있는 성능 추정에 필요한 롤아웃 수는 작업 변동성에 따라 다릅니다. 변동이 큰 작업의 경우 안정적인 성공률 추정을 얻으려면 50개 이상의 롤아웃이 필요할 수 있습니다. 연구에서 롤아웃은 일반화를 특성화하기 위해 초기 조건(배포 내 개체/배포 외 개체/장면)별로 분류되는 경우가 많습니다.

평가정책

사전 훈련

사전 훈련은 작업별 미세 조정 전에 신경망이 크고 다양한 데이터 세트에 대해 훈련되는 모델 개발 단계입니다. 로봇 기초 모델의 경우 인터넷 규모의 비전 언어 데이터(이미지, 비디오, 텍스트), 교차 구현 로봇 데이터 세트(Open X-Embodiment), 합성 시뮬레이션 데이터 또는 조합에서 사전 훈련이 발생할 수 있습니다. 사전 훈련된 모델은 처음부터 훈련하는 것보다 훨씬 적은 수의 데모를 통해 다운스트림 로봇 작업으로 전송되는 객체, 동작 및 개념의 풍부하고 일반적인 표현을 학습합니다. 사전 훈련은 로봇 및 인터넷 규모 사전 훈련의 이점을 모두 활용하는 RT-2와 같은 VLA 모델의 성공을 뒷받침하는 메커니즘입니다.

기초 모델훈련전이 학습

Q

Q-함수 (행동-가치 함수)

Q-함수 Q(s, a)는 에이전트가 상태 s에서 작업 a를 수행한 다음 이후에 지정된 정책을 따름으로써 받게 될 예상 누적 할인 보상을 추정합니다. Q 함수는 DQN(이산 동작), SAC, TD3, DDPG(연속 동작)와 같은 강화 학습 알고리즘의 핵심입니다. 로봇 RL에서는 보상이 희박하고 상태-행동 공간이 고차원이기 때문에 장거리 조작 작업에 대한 정확한 Q 기능을 학습하는 것이 어렵습니다. 오프라인 RL(IQL, CQL)의 최근 작업에서는 Q 함수를 사용하여 온라인 상호 작용 없이 고정 데이터 세트에서 정책을 추출하여 모방 학습과 RL 간의 격차를 해소합니다.

강화 학습가치 기능

준정적 조작

준정적 조작은 관성력과 동적 힘을 무시할 수 있을 만큼 동작이 느리다고 가정합니다. 즉, 시스템은 매 순간 효과적으로 정적 평형 상태에 있습니다. 이러한 단순화를 통해 밀기, 슬라이딩, 회전 및 손으로 다시 잡는 동작을 계획하기 위한 다루기 쉬운 접촉 역학 모델링이 가능합니다. 대부분의 로봇 조작 벤치마크(대부분의 탁상용 픽앤플레이스 작업 포함)는 준정적 체제에서 작동합니다. 빠른 던지기, 동적 잡기 또는 고속 조립과 관련된 작업의 경우 준정적 가정이 무너지고 접촉 시뮬레이션(예: MuJoCo, Isaac Sim)을 통한 전체 강체 역학이 필요합니다.

시장 조작역학

R

실제-심 전송

Real-to-sim 전송(의 보완 시뮬레이션과 현실)에는 실제 세계와 최대한 일치하도록 시뮬레이션을 구성하거나 보정하는 작업이 포함됩니다. 즉, 본질적으로 실제 조건의 디지털 트윈을 구축하는 것입니다. 이는 시뮬레이션에서 실제 실패 사례를 재생하고, 실제 센서 특성과 일치하는 추가 합성 훈련 데이터를 생성하고, 배포 전에 정책 업데이트를 안전하게 테스트하는 데 사용됩니다. 기술에는 사진 측량 장면 재구성, 물리 매개변수 식별(시스템 식별) 및 카메라 모양과 일치하는 신경 렌더링 방법(NeRF, 3D Gaussian Splatting)이 포함됩니다. 정확한 Real-to-Sim 파이프라인은 정책 반복에 필요한 물리적 실험 수를 획기적으로 줄여줍니다.

시뮬레이션디지털 트윈데이터

도달하다

도달 범위는 로봇 팔 베이스에서 엔드 이펙터가 작업 공간 내에서 접근할 수 있는 지점까지의 최대 거리입니다. 직렬 암의 경우 최대 도달 범위는 모든 링크 길이의 합과 같습니다. 배포 시 유효 도달 범위는 더 작습니다. 즉, 관절 제한, 자체 충돌 방지 및 여러 방향에서 개체에 접근해야 하는 필요성을 고려합니다. Reach는 어떤 워크스테이션 레이아웃과 개체 배치가 가능한지 결정합니다. 작업을 위해 로봇을 선택할 때 엔지니어는 필요한 작업 공간(파악을 위한 모든 접근 방향 포함)이 로봇의 도달 가능한 범위 내에 허용 가능한 정확도로 포함되는지 확인해야 합니다.

하드웨어명세서운동학

재생 버퍼

재생 버퍼(또는 경험 재생 메모리)는 환경 상호 작용 중에 RL 에이전트가 수집한 과거(상태, 작업, 보상, 다음 상태, 완료) 전환의 데이터 세트입니다. 각 훈련 단계에서는 가치 함수나 정책을 훈련하기 위해 버퍼에서 임의의 미니 배치가 샘플링되어 그라데이션 업데이트를 불안정하게 만드는 시간적 상관 관계를 깨뜨립니다. 오프라인 RL 및 로봇 학습에서 재생 버퍼는 인간 시연 또는 이전에 수집된 롤아웃의 고정 데이터 세트로 대체됩니다. 정보 전환에 대한 훈련에 초점을 맞추기 위해 시간차 오류에 의한 우선순위화된 경험 재생 가중치 샘플링.

강화 학습데이터

보상 기능

보상 함수는 강화 학습 에이전트의 학습 목표를 정의합니다. 각(상태, 작업, 다음 상태) 전환에 스칼라 보상 신호 r(s, a, s')를 할당하여 해당 작업이 얼마나 좋은지 또는 나쁜지 에이전트에 알려줍니다. 보상 기능 설계는 RL을 로봇 공학에 적용할 때 가장 어려운 부분 중 하나입니다. 희박한 보상(성공 시 1, 그렇지 않으면 0)은 깨끗하지만 학습 속도가 느려집니다. 조밀한 보상(예: 목표까지의 음의 거리)은 학습을 안내하지만 예상치 못한 방식으로 조작될 수 있습니다(보상 해킹). 대안에는 데모(IRL, RLHF)를 통한 보상 학습, 작업별 시뮬레이션 측정항목 및 학습된 선호도 모델이 포함됩니다. 모방 학습은 시연을 통해 직접 학습함으로써 보상 설계 문제를 완전히 회피합니다.

강화 학습핵심 개념

S

시뮬레이션-실제 전송

Sim-to-real 전송은 정책이 추가 실제 데이터 없이(또는 최소한의) 작동하도록 목표를 가지고 시뮬레이션에서 전체 또는 주로 로봇 정책을 훈련한 다음 이를 물리적 로봇에 배포하는 프로세스입니다. 핵심 과제는 현실의 격차 — 시뮬레이션과 실제 세계 사이의 물리 충실도, 시각적 외관, 센서 노이즈 및 모델링되지 않은 역학의 차이. 주요 완화 기술에는 도메인 무작위화(훈련 중 시뮬레이션 매개변수 무작위화), 시스템 식별(실제 하드웨어와 일치하도록 시뮬레이션 보정) 및 소량의 실제 데이터에 대한 적응형 미세 조정이 포함됩니다. 참조 자세한 기사.

전이 학습시뮬레이션전개

상태 공간

상태 공간은 로봇과 그 환경이 있을 수 있는 완전한 구성 세트입니다. RL에서 Markov 상태는 미래 보상과 상태 전환을 예측하는 데 필요한 모든 정보(이상적으로는 세계에 대한 완전한 설명)를 인코딩합니다. 실제로 에이전트는 상태(예: 폐색된 개체, 알 수 없는 물리 매개변수)를 완전히 캡처할 수 없는 부분적인 관찰(이미지, 관절 각도)에만 액세스할 수 있습니다. 계산적으로 다루기 쉬운 상태를 유지하면서 마르코프 상태에 잘 근접하는 관찰 공간을 설계하는 것은 로봇 학습 시스템 설계의 핵심 과제입니다.

강화 학습제어

수술용 로봇공학

수술 로봇공학은 최소 침습 복강경 수술을 위한 Intuitive Surgical의 da Vinci 플랫폼을 통해 가장 유명하게 의료 절차에 로봇 시스템을 적용합니다. 수술용 로봇은 모션 스케일링(수술자의 큰 움직임을 밀리미터 미만의 기구 모션으로 변환), 떨림 필터링 및 환자 내부의 향상된 시각화 기능을 제공합니다. 새로운 연구에서는 자율 수술 하위 작업(봉합, 조직 수축), AI 지원 안내, 지연 시간이 짧은 5G 링크를 통한 원격 수술을 탐구합니다. 규제 승인(미국의 경우 FDA 510(k) 또는 PMA)으로 인해 상당한 검증 부담이 추가됩니다. 수술용 로봇은 다음과 같은 교차점에 있습니다. 원격조종, HRI, 그리고 접촉이 많은 조작.

의료원격조작애플리케이션

T

작업 매개변수화 학습

작업 매개변수화된 학습은 고정된 세계 프레임이 아닌 여러 좌표 프레임 또는 작업 매개변수(예: 개체의 자세, 대상 위치, 장애물 프레임)를 기준으로 데모를 인코딩합니다. 실행 시 정책은 작업 관련 참조를 기준으로 동작을 학습했기 때문에 재교육 없이 새 개체 및 대상 구성에 자동으로 적응합니다. 작업 매개변수화된 가우스 혼합 모델(TP-GMM) 및 커널화된 이동 기본 요소는 고전적인 구현입니다. 이 접근 방식은 구조화된 선택 및 배치 작업에 대한 강력한 기하학적 일반화를 제공하지만 런타임 시 작업 프레임을 식별하고 추적해야 합니다.

모방 학습일반화정책

원격조작

원격 조작은 인간 조작자가 로봇을 원격 제어하는 것으로, 직접적인 작업 실행(수술 로봇, 우주 로봇 공학, 폭탄 처리)과 고품질 모방 학습 시연을 수집하기 위한 기본 방법으로 모두 사용됩니다. 로봇 학습에서 일반적인 설정은 리더-팔로워 아키텍처를 사용합니다. 즉, 작업자는 가벼운 리더 팔을 움직이고 로봇(팔로워)은 실시간으로 리더를 추적합니다. VR 기반 원격 조작 시스템(핸드 트래킹 또는 컨트롤러 사용)은 인체공학적이며 더 높은 데이터 처리량을 허용하므로 점점 인기가 높아지고 있습니다. SVRC는 전문적인 원격 운용을 제공합니다. 데이터 수집 서비스 엔터프라이즈 로봇 학습 팀을 위한 것입니다.

데이터 수집모방 학습하드웨어

궤도

궤도는 로봇이 시작 구성에서 목표까지 이동하는 방법을 설명하는 로봇 상태(관절 각도 또는 데카르트 자세)의 시간 매개변수 시퀀스입니다. 궤적은 모션 플래너(충돌 없는 경로를 계획한 다음 원활한 실행을 위해 시간 매개변수화), 원격 조작 기록(고정 주파수에서 작업자의 모션 캡처)을 통해 생성하거나 신경 정책을 통해 직접 예측할 수 있습니다. 궤적의 부드러움과 속도 연속성은 물리적 로봇 안전에 중요합니다. 갑작스러운 불연속성은 기계적 스트레스를 유발하고 안전 정지를 유발할 수 있습니다. 궤적 표현에는 스플라인, DMP(동적 이동 기본 요소) 및 개별 웨이포인트 시퀀스가 포함됩니다.

계획제어데이터

전이 학습

로봇 공학의 전이 학습에는 하나의 도메인(예: 인터넷 비전 언어 데이터, 시뮬레이션 또는 다른 로봇)에서 사전 훈련된 모델을 가져와 이를 제한된 추가 데이터로 대상 작업이나 로봇에 적용하는 것이 포함됩니다. 로봇 데모 데이터에서 사전 훈련된 백본의 최종 레이어를 미세 조정하는 것이 가장 일반적인 접근 방식입니다. 완전한 미세 조정은 충분한 로봇 데이터를 사용할 수 있을 때 모든 가중치가 사용됩니다. 전이 학습은 다음을 수행하는 메커니즘입니다. 기초 모델 로봇 공학에 실용적입니다. 로봇 데이터만으로 처음부터 훈련하는 대안에는 수백만 번의 시연이 필요합니다. 또한보십시오 사전 훈련, 시뮬레이션에서 실제로의 전송.

기초 모델훈련

U

URDF (통일된 로봇 설명 형식)

URDF는 링크(질량, 관성 및 시각적/충돌 메시가 있는 강체)와 관절(유형, 축, 한계 및 감쇠 매개변수가 있는 링크 간의 연결)과 같은 로봇의 운동학적 및 동적 속성을 설명하는 XML 기반 파일 형식입니다. URDF는 ROS의 표준 로봇 설명 형식이며 모든 주요 시뮬레이션 플랫폼(Isaac Sim, MuJoCo, Gazebo, PyBullet)에서 지원됩니다. 이를 통해 로봇의 운동학을 MoveIt과 같은 모션 플래너에 로드하고, RViz에서 로봇을 시각화하고, 물리 시뮬레이션 모델을 인스턴스화할 수 있습니다. XACRO(XML 매크로 언어)는 복잡한 로봇의 URDF 파일을 매개변수화하고 모듈화하는 데 일반적으로 사용됩니다. OpenArm 및 대부분의 SVRC 하드웨어에는 공개적으로 사용 가능한 URDF 모델이 있습니다.

도구기준시뮬레이션

V

VLA (비전-언어-행동 모델)

비전-언어-액션 모델은 시각적 관찰(RGB 이미지), 자연어 지시 및 로봇 고유 수용을 공동으로 처리하여 액션 출력을 생성하는 신경망입니다. VLA는 액션 헤드를 추가하여 대형 비전 언어 모델(PaLM-E, LLaVA 또는 Gemini와 같은 VLM)을 확장합니다. 즉, 언어 예측과 함께 로봇 관절 위치 또는 엔드 이펙터 델타를 출력하도록 모델을 교육합니다. 주목할만한 VLA에는 RT-2(작업을 텍스트 토큰으로 토큰화하고 VLM을 미세 조정함), OpenVLA(오픈 소스, 7B 매개 변수, Open X-Embodiment에서 교육됨) 및 pi0(Physical Intelligence의 흐름 일치 VLA)이 포함됩니다. 참조 VLA 및 VLM 기사 그리고 SVRC 모델 카탈로그.

기초 모델언어핵심 개념

바이퍼X

ViperX는 Trossen Robotics에서 제조한 6-DOF 로봇 팔 시리즈로, 저렴한 비용, ROS 지원 및 DYNAMIXEL 서보 생태계와의 호환성으로 인해 학술 로봇 학습 연구에 널리 사용됩니다. ViperX 300(300mm 도달 범위) 및 ViperX 300-S는 모방 학습 설정에서 발견되는 가장 일반적인 연구 무기 중 하나이며 원본의 후속 무기입니다. ALOHA 체계. ViperX 팔은 산업용 로봇에 비해 적당한 탑재량(~750g)과 정확도를 가지고 있지만 조작 연구를 위한 접근 가능한 진입점을 제공합니다. SVRC 찾아보기 철물점 가용성을 위해.

하드웨어연구로봇

비주얼 서보

비주얼 서보잉은 폐루프 컨트롤러의 카메라 피드백을 사용하여 이미지 공간(IBVS) 또는 이미지에서 추정된 3D 공간(위치 기반 비주얼 서보잉, PBVS)에 정의된 목표를 향해 로봇을 안내합니다. IBVS에서 컨트롤러는 3D 포즈를 명시적으로 계산하지 않고도 감지된 이미지 특징(키포인트, 개체 경계 상자)과 이미지 평면에서 원하는 위치 간의 오류를 최소화합니다. 시각적 서보잉은 교정 오류와 카메라-로봇 정렬 불량을 직접적으로 보상하므로 매력적입니다. 최신 딥 러닝 변형은 원시 이미지에서 직접 서보 속도 명령을 출력하도록 신경망을 훈련시켜 새로운 객체에 대한 강력한 정렬을 가능하게 합니다.

제어지각폐쇄 루프

W

웨이포인트

웨이포인트는 로봇의 궤적이 시작부터 목표까지 통과해야 하는 중간 구성(관절 각도 또는 데카르트 자세)입니다. 웨이포인트를 사용하면 프로그래머와 계획자는 특정 자세를 통해 로봇의 경로를 안내할 수 있습니다. 예를 들어 장애물을 피하거나 안전한 방향에서 물체에 접근하거나 다단계 조립 절차를 통해 순서를 정할 수 있습니다. 로봇 학습에서 높은 수준의 정책은 학습된 정책의 일반화 이점과 기존 계획의 안전 보장을 결합하여 낮은 수준의 모션 플래너가 매끄러운 관절 궤적으로 보간하는 중간점을 출력하는 경우가 있습니다.

계획궤도

전신 컨트롤 (WBC)

전신 제어는 다리가 있는 로봇이나 휴머노이드 로봇의 모든 관절을 동시에 조정하여 균형 유지, 엔드 이펙터 목표 추적, 관절 제한 방지, 접촉력 관리 등 여러 경쟁 목표를 충족하며 실시간 제한된 최적화 문제(일반적으로 QP)로 해결됩니다. WBC는 베이스가 고정되어 있지 않기 때문에 휴머노이드 및 다리 조작기에 필수적입니다. 팔 동작은 질량 중심을 이동시키고 다리 및 몸통 조정으로 보상되어야 합니다. Drake, Pinocchio 및 OCS2와 같은 WBC 프레임워크는 휴머노이드 연구에 일반적으로 사용됩니다. Mobile ALOHA 플랫폼과 Boston Dynamics Atlas는 운동 조작을 위해 전신 컨트롤러를 사용합니다. 보다 WBC 기사.

제어휴머노이드운동

작업공간

로봇의 작업 공간은 로봇의 운동학적 구조와 관절 한계를 고려하여 엔드 이펙터가 도달할 수 있는 모든 위치(및 방향)의 집합입니다. 그만큼 접근 가능한 작업 공간 엔드 이펙터가 적어도 하나의 방향으로 도달할 수 있는 모든 위치입니다. 그만큼 능숙한 작업 공간 모든 방향에서 도달할 수 있는 더 작은 하위 집합입니다. 임의의 접근 각도가 필요한 조작 작업에 가장 유용한 영역입니다. 작업 공간 분석은 셀 레이아웃(로봇과 부품이 얼마나 떨어져 있어야 하는지), 로봇 선택(작업 레이아웃에 도달 범위 일치) 및 모션 계획(작업 공간 전체에서 특이점이 없는 경로 식별)을 알려줍니다.

운동학하드웨어계획

Z

자르 (데이터 형식)

Zarr는 n차원 배열을 청크 분할 압축 형식으로 저장하기 위한 오픈 소스 형식으로, 클라우드 네이티브 및 병렬 I/O 워크로드용으로 설계되었습니다. 로봇 공학에서 Zarr는 전체 파일을 다운로드하지 않고도 개체 저장소(S3, GCS)에서 효율적으로 읽을 수 있는 형식으로 대규모 로봇 데모 데이터 세트(이미지, 관절 상태, 동작)를 저장하는 데 사용됩니다. 같지 않은 HDF5, Zarr는 동시 쓰기를 지원하므로 분산 데이터 수집 파이프라인에 적합합니다. Zarr v3는 형식을 표준화하고 샤딩(많은 작은 청크를 더 적은 수의 큰 파일로 결합)에 대한 지원을 추가하여 클라우드 스토리지 효율성을 향상시킵니다. LeRobot 및 여러 자율주행차 데이터세트와 같은 프로젝트에서는 대규모 데이터세트 호스팅을 위해 Zarr를 채택했습니다.

데이터저장공학

제로샷 일반화

제로샷 일반화는 추가 미세 조정이나 시연 없이 훈련 중에 명시적으로 본 적이 없는 작업, 개체 또는 환경에 대해 훈련된 정책을 성공적으로 수행할 수 있는 능력입니다. 진정한 제로샷 전송은 로봇 기반 모델의 주요 목표입니다. 제로샷을 새로운 가정용 물체나 새로운 언어 지침으로 일반화하는 정책은 데이터 수집 부담을 획기적으로 줄일 것입니다. 현재 VLA 모델은 유망한 제로 샷 언어 일반화(알려진 작업 유형의 새로운 구문 이해)를 보여 주지만 여전히 완전히 새로운 개체 범주 또는 완전히 새로운 조작 기술로 인해 어려움을 겪고 있습니다. 제로샷 성능을 개선하는 것은 로봇 데이터세트와 모델 크기를 확장하는 주요 동기입니다. 또한보십시오 제로샷 전송 기사.

일반화기초 모델연구 프론티어

검색어와 일치하는 용어가 없습니다.

더 짧은 용어를 사용하거나 철자를 확인하세요. 검색을 지우면 위에 65개 용어가 모두 나열됩니다.

학습 프로젝트에 로봇 데이터가 필요합니까?

우리는 테이블 위 조작부터 모바일 양손 작업에 이르기까지 모방 학습 및 RL을 위한 고품질의 학습 가능한 데모를 수집합니다.

데이터 서비스 문의하기