데이터 수집

데이터 수집을 위한 로봇 카메라 설정: 손목, 머리 위 및 스테레오

카메라 배치는 로봇 데이터 수집에서 가장 중요하면서도 가장 자주 과소평가되는 결정 중 하나입니다. 교육 중에 정책에서 확인하는 관찰 내용은 배포 중에 확인하는 내용과 일치해야 하며, 카메라 설정이 잘못되면 신뢰할 수 있는 정책을 교육할 수 없는 데이터를 수집한다는 의미입니다.

카메라 배치 전략

로봇 카메라 배치의 첫 번째 원칙은 데이터 수집에 사용되는 카메라는 정책 배포에 사용되는 카메라와 장착 위치가 동일해야 한다는 것입니다. 이러한 불일치는 복구할 수 없습니다. 손목 카메라 보기로 훈련된 정책은 머리 위 카메라 보기로 일반화할 수 없으며 그 반대의 경우도 마찬가지입니다. 훈련 데이터의 단일 에피소드를 수집하기 전에 배포 카메라 구성을 정의하십시오.

조작 연구에서 가장 일반적인 구성은 다음과 같습니다: 손목 전용(로봇의 손목에 장착된 카메라 1대, 조작 작업 공간을 바라보는 것) 오버헤드 전용(고정된 오버헤드 장비에 장착된 1개 또는 2개의 카메라); 및 멀티뷰(손목 카메라와 글로벌 작업 공간 컨텍스트를 제공하는 하나 또는 두 개의 외부 카메라). 멀티뷰 구성은 녹화 인프라가 더 복잡해지는 대신 정책 성능 면에서 지속적으로 단일 뷰보다 뛰어납니다.

손목 카메라: 장점, 단점, 모범 사례

손목 카메라는 조작 작업에 대한 1인칭 시점을 제공합니다. 로봇은 엔드 이펙터에서 수행 중인 작업을 대략적으로 확인합니다. 이 관점은 그리퍼와 물체 사이의 관계를 정확하게 인식해야 하는 정밀한 파지 및 삽입 작업에 매우 유익합니다. 또한 손목 카메라는 작업 공간을 통해 자동으로 그리퍼를 따라가므로 조작 중에 대상 물체가 항상 프레임 안에 있도록 보장합니다.

손목 카메라의 주요 한계는 전역 작업 공간을 볼 수 없다는 것입니다. 로봇은 팔을 움직이지 않으면 현재 그리퍼 위치에서 멀리 있는 물체를 인식할 수 없습니다. 이는 장면 수준의 이해 또는 이중 수동 조정이 필요한 작업에 대한 효율성을 제한합니다. 양손 시스템의 경우 각 팔에는 자체 손목 카메라가 있어야 합니다. 권장 사양: 1080p 이상의 해상도, 60+ fps, 빠른 움직임 중에 모션 블러를 방지하기 위한 글로벌 셔터(롤링 셔터 아님), 가까운 거리에서 그립 접점 보기를 유지하기 위한 광각 렌즈(90~110도 FOV).

오버헤드 카메라: 구성 및 장단점

고정형 오버헤드 카메라는 전체 조작 장면을 캡처하는 안정적이고 일관된 작업 공간 보기를 제공합니다. 팔 동작에 덜 민감하며 다양한 작업 공간 영역에서 여러 순차적 단계가 필요한 작업에 대해 더 나은 컨텍스트를 제공합니다. 오버헤드 카메라는 여러 로봇 스테이션에 일관되게 장착하기가 더 간단하며 이는 대규모 데이터 수집 캠페인에 중요합니다.

조작접점에서의 디테일이 줄어드는 한계가 있습니다. 탁상 작업 공간을 내려다보는 80cm 높이의 오버헤드 카메라는 작은 물체의 그리퍼-물체 접촉 형상을 안정적으로 관찰할 수 없습니다. 이것이 바로 고성능 데이터 수집 설정에서 머리 위 카메라가 일반적으로 손목 카메라와 쌍을 이루는 이유입니다. 머리 위 보기는 작업 컨텍스트와 대략적인 위치 지정을 제공하는 반면 손목 보기는 미세한 조작 세부 정보를 제공합니다.

해상도, 프레임 속도 및 동기화

조작 데이터 수집의 경우 2026년 대부분의 모방 학습 정책에는 30fps에서 카메라당 480p~720p이면 충분합니다. 더 높은 해상도(1080p)는 미세한 공간 식별이 필요한 작업의 성능을 향상시킵니다. 30fps 미만의 프레임 속도는 빠른 작업에 대한 정책 학습을 저하시키는 일시적인 앨리어싱을 도입합니다. 60fps 이상의 프레임 속도는 대부분의 조작 작업에 대한 수익 감소를 제공하고 스토리지 요구 사항을 크게 증가시킵니다.

다중 카메라 동기화는 매우 중요하지만 자주 무시됩니다. 카메라가 하드웨어 동기화되지 않은 경우 데이터 로드 중에 타임스탬프 정렬을 신중하게 구현해야 합니다. 33ms의 카메라 간 오프셋(30fps에서 1프레임)이라도 손목 및 머리 위 보기가 시간적으로 일관되어야 하는 작업에 대한 훈련 불안정성을 초래할 수 있습니다. Intel RealSense D435 및 D455 시리즈는 동기화 케이블을 통한 하드웨어 동기화를 지원하며 동기화된 다중 카메라 설정을 위해 SVRC가 선호하는 제품입니다.

깊이 카메라

깊이 카메라는 RGB 이미지 외에도 픽셀당 거리 측정 기능을 제공하므로 명시적인 스테레오 재구성 없이 3D 장면을 이해할 수 있습니다. Intel RealSense, Microsoft Azure Kinect 및 ZED 카메라는 로봇 데이터 수집에 가장 일반적으로 사용되는 깊이 센서입니다. 깊이 정보는 객체 높이, 모양 또는 3D 위치가 파악 계획에 중요한 작업과 순수 이미지 입력이 아닌 포인트 클라우드 입력을 사용하는 정책에 유용합니다.

단점: 깊이 카메라는 무게, 비용 및 처리 부하를 추가합니다. 많은 최첨단 모방 학습 결과는 순수 RGB 카메라를 사용하여 달성되었으며, 이는 깊이가 항상 필요한 것은 아니라는 점을 시사합니다. 정책 아키텍처가 3D 입력의 이점을 명시적으로 활용하는 경우, 작업에 상당한 깊이 변화(다른 높이의 객체 쌓기)가 포함되는 경우 또는 다양한 조명 조건에서 강력한 성능이 필요한 경우(깊이는 RGB보다 조명에 더 불변적임) 깊이를 사용하십시오.

보정 및 SVRC의 다중 카메라 표준

모든 카메라는 데이터 수집을 시작하기 전에 내부 교정(초점 거리, 왜곡 계수) 및 외부 교정(로봇 베이스에 대한 위치 및 방향)을 교정해야 합니다. 보정을 위해 실제 체커보드 대상을 사용하고 카메라 이동이나 조정 후에는 다시 보정하십시오. 교정 매개변수를 각 데이터세트와 함께 메타데이터로 저장합니다.

SVRC의 데이터 수집 표준은 고정된 3개의 카메라 구성을 사용합니다. 팔당 손목 카메라 1개와 스테이션당 보정된 오버헤드 카메라 1개입니다. 물리적 카메라 마운트는 표준화된 워크스테이션 설계의 일부로 시설 전반에 걸쳐 일관된 배치를 보장합니다. 모든 교정 매개변수는 자동으로 기록되고 데이터세트 내보내기에 포함됩니다. 자체 데이터 수집 인프라를 설정하는 팀을 위해 SVRC는 카메라 설정 상담을 제공하고 사전 보정된 카메라 어셈블리를 공급할 수 있습니다. 저희에게 연락주세요 아니면 우리의 데이터 서비스 페이지 자세한 내용은.