이번 주 초, Google DeepMind는 로봇이 주변 환경을 이해하는 데 도움이 되는 새로운 비전 및 언어 모델인 Gemini Robotics-ER-1.6을 출시했습니다. 휴머노이드 로봇에 Gemini를 사용하기로 계약을 맺은 Boston Dynamics는 그 능력을 과시하기 위해 산업 시설을 검사하는 동안 이 모델을 사용하여 온도계를 읽는 로봇 개 비디오를 게시했습니다.
시선을 사로잡는 데모에도 불구하고 Google의 벤치마크에 따르면 Google의 새로운 로봇 공학 모델은 단일 카메라 피드를 사용하여 작업이 완료되었는지 알 수 있는 능력 측면에서 이전 모델에 비해 점진적인 향상에 그쳤습니다. 그러나 여러 카메라 피드를 촬영하면 모델이 개선되는 모습을 보였습니다. Google은 공장이나 창고와 같은 오늘날 많은 로봇 설정이 오버헤드 카메라 및 로봇 팔에 장착된 카메라와 같은 다중 카메라 뷰를 사용하기 때문에 이것이 중요하다고 말합니다. 로봇은 자신이 하는 일을 일관되게 이해하고 작업이 완료되는 시기를 알 수 있도록 모든 카메라를 사용할 수 있어야 합니다.