Ранее на этой неделе компания Google DeepMind выпустила Gemini Robotics-ER-1.6, новую модель видения и языка, которая помогает роботам понимать свое окружение. Чтобы продемонстрировать свои возможности, компания Boston Dynamics, у которой есть соглашение об использовании Gemini в своих роботах-гуманоидах, опубликовала видео, на котором ее роботы-собаки используют эту модель для считывания показаний термометра во время проверки промышленного объекта.
Несмотря на привлекательные демонстрации, новая модель робототехники Google лишь незначительно превзошла предыдущие модели с точки зрения способности определять завершение задачи с помощью одной камеры, согласно тестам Google. Но при съемке с нескольких камер модель показала улучшение. По словам Google, это важно, поскольку сегодня многие робототехнические установки, например, на заводах или складах, используют несколько камер, таких как верхняя камера и камера, установленная на руке робота. Робот должен иметь возможность использовать все эти камеры, чтобы иметь четкое представление о том, что он делает, и знать, когда задача выполнена.