Plus tôt cette semaine, Google DeepMind a publié Gemini Robotics-ER-1.6, un nouveau modèle de vision et de langage pour aider les robots à donner un sens à leur environnement. Pour montrer ses capacités, Boston Dynamics, qui a un accord pour utiliser Gemini dans ses robots humanoïdes, a publié une vidéo de ses chiens robots utilisant le modèle pour lire un thermomètre lors d'une inspection d'une installation industrielle.
Malgré les démonstrations accrocheuses, le nouveau modèle robotique de Google n'a enregistré que des gains progressifs par rapport aux modèles précédents en termes de capacité à déterminer quand il a terminé une tâche à l'aide d'un seul flux de caméra, selon les références de Google. Mais lors de la prise en compte de plusieurs flux de caméras, le modèle a montré une amélioration. C'est important, selon Google, car de nombreuses configurations robotiques actuelles, comme celles des usines ou des entrepôts, utilisent plusieurs vues de caméra, comme une caméra aérienne et une caméra montée sur le bras du robot. Le robot doit être capable d'utiliser toutes ces caméras pour créer une compréhension cohérente de ce qu'il fait et savoir quand la tâche est terminée.