A principios desta semana, Google DeepMind lanzou Gemini Robotics-ER-1.6, un novo modelo de visión e linguaxe para axudar aos robots a dar sentido ao seu entorno. Para mostrar as súas capacidades, Boston Dynamics, que ten un acordo para usar Gemini nos seus robots humanoides, publicou un vídeo dos seus cans robot usando o modelo para ler un termómetro durante unha inspección dunha instalación industrial.
A pesar das demostracións atractivas, o novo modelo de robótica de Google só obtivo ganancias incrementais con respecto aos modelos anteriores en termos de que Google rematou unha única tarefa, segundo a súa capacidade de alimentar a cámara. puntos de referencia. Pero ao tomar varias fontes de cámara, o modelo mostrou unha mellora. Isto é importante, di Google, porque moitas instalacións de robótica hoxe en día, como as de fábricas ou almacéns, usan varias vistas de cámara como unha cámara aérea e unha cámara montada no brazo do robot. O robot debe ser capaz de utilizar todas esas cámaras para crear unha comprensión coherente do que está a facer e saber cando se completa a tarefa.