A principis d'aquesta setmana, Google DeepMind va llançar Gemini Robotics-ER-1.6, un nou model de visió i llenguatge per ajudar els robots a donar sentit al seu entorn. Per mostrar les seves capacitats, Boston Dynamics, que té un acord per utilitzar Gemini en els seus robots humanoides, va publicar un vídeo dels seus gossos robot utilitzant el model per llegir un termòmetre durant una inspecció d'una instal·lació industrial.
Malgrat les demostracions atractives, el nou model de robòtica de Google només va obtenir guanys incrementals respecte als models anteriors en termes de la seva capacitat d'alimentar una única tasca de Google, segons la seva capacitat d'alimentació. punts de referència. Però en prendre diverses càmeres, el model va mostrar una millora. Això és important, diu Google, perquè avui en dia moltes configuracions de robòtica, com ara les de fàbriques o magatzems, utilitzen múltiples vistes de càmeres com una càmera aèria i una càmera muntada al braç del robot. El robot ha de ser capaç d'utilitzar totes aquestes càmeres per crear una comprensió coherent del que fa i saber quan s'ha completat la tasca.