V začetku tega tedna je Google DeepMind izdal Gemini Robotics-ER-1.6, nov model vizije in jezika, ki robotom pomaga razumeti svojo okolico. Da bi pokazal svoje zmožnosti, je podjetje Boston Dynamics, ki ima dogovor o uporabi Geminija v svojih humanoidnih robotih, objavilo videoposnetek svojih robotskih psov, ki uporabljajo model za branje termometra med inšpekcijo industrijskega objekta.
Kljub privlačnim predstavitvam je Googlov novi robotski model v primerjavi s prejšnjimi modeli dosegel le postopne izboljšave v smislu njegove sposobnosti, da ugotovi, kdaj je končal nalogo z uporabo v skladu z Googlovimi merili uspešnosti z enim virom kamere. Vendar pa je model pokazal izboljšavo pri sprejemanju več virov kamere. Google pravi, da je to pomembno, ker številne današnje robotske nastavitve, kot so tiste v tovarnah ali skladiščih, uporabljajo več pogledov kamer, kot sta kamera nad glavo in kamera, nameščena na robotovi roki. Robot mora biti sposoben uporabljati vse te kamere, da ustvari skladno razumevanje tega, kar počne, in vedeti, kdaj je naloga končana.