Tidligere på ugen udgav Google DeepMind Gemini Robotics-ER-1.6, en ny visions- og sprogmodel, der hjælper robotter med at forstå deres omgivelser. For at vise sine muligheder udgav Boston Dynamics – som har en aftale om at bruge Gemini i sine humanoide robotter – en video af sine robothunde, der bruger modellen til at aflæse et termometer under en inspektion af en industrifacilitet.
På trods af de iøjnefaldende demoer opnåede Googles nye robotmodel kun trinvise fremgang i forhold til dens tidligere modeller ved hjælp af en enkelt opgave, i overensstemmelse med en enkelt opgave i forhold til en enkelt opgave. til Googles benchmarks. Men da modellen indtog flere kamerafeeds, viste modellen en forbedring. Det er vigtigt, siger Google, fordi mange robotopsætninger i dag, såsom dem på fabrikker eller varehuse, bruger flere kameravisninger som et overhead-kamera og et kamera monteret på robottens arm. Robotten skal være i stand til at bruge alle disse kameraer til at skabe en sammenhængende forståelse af, hvad den laver, og vide, hvornår opgaven er fuldført.