All'inizio di questa settimana, Google DeepMind ha rilasciato Gemini Robotics-ER-1.6, un nuovo modello di visione e linguaggio per aiutare i robot a dare un senso all'ambiente circostante. Per mostrare le sue capacità, Boston Dynamics, che ha un accordo per utilizzare Gemini nei suoi robot umanoidi, ha pubblicato un video dei suoi cani robot che utilizzano il modello per leggere un termometro durante un'ispezione di un impianto industriale.
Nonostante le demo accattivanti, il nuovo modello di robotica di Google ha ottenuto solo miglioramenti incrementali rispetto ai modelli precedenti in termini di capacità di capire quando ha terminato un'attività utilizzando un singolo feed della telecamera, secondo i benchmark di Google. Ma quando si acquisivano più feed di telecamere, il modello ha mostrato un miglioramento. Questo è importante, afferma Google, perché molte configurazioni di robotica oggi, come quelle nelle fabbriche o nei magazzini, utilizzano più visualizzazioni di telecamere come una telecamera aerea e una telecamera montata sul braccio del robot. Il robot deve essere in grado di utilizzare tutte queste telecamere per creare una comprensione coerente di ciò che sta facendo e sapere quando l'attività è completata.