Tidligere denne uken ga Google DeepMind ut Gemini Robotics-ER-1.6, en ny visjons- og språkmodell for å hjelpe roboter med å forstå omgivelsene sine. For å vise frem egenskapene sine publiserte Boston Dynamics – som har en avtale om å bruke Gemini i sine humanoide roboter – en video av robothundene sine som bruker modellen til å lese av et termometer under en inspeksjon av et industrianlegg.
Til tross for de iøynefallende demonstrasjonene, oppnådde Googles nye robotikkmodell bare økte gevinster når den hadde en enkelt oppgave i forhold til en enkelt oppgave i forhold til en enkelt oppgave, i henhold til en enkelt oppgave. til Googles benchmarks. Men når du tok inn flere kamerafeeder, viste modellen en forbedring. Det er viktig, sier Google, fordi mange robotoppsett i dag, for eksempel i fabrikker eller varehus, bruker flere kameravisninger som et overliggende kamera og et kamera montert på robotens arm. Roboten må kunne bruke alle disse kameraene for å skape en sammenhengende forståelse av hva den gjør og vite når oppgaven er fullført.