Tidigare i veckan släppte Google DeepMind Gemini Robotics-ER-1.6, en ny vision och språkmodell som hjälper robotar att förstå sin omgivning. För att visa upp sina kapaciteter publicerade Boston Dynamics – som har ett avtal om att använda Gemini i sina humanoida robotar – en video av sina robothundar som använder modellen för att läsa av en termometer under en inspektion av en industrianläggning.
Trots de iögonfallande demonstrationen, noterade Googles nya robotmodell bara stegvisa vinster av sina tidigare modeller med hjälp av en enda uppgift i termer av en enskild kamera. till Googles riktmärken. Men när den tog in flera kameraflöden visade modellen en förbättring. Det är viktigt, säger Google, eftersom många robotinstallationer idag, som de i fabriker eller lager, använder flera kameravyer som en overheadkamera och en kamera monterad på robotens arm. Roboten måste kunna använda alla dessa kameror för att skapa en sammanhängande förståelse för vad den gör och veta när uppgiften är klar.