La începutul acestei săptămâni, Google DeepMind a lansat Gemini Robotics-ER-1.6, un nou model de viziune și limbaj pentru a ajuta roboții să dea sens mediului înconjurător. Pentru a-și arăta capacitățile, Boston Dynamics – care are un acord să folosească Gemini în roboții săi umanoizi – a publicat un videoclip cu câinii săi robot care folosesc modelul pentru a citi un termometru în timpul unei inspecții a unei instalații industriale.
În ciuda demonstrațiilor atrăgătoare, noul model de robotică Google a înregistrat doar câștiguri incrementale față de modelele anterioare în ceea ce privește capacitatea sa de a termina o singură sarcină a camerei Google. repere. Dar, atunci când a preluat mai multe fluxuri de cameră, modelul a arătat o îmbunătățire. Acest lucru este important, spune Google, deoarece multe configurații robotice de astăzi, cum ar fi cele din fabrici sau depozite, folosesc mai multe vizualizări ale camerei, cum ar fi o cameră de sus și o cameră montată pe brațul robotului. Robotul trebuie să fie capabil să folosească toate aceste camere pentru a crea o înțelegere coerentă a ceea ce face și pentru a ști când sarcina este finalizată.