Vroeër hierdie week het Google DeepMind Gemini Robotics-ER-1.6 vrygestel, 'n nuwe visie- en taalmodel om robotte te help om sin te maak van hul omgewing. Om sy vermoëns te wys, het Boston Dynamics—wat 'n ooreenkoms het om Gemini in sy menslike robotte te gebruik—'n video gepubliseer van sy robothonde wat die model gebruik om 'n termometer te lees tydens 'n inspeksie van 'n industriële fasiliteit.
Ten spyte van die opvallende demonstrasies, het Google se nuwe robotika-model slegs inkrementele toenames van sy vorige modelle in terme van 'n enkele kamera gebruik om te vertel van sy vorige modelle in terme van 'n taak. na Google se maatstawwe. Maar wanneer die model verskeie kamera-feeds ingeneem het, het die model 'n verbetering getoon. Dit is belangrik, sê Google, want baie robotika-opstellings vandag, soos dié in fabrieke of pakhuise, gebruik veelvuldige kamera-aansigte soos 'n oorhoofse kamera en 'n kamera wat op die robot se arm gemonteer is. Die robot moet al daardie kameras kan gebruik om 'n samehangende begrip te skep van wat hy doen en weet wanneer die taak voltooi is.