Anfang dieser Woche veröffentlichte Google DeepMind Gemini Robotics-ER-1.6, ein neues Visions- und Sprachmodell, das Robotern dabei hilft, ihre Umgebung zu verstehen. Um seine Fähigkeiten zu demonstrieren, veröffentlichte Boston Dynamics – das eine Vereinbarung zur Verwendung von Gemini in seinen humanoiden Robotern hat – ein Video, in dem seine Roboterhunde das Modell zum Ablesen eines Thermometers während einer Inspektion einer Industrieanlage verwenden.
Trotz der auffälligen Demos erzielte Googles neues Robotikmodell laut Googles Benchmarks nur geringfügige Fortschritte gegenüber früheren Modellen, was seine Fähigkeit angeht, mithilfe eines einzigen Kamera-Feeds zu erkennen, wann eine Aufgabe abgeschlossen wurde. Bei der Aufnahme mehrerer Kamerabilder zeigte das Modell jedoch eine Verbesserung. Das sei wichtig, sagt Google, weil viele heutige Robotik-Setups, etwa in Fabriken oder Lagerhäusern, mehrere Kameraansichten verwenden, etwa eine Overhead-Kamera und eine am Arm des Roboters montierte Kamera. Der Roboter muss in der Lage sein, alle diese Kameras zu nutzen, um ein kohärentes Verständnis seiner Arbeit zu erzeugen und zu wissen, wann die Aufgabe abgeschlossen ist.