Eerder deze week bracht Google DeepMind Gemini Robotics-ER-1.6 uit, een nieuw visie- en taalmodel waarmee robots hun omgeving kunnen begrijpen. Om zijn capaciteiten te laten zien, publiceerde Boston Dynamics (dat een overeenkomst heeft om Gemini te gebruiken in zijn humanoïde robots) een video waarin zijn robothonden het model gebruiken om een thermometer af te lezen tijdens een inspectie van een industriële faciliteit.
Ondanks de opvallende demo's boekte het nieuwe robotmodel van Google alleen maar stapsgewijze winst ten opzichte van eerdere modellen in termen van het vermogen om met behulp van een enkele camerafeed te vertellen wanneer het een taak had voltooid, volgens de benchmarks van Google. Maar bij het opnemen van meerdere camerafeeds liet het model een verbetering zien. Dat is belangrijk, zegt Google, omdat veel robotica-opstellingen tegenwoordig, zoals die in fabrieken of magazijnen, meerdere camerabeelden gebruiken, zoals een overheadcamera en een camera die op de arm van de robot is gemonteerd. De robot moet al deze camera's kunnen gebruiken om een samenhangend inzicht te krijgen in wat hij doet en om te weten wanneer de taak is voltooid.