Awal minggu ini, Google DeepMind merilis Gemini Robotics-ER-1.6, sebuah model visi dan bahasa baru untuk membantu robot memahami lingkungan di sekitarnya. Untuk memamerkan kemampuannya, Boston Dynamics—yang memiliki perjanjian untuk menggunakan Gemini dalam robot humanoidnya—memublikasikan video robot anjingnya yang menggunakan model tersebut untuk membaca termometer selama inspeksi di fasilitas industri.
Meskipun ada demo yang menarik perhatian, model robotika baru Google hanya mencatatkan peningkatan bertahap dibandingkan model sebelumnya dalam hal kemampuannya untuk mengetahui kapan ia telah menyelesaikan tugas menggunakan umpan kamera tunggal, menurut tolok ukur Google. Namun saat mengambil beberapa feed kamera, model tersebut menunjukkan peningkatan. Hal ini penting, kata Google, karena banyak pengaturan robot saat ini, seperti yang dilakukan di pabrik atau gudang, menggunakan beberapa tampilan kamera seperti kamera di atas kepala dan kamera yang dipasang di lengan robot. Robot harus dapat menggunakan semua kamera tersebut untuk menciptakan pemahaman yang koheren tentang apa yang dilakukannya dan mengetahui kapan tugasnya selesai.