Awal minggu ini, Google DeepMind mengeluarkan Gemini Robotics-ER-1.6, model penglihatan dan bahasa baharu untuk membantu robot memahami persekitaran mereka. Untuk mempamerkan keupayaannya, Boston Dynamics—yang mempunyai perjanjian untuk menggunakan Gemini dalam robot humanoidnya—menerbitkan video anjing robotnya menggunakan model itu untuk membaca termometer semasa pemeriksaan kemudahan perindustrian.
Walaupun demo yang menarik perhatian, model robotik baharu Google hanya mencatatkan keuntungan tambahan berbanding model yang telah disiapkan daripada segi kebolehan menggunakan kamera sebelum ini, daripada segi kebolehan menggunakan kamera yang telah siap. tanda aras. Tetapi apabila mengambil berbilang suapan kamera, model itu menunjukkan peningkatan. Itu penting, kata Google, kerana banyak persediaan robotik hari ini, seperti yang ada di kilang atau gudang, menggunakan berbilang paparan kamera seperti kamera atas dan kamera yang dipasang pada lengan robot. Robot mesti boleh menggunakan semua kamera tersebut untuk mencipta pemahaman yang koheren tentang perkara yang dilakukannya dan mengetahui apabila tugasan itu selesai.