या आठवड्याच्या सुरुवातीला, Google DeepMind ने Gemini Robotics-ER-1.6 जारी केले, जे रोबोट्सना त्यांच्या सभोवतालची परिस्थिती समजून घेण्यास मदत करण्यासाठी एक नवीन दृष्टी आणि भाषा मॉडेल आहे. आपली क्षमता दाखवण्यासाठी, Boston Dynamics-ज्याने आपल्या मानवीय यंत्रमानवांमध्ये जेमिनी वापरण्याचा करार केला आहे-ने औद्योगिक सुविधेच्या तपासणीदरम्यान थर्मामीटर वाचण्यासाठी मॉडेलचा वापर करणाऱ्या रोबोट कुत्र्यांचा व्हिडिओ प्रकाशित केला.
लक्षवेधक डेमो असूनही, Google च्या नवीन रोबोटिक्स मॉडेलने त्याच्या मागील मॉडेलच्या तुलनेत केवळ उच्च दर्जाची क्षमता दर्शविली आहे. Google च्या बेंचमार्कनुसार, सिंगल कॅमेरा फीड वापरून कार्य पूर्ण केले. परंतु एकाधिक कॅमेरा फीड्स घेताना, मॉडेलमध्ये सुधारणा दिसून आली. हे महत्त्वाचे आहे, Google म्हणते, कारण आज अनेक रोबोटिक्स सेटअप, जसे की कारखाने किंवा गोदामांमध्ये, एकापेक्षा जास्त कॅमेरा दृश्ये वापरतात जसे की ओव्हरहेड कॅमेरा आणि रोबोटच्या हातावर बसवलेला कॅमेरा. तो काय करत आहे याची सुसंगत समज निर्माण करण्यासाठी आणि कार्य पूर्ण झाल्यावर हे जाणून घेण्यासाठी ते सर्व कॅमेरे वापरण्यास रोबोट सक्षम असणे आवश्यक आहे.