इस सप्ताह की शुरुआत में, Google DeepMind ने जेमिनी रोबोटिक्स-ईआर-1.6 जारी किया, जो रोबोटों को उनके परिवेश को समझने में मदद करने के लिए एक नया दृष्टिकोण और भाषा मॉडल है। अपनी क्षमताओं को दिखाने के लिए, बोस्टन डायनेमिक्स - जिसके पास अपने ह्यूमनॉइड रोबोटों में जेमिनी का उपयोग करने का एक समझौता है - ने एक औद्योगिक सुविधा के निरीक्षण के दौरान थर्मामीटर को पढ़ने के लिए मॉडल का उपयोग करते हुए अपने रोबोट कुत्तों का एक वीडियो प्रकाशित किया।
आकर्षक डेमो के बावजूद, Google के बेंचमार्क के अनुसार, Google के नए रोबोटिक्स मॉडल ने एकल कैमरा फ़ीड का उपयोग करके यह बताने की क्षमता के मामले में पिछले मॉडलों की तुलना में वृद्धि दर्ज की है कि उसने कब कोई कार्य पूरा किया है। लेकिन कई कैमरा फ़ीड लेने पर, मॉडल में सुधार दिखा। Google का कहना है कि यह महत्वपूर्ण है, क्योंकि आज कई रोबोटिक्स सेटअप, जैसे कि कारखानों या गोदामों में, ओवरहेड कैमरा और रोबोट की बांह पर लगे कैमरे जैसे कई कैमरा दृश्यों का उपयोग करते हैं। रोबोट को उन सभी कैमरों का उपयोग करने में सक्षम होना चाहिए ताकि वह जो कर रहा है उसकी सुसंगत समझ पैदा कर सके और जान सके कि कार्य कब पूरा होगा।