เมื่อต้นสัปดาห์นี้ Google DeepMind ได้เปิดตัว Gemini Robotics-ER-1.6 ซึ่งเป็นโมเดลวิสัยทัศน์และภาษาใหม่ที่ช่วยให้หุ่นยนต์เข้าใจสภาพแวดล้อมรอบตัว เพื่อแสดงความสามารถ Boston Dynamics ซึ่งมีข้อตกลงในการใช้ Gemini ในหุ่นยนต์ฮิวแมนนอยด์ได้เผยแพร่วิดีโอของสุนัขหุ่นยนต์โดยใช้แบบจำลองเพื่ออ่านเทอร์โมมิเตอร์ในระหว่างการตรวจสอบโรงงานอุตสาหกรรม
แม้จะมีการสาธิตที่สะดุดตา แต่หุ่นยนต์รุ่นใหม่ของ Google ก็มีข้อได้เปรียบเพิ่มขึ้นอย่างค่อยเป็นค่อยไปเมื่อเทียบกับรุ่นก่อนๆ ในแง่ของความสามารถในการบอกได้ว่าเมื่อใดเสร็จสิ้นงานโดยใช้ฟีดกล้องตัวเดียว ตามเกณฑ์มาตรฐานของ Google แต่เมื่อถ่ายฟีดกล้องหลายตัว พบว่าโมเดลมีการปรับปรุง Google กล่าวว่านั่นเป็นสิ่งสำคัญ เนื่องจากการตั้งค่าหุ่นยนต์จำนวนมากในปัจจุบัน เช่น ในโรงงานหรือโกดัง มีการใช้มุมมองกล้องหลายตัว เช่น กล้องเหนือศีรษะและกล้องที่ติดตั้งบนแขนของหุ่นยนต์ หุ่นยนต์จะต้องสามารถใช้กล้องเหล่านั้นทั้งหมดเพื่อสร้างความเข้าใจที่สอดคล้องกันในสิ่งที่กำลังทำอยู่ และรู้ว่างานเสร็จสิ้นเมื่อใด