Đầu tuần này, Google DeepMind đã phát hành Gemini Robotics-ER-1.6, một mô hình ngôn ngữ và tầm nhìn mới để giúp robot hiểu được môi trường xung quanh. Để thể hiện khả năng của mình, Boston Dynamics—công ty có thỏa thuận sử dụng Gemini trong các rô-bốt hình người—đã xuất bản một video quay cảnh những chú chó rô-bốt sử dụng mô hình này để đọc nhiệt kế trong quá trình kiểm tra một cơ sở công nghiệp.
Mặc dù có các bản trình diễn bắt mắt, nhưng mẫu rô-bốt mới của Google chỉ đạt được những tiến bộ gia tăng so với các mẫu trước đó xét về khả năng cho biết khi nào nó đã hoàn thành một nhiệm vụ bằng cách sử dụng một nguồn cấp dữ liệu máy ảnh duy nhất, theo tiêu chuẩn của Google. Nhưng khi lấy nhiều nguồn cấp dữ liệu máy ảnh, mô hình đã cho thấy sự cải thiện. Google cho biết điều đó rất quan trọng vì nhiều thiết lập robot ngày nay, chẳng hạn như trong các nhà máy hoặc nhà kho, sử dụng nhiều chế độ xem camera như camera trên cao và camera gắn trên cánh tay của robot. Robot phải có khả năng sử dụng tất cả các camera đó để hiểu rõ ràng những gì nó đang làm và biết khi nào nhiệm vụ hoàn thành.