Na początku tego tygodnia firma Google DeepMind wypuściła Gemini Robotics-ER-1.6, nowy model widzenia i języka, który pomaga robotom rozumieć otoczenie. Aby pochwalić się swoimi możliwościami, firma Boston Dynamics, która podpisała umowę na wykorzystanie Gemini w swoich humanoidalnych robotach, opublikowała film przedstawiający swoje psy-roboty korzystające z modelu do odczytu termometru podczas inspekcji obiektu przemysłowego.
Pomimo przyciągających wzrok demonstracji, nowy model robotyki Google odnotował jedynie przyrostowe korzyści w porównaniu z poprzednimi modelami pod względem zdolności stwierdzenia, kiedy zakończył zadanie, na podstawie pojedynczego obrazu z kamery, zgodnie z testami porównawczymi Google. Jednak po przyjęciu wielu obrazów z kamery model wykazał poprawę. To ważne, twierdzi Google, ponieważ wiele współczesnych konfiguracji robotyki, na przykład w fabrykach czy magazynach, wykorzystuje wiele widoków z kamery, np. kamerę umieszczoną nad głową i kamerę zamontowaną na ramieniu robota. Robot musi być w stanie wykorzystać wszystkie te kamery, aby uzyskać spójny obraz tego, co robi, i wiedzieć, kiedy zadanie zostanie ukończone.