A principios de esta semana, Google DeepMind lanzó Gemini Robotics-ER-1.6, un nuevo modelo de visión y lenguaje para ayudar a los robots a entender su entorno. Para mostrar sus capacidades, Boston Dynamics, que tiene un acuerdo para utilizar Gemini en sus robots humanoides, publicó un vídeo de sus perros robot usando el modelo para leer un termómetro durante una inspección de una instalación industrial.

A pesar de las demostraciones llamativas, el nuevo modelo de robótica de Google sólo registró ganancias incrementales con respecto a los modelos anteriores en términos de su capacidad para saber cuándo había terminado una tarea usando una sola cámara, según los puntos de referencia de Google. Pero al tomar imágenes de varias cámaras, el modelo mostró una mejora. Esto es importante, dice Google, porque muchas configuraciones robóticas actuales, como las de fábricas o almacenes, utilizan múltiples vistas de cámara, como una cámara aérea y una cámara montada en el brazo del robot. El robot debe poder utilizar todas esas cámaras para crear una comprensión coherente de lo que está haciendo y saber cuándo se completa la tarea.

You May Also Like

Enjoyed This Article?

Get weekly tips on growing your audience and monetizing your content — straight to your inbox.

No spam. Join 138,000+ creators. Unsubscribe anytime.

Create Your Free Bio Page

Join 138,000+ creators on Seemless.

Get Started Free