No início desta semana, o Google DeepMind lançou o Gemini Robotics-ER-1.6, um novo modelo de visão e linguagem para ajudar os robôs a entender o que os rodeia. Para mostrar suas capacidades, a Boston Dynamics, que tem um acordo para usar o Gemini em seus robôs humanóides, publicou um vídeo de seus cães-robôs usando o modelo para ler um termômetro durante uma inspeção de uma instalação industrial.

Apesar das demonstrações atraentes, o novo modelo de robótica do Google apenas obteve ganhos incrementais em relação aos modelos anteriores em termos de sua capacidade de dizer quando terminou uma tarefa usando uma única câmera, de acordo com os benchmarks do Google. Mas ao capturar imagens de múltiplas câmeras, o modelo mostrou uma melhoria. Isso é importante, diz o Google, porque muitas configurações de robótica hoje, como aquelas em fábricas ou armazéns, usam múltiplas visualizações de câmera, como uma câmera suspensa e uma câmera montada no braço do robô. O robô deve ser capaz de usar todas essas câmeras para criar uma compreensão coerente do que está fazendo e saber quando a tarefa está concluída.

You May Also Like

Enjoyed This Article?

Get weekly tips on growing your audience and monetizing your content — straight to your inbox.

No spam. Join 138,000+ creators. Unsubscribe anytime.

Create Your Free Bio Page

Join 138,000+ creators on Seemless.

Get Started Free