本週早些時候,Google DeepMind 發布了 Gemini Robotics-ER-1.6,這是一種新的視覺和語言模型,可幫助機器人理解周圍環境。為了展示其能力,波士頓動力公司(已同意在其人形機器人中使用 Gemini)發布了一段視頻,顯示其機器狗在檢查工業設施時使用該模型讀取溫度計。

儘管演示引人注目,但根據谷歌的基準測試,谷歌的新機器人模型僅在使用單個攝像頭反饋何時完成任務的能力方面比以前的模型取得了增量進步。但當接收多個攝影機的回饋時,該模型顯示出了改進。谷歌表示,這很重要,因為當今的許多機器人設置,例如工廠或倉庫中的機器人設置,都使用多個攝影機視圖,例如頭頂攝影機和安裝在機器人手臂上的攝影機。機器人必須能夠使用所有這些攝影機來對其正在做什麼有一個連貫的理解,並知道任務何時完成。

You May Also Like

Enjoyed This Article?

Get weekly tips on growing your audience and monetizing your content — straight to your inbox.

No spam. Join 138,000+ creators. Unsubscribe anytime.

Create Your Free Bio Page

Join 138,000+ creators on Seemless.

Get Started Free