本周早些时候,Google DeepMind 发布了 Gemini Robotics-ER-1.6,这是一种新的视觉和语言模型,可帮助机器人理解周围环境。为了展示其能力,波士顿动力公司(已同意在其人形机器人中使用 Gemini)发布了一段视频,显示其机器狗在检查工业设施时使用该模型读取温度计。
尽管演示引人注目,但根据谷歌的基准测试,谷歌的新机器人模型仅在使用单个摄像头反馈何时完成任务的能力方面比以前的模型取得了增量进步。但当接收多个摄像机的反馈时,该模型显示出了改进。谷歌表示,这很重要,因为当今的许多机器人设置,例如工厂或仓库中的机器人设置,都使用多个摄像头视图,例如头顶摄像头和安装在机器人手臂上的摄像头。机器人必须能够使用所有这些摄像头来对其正在做什么有一个连贯的理解,并知道任务何时完成。