今週初め、Google DeepMind は、ロボットが周囲の状況を理解できるようにする新しいビジョンと言語モデルである Gemini Robotics-ER-1.6 をリリースしました。人型ロボットに Gemini を使用する契約を結んでいるボストン ダイナミクスは、その機能を誇示するために、産業施設の検査中にこのモデルを使用して温度計を読み取る自社のロボット犬のビデオを公開しました。
Google のベンチマークによると、目を引くデモにもかかわらず、Google の新しいロボット工学モデルは、単一のカメラ フィードを使用してタスクがいつ終了したかを知る能力の点で、以前のモデルよりも少しずつ進歩しただけでした。しかし、複数のカメラ フィードを取り込むと、モデルは改善を示しました。 Googleによれば、これは重要だという。なぜなら、今日の工場や倉庫などの多くのロボット設定では、頭上のカメラやロボットのアームに取り付けられたカメラなどの複数のカメラビューが使用されているからだ。ロボットは、ロボットが行っていることを一貫して理解し、タスクがいつ完了するかを知るために、これらすべてのカメラを使用できなければなりません。