Google DeepMindはGemini Robotics-ER 1.6を発表し、Spotロボットは既に自動で計器盤を読むことができる

robot
概要作成中

ME News ニュース、4月14日(UTC+8)、1M AI Newsの監視によると、Google DeepMindはGemini Robotics-ER 1.6を発表し、これはロボットの高次推論モデルとして位置付けられ、前世代のER 1.5やGemini 3.0 Flashと比べて空間推論や多視点理解において顕著な向上を示している。モデルはすでにGemini APIとGoogle AI Studioを通じて開発者に公開されている。
コアのアップグレードは三つの能力を含む:

  1. 指向(pointing)精度の向上:正確な物体検出、カウント、空間関係推論(例:「青いカップに入るすべての物体を指摘」)や動き軌跡の計画に利用可能で、画面中に存在しない物体への指向を正しく拒否できる。
  2. 多視点成功検出:ロボットは複数のカメラ映像を統合してタスクの完了を判断できるようになり、遮蔽や動的環境下でも正確さを維持する。
  3. 新たな計器読み取り能力:円形圧力計、垂直液位指示器、デジタル表示器など多様な工業用計器を解読し、agentic vision(視覚推論+コード実行)を通じて段階的に推論を行う。詳細部分を拡大し、指向とコード計算で比率や間隔を算出し、最後に世界知識と結びつけて読取値を得る。
    計器読み取り能力はDeepMindとBoston Dynamicsの協力によるものだ。Boston Dynamicsは同日、GeminiとGemini Robotics-ER 1.6を自社のOrbit AIVI-Learning製品に統合し、4月8日にすべてのAIVI-Learning顧客に提供開始した。
    統合後、計器(gauges)サポートが追加され、四足歩行ロボットSpotは工業施設内で自主巡回し、圧力計などの計器データを読み取ることができるようになった。Boston Dynamicsは、Geminiの推論能力を活用することで、AIVI-Learningの既存の視覚巡回、パレットカウント、液体検出などのタスクにおける基準性能と精度も向上したと述べている。
    DeepMindはER 1.6を「最も安全なロボットモデル」と称している。対抗的空間推論タスクにおいて、安全指示遵守度はER 1.5を大きく上回る。実傷報告に基づく安全リスク識別テストでは、ERシリーズモデルはGemini 3.0 Flashに比べてテキストシナリオで6%、動画シナリオで10%高い成績を示した。
    (出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン