阿裡巴巴 Qwen チームは火曜日に Qwen-Robot Suite を発表しました。これはナビゲーション、操作、物理世界シミュレーションの三つの基本モデルからなる「具身知能フルスタック」です。Qwen-RobotNav は移動ナビゲーションを担当し、Qwen-RobotManip は機械操作を、Qwen-RobotWorld は物理世界のシミュレーションを担います。三つのモデルはそれぞれ独立して動作し、組み合わせることでロボット分野の「Android 時刻」を構成します。これはオペレーティングシステムであり、ハードウェアではありません。
ナビゲーションモデルは、指示追従、目的地ナビゲーション、物体探索、ターゲット追跡、自律運転の五つのタスクを統合しています。各タスクには異なる視覚記憶戦略が必要です。多くのモデルは単一戦略に限定されますが、Qwen-RobotNav はパラメータ化可能なインターフェースを提供します:トークン予算、時間減衰、各カメラの重み付けです。プランナーは実行中に再設定可能です。
このモデルは 1,560 万サンプルで訓練され、VLN-CE RxR 基準(実環境の視覚と自然言語ナビゲーション)で成功率は 76.5%、EVT-Bench(移動ターゲット追跡)では 90% に達しました。
異なるロボットの動作表現は全く異なります。Franka ロボットアームは関節角度を使用し、ALOHA 二腕ロボットは爪の位置と方向を用います。ヒューマノイドロボットは全身座標系を使います。阿裡巴巴はオープンソースのロボットデータベースと人間の映像から約 38,100 時間の訓練データを合成し、私有データに依存しませんでした。
このモデルは RoboChallenge Table30-v1 基準で第一位に入り、以前の方法を 20% 上回りました。
これは最も野心的なモデルで、言語を条件とした映像世界モデルです。自然言語を汎用的な動作インターフェースとして利用します。「赤いカップを取って花に水を注ぐ」という指示は、爪、自動運転車、移動ナビゲーションエージェントに対しても共通です。
具身世界知識コーパスは、860 万の映像とテキストのペア、2億フレームをカバーし、操作(590 万サンプル、1,300+スキル、20+形態)、自律運転(Waymo、NVIDIA PhysicalAI-AD)、室内ナビゲーション、14種類のロボットアーム間の人間と機械の移行を含みます。モデルは EWMBench と DreamGen Bench の二つの基準で第一位に入り、ニュートンの運動法則、質量保存、流体力学、重力などの物理的一貫性テストで満点を獲得しました。
Google DeepMind、Nvidia、Figure、Physical Intelligence などの西洋の研究所も類似の目標を追求していますが、多くはナビゲーションや操作に焦点を当てており、統一された組み立て可能なパッケージにはなっていません。阿裡巴巴はチップからアプリケーションまで垂直統合しており、完全なエコシステムを掌握しています。これらのモデルはすべてオープンソースです。
ただし、開発者はこれらはソフトウェアモデルであり、実体のロボットではないと指摘しています。家庭用シナリオへの実用展開には数年を要する見込みです。阿裡巴巴は現時点で価格やスケジュール、試験運用以外の顧客リストは公表していません。
638.97K 人気度
2.05M 人気度
58.58K 人気度
841.55K 人気度
68.4M 人気度
アリババがQwen-Robotの三つのモデルを発表!ロボットのナビゲーション、操作、物理シミュレーションを一度に実現
阿裡巴巴 Qwen チームは火曜日に Qwen-Robot Suite を発表しました。これはナビゲーション、操作、物理世界シミュレーションの三つの基本モデルからなる「具身知能フルスタック」です。Qwen-RobotNav は移動ナビゲーションを担当し、Qwen-RobotManip は機械操作を、Qwen-RobotWorld は物理世界のシミュレーションを担います。三つのモデルはそれぞれ独立して動作し、組み合わせることでロボット分野の「Android 時刻」を構成します。これはオペレーティングシステムであり、ハードウェアではありません。
Qwen-RobotNav:五合一ナビゲーションモデル
ナビゲーションモデルは、指示追従、目的地ナビゲーション、物体探索、ターゲット追跡、自律運転の五つのタスクを統合しています。各タスクには異なる視覚記憶戦略が必要です。多くのモデルは単一戦略に限定されますが、Qwen-RobotNav はパラメータ化可能なインターフェースを提供します:トークン予算、時間減衰、各カメラの重み付けです。プランナーは実行中に再設定可能です。
このモデルは 1,560 万サンプルで訓練され、VLN-CE RxR 基準(実環境の視覚と自然言語ナビゲーション)で成功率は 76.5%、EVT-Bench(移動ターゲット追跡)では 90% に達しました。
Qwen-RobotManip:跨ロボット操作
異なるロボットの動作表現は全く異なります。Franka ロボットアームは関節角度を使用し、ALOHA 二腕ロボットは爪の位置と方向を用います。ヒューマノイドロボットは全身座標系を使います。阿裡巴巴はオープンソースのロボットデータベースと人間の映像から約 38,100 時間の訓練データを合成し、私有データに依存しませんでした。
このモデルは RoboChallenge Table30-v1 基準で第一位に入り、以前の方法を 20% 上回りました。
Qwen-RobotWorld:言語即汎用インターフェース
これは最も野心的なモデルで、言語を条件とした映像世界モデルです。自然言語を汎用的な動作インターフェースとして利用します。「赤いカップを取って花に水を注ぐ」という指示は、爪、自動運転車、移動ナビゲーションエージェントに対しても共通です。
具身世界知識コーパスは、860 万の映像とテキストのペア、2億フレームをカバーし、操作(590 万サンプル、1,300+スキル、20+形態)、自律運転(Waymo、NVIDIA PhysicalAI-AD)、室内ナビゲーション、14種類のロボットアーム間の人間と機械の移行を含みます。モデルは EWMBench と DreamGen Bench の二つの基準で第一位に入り、ニュートンの運動法則、質量保存、流体力学、重力などの物理的一貫性テストで満点を獲得しました。
西洋の研究所と比べてどうか?
Google DeepMind、Nvidia、Figure、Physical Intelligence などの西洋の研究所も類似の目標を追求していますが、多くはナビゲーションや操作に焦点を当てており、統一された組み立て可能なパッケージにはなっていません。阿裡巴巴はチップからアプリケーションまで垂直統合しており、完全なエコシステムを掌握しています。これらのモデルはすべてオープンソースです。
ただし、開発者はこれらはソフトウェアモデルであり、実体のロボットではないと指摘しています。家庭用シナリオへの実用展開には数年を要する見込みです。阿裡巴巴は現時点で価格やスケジュール、試験運用以外の顧客リストは公表していません。