阿裡巴巴 Qwen チームは火曜日に Qwen-Robot Suite を発表しました。これはナビゲーション、操作、物理世界シミュレーションの三つの基本モデルからなる「具身知能フルスタック」です。Qwen-RobotNav は移動ナビゲーションを担当し、Qwen-RobotManip は機械操作を、Qwen-RobotWorld は物理世界のシミュレーションを担います。三つのモデルはそれぞれ独立して動作し、組み合わせることでロボット分野の「Android 時刻」を構成します。これはオペレーティングシステムであり、ハードウェアではありません。

Qwen-RobotNav：五合一ナビゲーションモデル

ナビゲーションモデルは、指示追従、目的地ナビゲーション、物体探索、ターゲット追跡、自律運転の五つのタスクを統合しています。各タスクには異なる視覚記憶戦略が必要です。多くのモデルは単一戦略に限定されますが、Qwen-RobotNav はパラメータ化可能なインターフェースを提供します：トークン予算、時間減衰、各カメラの重み付けです。プランナーは実行中に再設定可能です。

このモデルは 1,560 万サンプルで訓練され、VLN-CE RxR 基準（実環境の視覚と自然言語ナビゲーション）で成功率は 76.5%、EVT-Bench（移動ターゲット追跡）では 90% に達しました。

Qwen-RobotManip：跨ロボット操作

異なるロボットの動作表現は全く異なります。Franka ロボットアームは関節角度を使用し、ALOHA 二腕ロボットは爪の位置と方向を用います。ヒューマノイドロボットは全身座標系を使います。阿裡巴巴はオープンソースのロボットデータベースと人間の映像から約 38,100 時間の訓練データを合成し、私有データに依存しませんでした。

このモデルは RoboChallenge Table30-v1 基準で第一位に入り、以前の方法を 20% 上回りました。

Qwen-RobotWorld：言語即汎用インターフェース

これは最も野心的なモデルで、言語を条件とした映像世界モデルです。自然言語を汎用的な動作インターフェースとして利用します。「赤いカップを取って花に水を注ぐ」という指示は、爪、自動運転車、移動ナビゲーションエージェントに対しても共通です。

具身世界知識コーパスは、860 万の映像とテキストのペア、2億フレームをカバーし、操作（590 万サンプル、1,300+スキル、20+形態）、自律運転（Waymo、NVIDIA PhysicalAI-AD）、室内ナビゲーション、14種類のロボットアーム間の人間と機械の移行を含みます。モデルは EWMBench と DreamGen Bench の二つの基準で第一位に入り、ニュートンの運動法則、質量保存、流体力学、重力などの物理的一貫性テストで満点を獲得しました。

西洋の研究所と比べてどうか？

Google DeepMind、Nvidia、Figure、Physical Intelligence などの西洋の研究所も類似の目標を追求していますが、多くはナビゲーションや操作に焦点を当てており、統一された組み立て可能なパッケージにはなっていません。阿裡巴巴はチップからアプリケーションまで垂直統合しており、完全なエコシステムを掌握しています。これらのモデルはすべてオープンソースです。

ただし、開発者はこれらはソフトウェアモデルであり、実体のロボットではないと指摘しています。家庭用シナリオへの実用展開には数年を要する見込みです。阿裡巴巴は現時点で価格やスケジュール、試験運用以外の顧客リストは公表していません。