# アリババはAIモデルをロボット制御用に発表しました
アリババはQwen-Robot Suiteを発表しました — 物理環境でのロボットとタスクのためのAIモデルのセット:Qwen-RobotNavはナビゲーション用、Qwen-RobotManipは物体操作用、Qwen-RobotWorldはシーンの展開予測用です。チームはこのプロジェクトを「具現化された人工知能のフルスタック」と表現しました。
📣 Qwen-Robot Suiteの紹介 — Qwen-RobotNav、Qwen-RobotManip、Qwen-RobotWorld、3つの基盤モデル、具現化された知能のフルスタック。 🧭 Qwen-RobotNav — 移動性へのゲートウェイ。 • 5つのナビゲーションタスクを1つのモデルに統合:指示の追従、ポイントゴール、… pic.twitter.com/noumjTtTeS — Qwen (@Alibaba_Qwen) 2026年6月16日
📣 Qwen-Robot Suiteの紹介 — Qwen-RobotNav、Qwen-RobotManip、Qwen-RobotWorld、3つの基盤モデル、具現化された知能のフルスタック。
🧭 Qwen-RobotNav — 移動性へのゲートウェイ。 • 5つのナビゲーションタスクを1つのモデルに統合:指示の追従、ポイントゴール、… pic.twitter.com/noumjTtTeS
— Qwen (@Alibaba_Qwen) 2026年6月16日
これは、物理的エージェントが周囲の環境を認識し、行動を計画し、自然言語でコマンドを実行するのを支援するプログラムモデルについてです。Qwen-Robot Suiteはすでに一部の企業顧客のロボット工学分野でパイロット試験を行っています。
大規模な言語モデルやマルチモーダルモデルはすでにテキスト、画像、動画、音声の処理が可能ですが、ロボットにはそれだけでは不十分です。物理的エージェントは、コマンドを理解するだけでなく、それを動きに変換し、空間や物体の性質、センサーの制約、行動の結果を考慮する必要があります。
アリババはこれを「physical AI」または「具現化されたAI」と呼んでいます。このアプローチでは、モデルはデジタルデータだけでなく、物理環境とも連携し、移動、物体の発見、マニピュレーターの制御、行動後の予測を行う必要があります。
Qwen-RobotNavはナビゲーションを担当します。モデルは5つのタスク群を統合しています:
アリババによると、Qwen-RobotNavはQwen3-VLを基盤とし、ルート計画や視覚・言語推論に関する1560万のサンプルで訓練されています。
同社はVLN-CE RxRで76.5%、EVT-Benchで90%の成功率を報告しています。さらに、Qwen-RobotNavはより大きなエージェントシステムのツールとしても機能し、上位レベルのモデルがタスクを計画し、Qwen-RobotNavが移動を担当します。
出典:Qwen。アリババのデモでは、室内での紛失物探索や特定の物体が開いているかの確認などのシナリオが紹介されています。こうしたタスクでは、ロボットは単に動くだけでなく、視覚的証拠を収集し、ユーザーに回答を返す必要があります。
Qwen-RobotManipは物理的な物体操作を目的としています。モデルは、ロボットが物を掴み、移動させ、配置し、異なるデバイス間でスキルを移行するのを支援します。
出典:Qwen-RobotManip。ロボット工学の主要な課題の一つは、ロボットが行動を異なる方法で記述することです。マニピュレーター、二腕プラットフォーム、ハンド付きロボット、モバイルシステムは、それぞれ異なる座標系、関節、コマンドフォーマットを使用します。Qwen-RobotManipはこれらのデータを共通の表現に統一し、一つのロボットタイプでの学習が他のロボットにも応用できるようにします。
アリババは、38,100時間以上のデータを用いて訓練しました。その中には、11,320時間の公開ロボットデータ、1,933時間の一人称視点の人間の行動動画、2,4808時間の合成ロボットデモ動画(これらは動画を基に作成)も含まれます。
同社は、モデルがRoboChallenge Table30 v1のユニバーサルモデル部門で1位を獲得したと発表しました。アリババによると、Qwen-RobotManipは新しい指示や未知の物体に対しても堅牢性を示し、異なるロボット間のスキル移行も可能です。
Qwen-RobotWorldは、自然言語で操作可能なビデオベースの世界モデルです。指定された行動の後にシーンがどのように展開するかを予測します。
出典:Qwen-RobotWorld。例えば、モデルは現在の観測とテキストコマンドを受け取り、環境の未来の状態を確率的に生成します。このアプローチは、操作、自律運転、ナビゲーション、計画、ロボット用の合成学習データ作成に利用されます。
Qwen-RobotWorldの訓練には、「Embodied World Knowledge」コーパスを収集しました。これは860万の「動画-テキスト」ペアと2億以上のフレームを含み、20以上のロボットプラットフォームと500以上の行動カテゴリをカバーします。
アリババは、Qwen-RobotWorldがEWMBenchとDreamGen Benchで1位を獲得し、WorldModelBenchやPBenchのすべての公開モデルを上回ったと発表しました。技術的な説明では、モデルが基本的な物理法則(運動、質量保存、流体、重力)と高い整合性を示すとも述べられています。
これらの成果にもかかわらず、Qwen-Robot Suiteは現時点ではモデルの集合体であり、完成された消費者向けロボットプラットフォームではありません。実際の導入には、センサーのノイズ、アクチュエータの摩耗、異常な状況、認識エラー、そして多くの稀なシナリオが伴います。多くのベンチマークはシミュレーションや限定的な実験環境で行われています。
アリババはまた、アクセスコストや公開時期、すでにQwen-Robot Suiteをテストしている顧客リストについても明らかにしていません。
ちなみに、4月にアリババクラウドは、コンテキストウィンドウ1百万トークンと外部ツール対応のエージェントモデルQwen3.6-Plusを発表しました。
1.02M 人気度
20.27M 人気度
60.47K 人気度
917.52K 人気度
2.07M 人気度
アリババ、ロボット管理用のAIモデルを発表 - ForkLog
アリババはQwen-Robot Suiteを発表しました — 物理環境でのロボットとタスクのためのAIモデルのセット:Qwen-RobotNavはナビゲーション用、Qwen-RobotManipは物体操作用、Qwen-RobotWorldはシーンの展開予測用です。チームはこのプロジェクトを「具現化された人工知能のフルスタック」と表現しました。
これは、物理的エージェントが周囲の環境を認識し、行動を計画し、自然言語でコマンドを実行するのを支援するプログラムモデルについてです。Qwen-Robot Suiteはすでに一部の企業顧客のロボット工学分野でパイロット試験を行っています。
なぜアリババはQwenを物理世界に展開するのか
大規模な言語モデルやマルチモーダルモデルはすでにテキスト、画像、動画、音声の処理が可能ですが、ロボットにはそれだけでは不十分です。物理的エージェントは、コマンドを理解するだけでなく、それを動きに変換し、空間や物体の性質、センサーの制約、行動の結果を考慮する必要があります。
アリババはこれを「physical AI」または「具現化されたAI」と呼んでいます。このアプローチでは、モデルはデジタルデータだけでなく、物理環境とも連携し、移動、物体の発見、マニピュレーターの制御、行動後の予測を行う必要があります。
Qwen-RobotNav:1つのモデルにおける5つのナビゲーションタスク
Qwen-RobotNavはナビゲーションを担当します。モデルは5つのタスク群を統合しています:
アリババによると、Qwen-RobotNavはQwen3-VLを基盤とし、ルート計画や視覚・言語推論に関する1560万のサンプルで訓練されています。
同社はVLN-CE RxRで76.5%、EVT-Benchで90%の成功率を報告しています。さらに、Qwen-RobotNavはより大きなエージェントシステムのツールとしても機能し、上位レベルのモデルがタスクを計画し、Qwen-RobotNavが移動を担当します。
Qwen-RobotManip:物体操作
Qwen-RobotManipは物理的な物体操作を目的としています。モデルは、ロボットが物を掴み、移動させ、配置し、異なるデバイス間でスキルを移行するのを支援します。
アリババは、38,100時間以上のデータを用いて訓練しました。その中には、11,320時間の公開ロボットデータ、1,933時間の一人称視点の人間の行動動画、2,4808時間の合成ロボットデモ動画(これらは動画を基に作成)も含まれます。
同社は、モデルがRoboChallenge Table30 v1のユニバーサルモデル部門で1位を獲得したと発表しました。アリババによると、Qwen-RobotManipは新しい指示や未知の物体に対しても堅牢性を示し、異なるロボット間のスキル移行も可能です。
Qwen-RobotWorld:ロボット用の世界モデル
Qwen-RobotWorldは、自然言語で操作可能なビデオベースの世界モデルです。指定された行動の後にシーンがどのように展開するかを予測します。
Qwen-RobotWorldの訓練には、「Embodied World Knowledge」コーパスを収集しました。これは860万の「動画-テキスト」ペアと2億以上のフレームを含み、20以上のロボットプラットフォームと500以上の行動カテゴリをカバーします。
アリババは、Qwen-RobotWorldがEWMBenchとDreamGen Benchで1位を獲得し、WorldModelBenchやPBenchのすべての公開モデルを上回ったと発表しました。技術的な説明では、モデルが基本的な物理法則(運動、質量保存、流体、重力)と高い整合性を示すとも述べられています。
大量のロボットにはまだ遠い
これらの成果にもかかわらず、Qwen-Robot Suiteは現時点ではモデルの集合体であり、完成された消費者向けロボットプラットフォームではありません。実際の導入には、センサーのノイズ、アクチュエータの摩耗、異常な状況、認識エラー、そして多くの稀なシナリオが伴います。多くのベンチマークはシミュレーションや限定的な実験環境で行われています。
アリババはまた、アクセスコストや公開時期、すでにQwen-Robot Suiteをテストしている顧客リストについても明らかにしていません。
ちなみに、4月にアリババクラウドは、コンテキストウィンドウ1百万トークンと外部ツール対応のエージェントモデルQwen3.6-Plusを発表しました。