6!ロボットもスキルを学べるようになった。
先ほど、NVIDIAがロボットを継続的に成長させるスキルライブラリを発表した——
ASPIRE。
簡単に言うと、ASPIREはロボット版のCoding Agentのようなものだ。
GPTがあなたのプロンプトや作業記録を再利用可能なスキルに変換するように、ASPIREもロボットの失敗や修復の経験を、後で呼び出せる知見として蓄積する。
ただし、レビューするのはコードではなく、ロボットの操作プロセスだ。
ロボットがタスクを実行するたびに、ASPIREは知覚、ナビゲーション、把持、衝突、動作計画などのプロセスをすべて記録する。
その背後で呼び出されるGPT/Claudeは、研究者のようにタスクの問題箇所を判断し、プログラムを反復改良する。成功すれば、その経験をスキルとして書き込む。
こうしてロボットは、コードの記述、実行軌跡の確認、プログラムの修正、スキルの蓄積を通じて継続的に学習できる。
そして、これは単にロボットの経験からスキルを抽出するだけではない。
NVIDIAのロボティクス部門責任者Jim Fan氏は、ASPIREがまったく新しい継続学習のパラダイムを表していると述べている。
その中で:
訓練は、勾配降下法からスキルの洗練(Skill Refinement)へと変化した。
訓練されたモデルは、もはや単なる浮動小数点の重みではなく、拡張し続けるロボットスキルライブラリ(Sensorimotor Skills)に対応する。
分散訓練は、複数のエージェントがそれぞれ異なるスキルを練習し、その経験を1つのスキルライブラリに集約する形となる。
冒頭でだいたい説明したが、ロボットの訓練パラダイムをどう革新するかを詳しく述べる前に、背景を少し説明しておく。
ASPIREの正式名称はAgentic Skill Programming through Iterative Robot Exploration。
これによりロボットはコードでタスクを実行し、失敗した場合はマルチモーダルな実行軌跡を確認してプログラムを修正し、修正した経験を増え続けるスキルライブラリに保存する。
ここでのスキルは、本質的には大規模言語モデルに与えるコンテキストの一部だが、検証済みのコード修正パターン(Code Repair Pattern)を蓄積しており、特定の種類の問題に遭遇した際にロボットが制御プログラムをどのように修正すべきかを示す。
例えば、ロボットがラジオを掴もうとしたとき、目標を認識しているにもかかわらず近づけない場合。
エージェントは、認識の誤りではなく、プランナーが指定した目標点がすべて障害物の衝突緩衝領域内にあると分析できる。
これにより、ASPIREはこの経験に基づいて新しいスキルをまとめる:
このような計画の失敗に遭遇した場合、45°、90°、180°などの異なる角度から目標に再接近し、衝突のない経路が見つかるまで試みる。
以後、同様のシナリオでは、目標がラジオであれ電子レンジであれ他の家具であれ、この経験を直接再利用でき、再試行の必要がない。
ここで疑問に思うかもしれない。ロボットの訓練といえば、データ収集、勾配降下法、モデル重み、実機データ収集、シミュレーションから現実への転移ではないのか?
なぜ突然スキルを蓄積することになったのか?
まず、最近注目されているパラダイムであるCode as Policyについて説明する必要がある。
VLAなどのエンドツーエンドのポリシーモデルとは異なり、Code as Policyはモデルにロボットの動作を直接出力させるのではなく、大規模言語モデルに実行可能なロボット制御プログラムを記述させる。
プログラム内では、知覚モジュール、計画API、制御プリミティブ(物体認識、経路計画、アーム移動、把持実行など)を呼び出すことができる。
これにより、ロボットの振る舞いはもはやニューラルネットワークの重みに完全に隠されるのではなく、実行可能な操作コードとなる。
コードがあれば、現在非常に強力なエージェントモデルによる検査、修正、デバッグ、最適化が可能になる。
しかし、これまでのCode as Policyには2つの問題があった。
第一に、ロボットが失敗しても、システムは通常「タスクが完了しなかった」ことしか知らず、知覚の誤りか、把持の失敗か、経路計画の衝突か、回復動作の問題かがわからない。
第二に、そしてより重要なのは、記憶を持たないことだ。
タスクが完了すると、デバッグ中に発見された修正方法、回復戦略、プロンプトの書き方は失われ、次に同様の問題に遭遇した際に最初からやり直さなければならない。
これこそが、Jim Fan氏が次のように述べた理由だ:
(ASPIREがあれば)ロボットが100番目のタスクを完了するとき、もはや1番目のタスクを完了したときのように何も知らない状態ではない。
要するに、このプロセス全体は人間のロボットエンジニアと同じだ:
ロボットプログラムが失敗すると、エンジニアは実行プロセスを再生し、知覚結果を確認し、動作軌跡を分析し、把持の誤りか、計画の誤りか、回復動作の接続の問題かを判断する。
修正後、エンジニアは今回の経験を記録する。次に机の端の物体、引き出しの取っ手、狭い空間のナビゲーションなどに遭遇したとき、ゼロから始める必要はない。
ASPIREが行うのは、この経験蓄積メカニズムをエージェントに委ねることだ。大規模言語モデルにロボットコードを書かせるだけでなく、実行環境で繰り返し試行し、繰り返し確認し、繰り返し修正させ、最終的に検証済みの修正経験をスキルとして蓄積させる。
したがって、ASPIREでは訓練はもはや勾配降下法だけではない。
訓練プロセスはスキルの洗練(Skill Refinement)となり、訓練の成果物もモデルの重みだけでなく、ロボットが蓄積し成長し続けるスキルライブラリとなる。
論文では、この考え方は3段階のパイプラインとして実装されている。
まずはrobot execution engine、つまりロボット実行エンジン。
従来のロボットプログラムが失敗すると、システムは単にタスクが完了しなかったとだけ通知するかもしれない。
ASPIREは失敗を分解し、各知覚、計画、把持、制御呼び出しの入力、出力、視覚的証拠、エラーログを残す。
人間のエンジニアがロボットを調整する際にビデオを再生し、軌跡を確認し、知覚の誤りか把持のクラッシュかを調べるように、ASPIREはこの一連の動作をコーディングエージェントに委ねる。
次にskill library。エージェントがプログラムを修正した後、その経験を捨てずに、再利用可能な知識として抽出する。
公式のスキルライブラリには、SAM3テキストプロンプトの書き方、机の端の物体への多角的アプローチ、引き出しの取っ手の誤検出フィルタリング、平面物体を押す際の動作プリミティブなど、具体的な項目が掲載されている。
これらは従来のモデル重みとは異なり、ロボットプログラマーの失敗ノートのようなものだ。
最後にevolutionary search。
エージェントは単一の修正経路をたどるだけでなく、システムは複数の候補制御プログラムを生成し、実行環境で実行させ、生き残ったプログラムと失敗した軌跡に基づいて反復する。
ソフトウェア工学では、コーディングエージェントはコードを書き、テストを実行し、トレースを確認し、バグを修正することに慣れている。ASPIREが行うことは、このサイクルを物理世界に移すことだ。
この方法を検証するため、論文では3つの古典的なロボット工学ベンチマークでテストを行った。LIBERO-Pro、Robosuite、BEHAVIOR-1Kであり、それぞれ汎用操作、接触密集型操作、長時間の家庭内タスクをカバーしている。
全体的な結果は、従来のCode as Policy手法よりも明らかに優れていた。
例えば、Robosuiteの両腕物体受け渡し(Bimanual Handover)タスクでは、ASPIREは成功率を20%から92%に向上させた。
また、汎化能力に関して。
研究ではまずLIBERO-90でスキルライブラリを蓄積し、その後、見たことのないLIBERO-Pro Longの長タスクに直接転移させた。その際、新しいタスクに対する追加訓練やスキルライブラリの更新は行わなかった。
結果は、スキルライブラリが豊富になるにつれて、ロボットの新しいタスクでの成功率も向上し、ほとんどできない状態から最終的に31%に達した。つまり、スキルライブラリが厚ければ厚いほど、ロボットは初心者のようではなくなる。
技術ブログの最後に、NVIDIAは完全な著者リストも公開した。
依然としてGEARチームの常連メンバー:Jim Fan、朱玉可、Guanzhi Wang、石冠亚など。
先頭に並ぶ3人の著者は共同貢献者である。
そのうち、Runyu Lu氏は現在ミシガン大学の博士課程2年生で、GEARでインターン中。Yuubo Wu氏はイリノイ大学アーバナ・シャンペーン校(UIUC)、Ethan Kou氏はカリフォルニア大学バークレー校出身で、現在は学部生である。
ちなみに、昨日NVIDIAは国内のロボットチームの採用拡大も発表し、北京、上海、深圳の3都市で多くのポジションを公開した。具身知能、シミュレーション、ロボット展開、ソリューションアーキテクチャなどの分野をカバーしている。
本稿の出典:量子位
リスク警告および免責条項
市場にはリスクが伴い、投資には注意が必要です。本稿は個人の投資アドバイスを構成するものではなく、個々のユーザーの特別な投資目標、財務状況、ニーズも考慮していません。ユーザーは本稿の意見、見解、結論が自身の状況に適合するかを検討する必要があります。これに基づく投資は自己責任で行ってください。
132.91K 人気度
1.11M 人気度
67.27K 人気度
562.61K 人気度
3.83M 人気度
具身知能のスキルタイム!NVIDIAがロボットスキルライブラリをオープンソース化、Jim Fan:パラダイムが変わった
6!ロボットもスキルを学べるようになった。
先ほど、NVIDIAがロボットを継続的に成長させるスキルライブラリを発表した——
ASPIRE。
簡単に言うと、ASPIREはロボット版のCoding Agentのようなものだ。
GPTがあなたのプロンプトや作業記録を再利用可能なスキルに変換するように、ASPIREもロボットの失敗や修復の経験を、後で呼び出せる知見として蓄積する。
ただし、レビューするのはコードではなく、ロボットの操作プロセスだ。
ロボットがタスクを実行するたびに、ASPIREは知覚、ナビゲーション、把持、衝突、動作計画などのプロセスをすべて記録する。
その背後で呼び出されるGPT/Claudeは、研究者のようにタスクの問題箇所を判断し、プログラムを反復改良する。成功すれば、その経験をスキルとして書き込む。
こうしてロボットは、コードの記述、実行軌跡の確認、プログラムの修正、スキルの蓄積を通じて継続的に学習できる。
そして、これは単にロボットの経験からスキルを抽出するだけではない。
NVIDIAのロボティクス部門責任者Jim Fan氏は、ASPIREがまったく新しい継続学習のパラダイムを表していると述べている。
その中で:
訓練は、勾配降下法からスキルの洗練(Skill Refinement)へと変化した。
訓練されたモデルは、もはや単なる浮動小数点の重みではなく、拡張し続けるロボットスキルライブラリ(Sensorimotor Skills)に対応する。
分散訓練は、複数のエージェントがそれぞれ異なるスキルを練習し、その経験を1つのスキルライブラリに集約する形となる。
訓練の成果は、必ずしも重みとは限らない
冒頭でだいたい説明したが、ロボットの訓練パラダイムをどう革新するかを詳しく述べる前に、背景を少し説明しておく。
ASPIREの正式名称はAgentic Skill Programming through Iterative Robot Exploration。
これによりロボットはコードでタスクを実行し、失敗した場合はマルチモーダルな実行軌跡を確認してプログラムを修正し、修正した経験を増え続けるスキルライブラリに保存する。
ここでのスキルは、本質的には大規模言語モデルに与えるコンテキストの一部だが、検証済みのコード修正パターン(Code Repair Pattern)を蓄積しており、特定の種類の問題に遭遇した際にロボットが制御プログラムをどのように修正すべきかを示す。
例えば、ロボットがラジオを掴もうとしたとき、目標を認識しているにもかかわらず近づけない場合。
エージェントは、認識の誤りではなく、プランナーが指定した目標点がすべて障害物の衝突緩衝領域内にあると分析できる。
これにより、ASPIREはこの経験に基づいて新しいスキルをまとめる:
以後、同様のシナリオでは、目標がラジオであれ電子レンジであれ他の家具であれ、この経験を直接再利用でき、再試行の必要がない。
ここで疑問に思うかもしれない。ロボットの訓練といえば、データ収集、勾配降下法、モデル重み、実機データ収集、シミュレーションから現実への転移ではないのか?
なぜ突然スキルを蓄積することになったのか?
まず、最近注目されているパラダイムであるCode as Policyについて説明する必要がある。
VLAなどのエンドツーエンドのポリシーモデルとは異なり、Code as Policyはモデルにロボットの動作を直接出力させるのではなく、大規模言語モデルに実行可能なロボット制御プログラムを記述させる。
プログラム内では、知覚モジュール、計画API、制御プリミティブ(物体認識、経路計画、アーム移動、把持実行など)を呼び出すことができる。
これにより、ロボットの振る舞いはもはやニューラルネットワークの重みに完全に隠されるのではなく、実行可能な操作コードとなる。
コードがあれば、現在非常に強力なエージェントモデルによる検査、修正、デバッグ、最適化が可能になる。
しかし、これまでのCode as Policyには2つの問題があった。
第一に、ロボットが失敗しても、システムは通常「タスクが完了しなかった」ことしか知らず、知覚の誤りか、把持の失敗か、経路計画の衝突か、回復動作の問題かがわからない。
第二に、そしてより重要なのは、記憶を持たないことだ。
タスクが完了すると、デバッグ中に発見された修正方法、回復戦略、プロンプトの書き方は失われ、次に同様の問題に遭遇した際に最初からやり直さなければならない。
これこそが、Jim Fan氏が次のように述べた理由だ:
要するに、このプロセス全体は人間のロボットエンジニアと同じだ:
ロボットプログラムが失敗すると、エンジニアは実行プロセスを再生し、知覚結果を確認し、動作軌跡を分析し、把持の誤りか、計画の誤りか、回復動作の接続の問題かを判断する。
修正後、エンジニアは今回の経験を記録する。次に机の端の物体、引き出しの取っ手、狭い空間のナビゲーションなどに遭遇したとき、ゼロから始める必要はない。
ASPIREが行うのは、この経験蓄積メカニズムをエージェントに委ねることだ。大規模言語モデルにロボットコードを書かせるだけでなく、実行環境で繰り返し試行し、繰り返し確認し、繰り返し修正させ、最終的に検証済みの修正経験をスキルとして蓄積させる。
したがって、ASPIREでは訓練はもはや勾配降下法だけではない。
訓練プロセスはスキルの洗練(Skill Refinement)となり、訓練の成果物もモデルの重みだけでなく、ロボットが蓄積し成長し続けるスキルライブラリとなる。
3段階のパイプライン
論文では、この考え方は3段階のパイプラインとして実装されている。
まずはrobot execution engine、つまりロボット実行エンジン。
従来のロボットプログラムが失敗すると、システムは単にタスクが完了しなかったとだけ通知するかもしれない。
ASPIREは失敗を分解し、各知覚、計画、把持、制御呼び出しの入力、出力、視覚的証拠、エラーログを残す。
人間のエンジニアがロボットを調整する際にビデオを再生し、軌跡を確認し、知覚の誤りか把持のクラッシュかを調べるように、ASPIREはこの一連の動作をコーディングエージェントに委ねる。
次にskill library。エージェントがプログラムを修正した後、その経験を捨てずに、再利用可能な知識として抽出する。
公式のスキルライブラリには、SAM3テキストプロンプトの書き方、机の端の物体への多角的アプローチ、引き出しの取っ手の誤検出フィルタリング、平面物体を押す際の動作プリミティブなど、具体的な項目が掲載されている。
これらは従来のモデル重みとは異なり、ロボットプログラマーの失敗ノートのようなものだ。
最後にevolutionary search。
エージェントは単一の修正経路をたどるだけでなく、システムは複数の候補制御プログラムを生成し、実行環境で実行させ、生き残ったプログラムと失敗した軌跡に基づいて反復する。
ソフトウェア工学では、コーディングエージェントはコードを書き、テストを実行し、トレースを確認し、バグを修正することに慣れている。ASPIREが行うことは、このサイクルを物理世界に移すことだ。
実験による検証
この方法を検証するため、論文では3つの古典的なロボット工学ベンチマークでテストを行った。LIBERO-Pro、Robosuite、BEHAVIOR-1Kであり、それぞれ汎用操作、接触密集型操作、長時間の家庭内タスクをカバーしている。
全体的な結果は、従来のCode as Policy手法よりも明らかに優れていた。
例えば、Robosuiteの両腕物体受け渡し(Bimanual Handover)タスクでは、ASPIREは成功率を20%から92%に向上させた。
また、汎化能力に関して。
研究ではまずLIBERO-90でスキルライブラリを蓄積し、その後、見たことのないLIBERO-Pro Longの長タスクに直接転移させた。その際、新しいタスクに対する追加訓練やスキルライブラリの更新は行わなかった。
結果は、スキルライブラリが豊富になるにつれて、ロボットの新しいタスクでの成功率も向上し、ほとんどできない状態から最終的に31%に達した。つまり、スキルライブラリが厚ければ厚いほど、ロボットは初心者のようではなくなる。
著者紹介
技術ブログの最後に、NVIDIAは完全な著者リストも公開した。
依然としてGEARチームの常連メンバー:Jim Fan、朱玉可、Guanzhi Wang、石冠亚など。
先頭に並ぶ3人の著者は共同貢献者である。
そのうち、Runyu Lu氏は現在ミシガン大学の博士課程2年生で、GEARでインターン中。Yuubo Wu氏はイリノイ大学アーバナ・シャンペーン校(UIUC)、Ethan Kou氏はカリフォルニア大学バークレー校出身で、現在は学部生である。
ちなみに、昨日NVIDIAは国内のロボットチームの採用拡大も発表し、北京、上海、深圳の3都市で多くのポジションを公開した。具身知能、シミュレーション、ロボット展開、ソリューションアーキテクチャなどの分野をカバーしている。
本稿の出典:量子位
リスク警告および免責条項