買幣

付款方式為

USD

買幣&賣幣

Hot

支援 Visa、Mastercard、SEPA 等多種支付方式

基礎交易

進階交易

打新

理財產品

推廣

在社交 App 中直接使用 Gate AI

GateClaw

Gate 藍龍蝦，開箱即用

Gate for AI Agent

AI 基礎設施，Gate MCP、Skills 與 CLI

Gate Skills Hub

萬級技能

從辦公到交易，一站式技能庫讓 AI 更好用

其他

具身智能的Skill時刻！英偉達開源機器人技能庫，Jim Fan：範式變了

快照民工

2026-07-01 09:54:20

6！機器人也能學Skill了。

剛剛，輝達放出了一套能讓機器人持續成長的技能庫——

ASPIRE。

簡單理解，ASPIRE有點像一個機器人版Coding Agent。

就跟GPT能把你的prompt、工作記錄煉成可複用的skill一樣，它也會把機器人的一次次失敗和修復，沉澱成之後能繼續調用的經驗。

只不過，它review的不是程式碼，而是機器人的操作過程。

每當機器人執行任務時，ASPIRE就會把感知、導航、抓取、碰撞、運動規劃這些過程都記下來。

它背後呼叫的GPT / Claude則會像研究員一樣，判斷任務中哪裡出了問題，疊代程式。如果跑通，就把沉澱出來的經驗寫進Skill。

由此，機器人就可以透過寫程式碼、看執行軌跡、修程式、沉澱技能來持續學習。

而這，可不光是在機器人經驗中煉化Skill這麼簡單。

輝達機器人主管Jim Fan還表示ASPIRE代表了一種全新的持續學習範式。

其中：

訓練，從梯度下降變成了不斷打磨技能（Skill Refinement）；
訓練好的模型，對應的也不再只是一堆浮點權重，而是一個持續擴展的機器人技能庫（Sensorimotor Skills）；
分散式訓練，則變成了一群 Agent 各自練習不同技能，再把經驗匯總進同一個技能庫。

訓練出來的，不一定是權重

雖然開頭已經介紹的七七八八，但在講怎麼革新機器人訓練範式前，咱先囉嗦幾句背景。

ASPIRE的全名叫Agentic Skill Programming through Iterative Robot Exploration。

它能讓機器人用程式碼執行任務，失敗後看多模態執行軌跡，再修程式，把修好的經驗存進一個不斷變厚的skills library。

這裡的Skill，雖然本質上還是一段餵給大模型的上下文，卻沉澱著一套經過驗證的程式碼修復經驗（Code Repair Pattern），讓機器人知道遇到某類問題時，該如何修改控制程式。

比如，當機器人準備拿起一個收音機時，已經識別到了目標，卻始終無法靠近時。

Agent能分析出來原因並非識別錯了，而是規劃器（Planner）給出的目標點都落在障礙物的碰撞緩衝區內。

由此，ASPIRE就會在這次經驗的基礎上，總結出一條新的Skill：

如果遇到這種規劃失敗，就嘗試從45°、90°、180° 等不同角度重新接近目標，直到找到一條無碰撞路徑。

以後再遇到類似場景，無論目標變成收音機、微波爐還是其他家具，這條經驗都可以直接複用，不必重新試錯。

說到這，你可能會好奇。機器人訓練，不應該都是搞數據、梯度下降、模型權重、真機採集、仿真到現實遷移嗎？

怎麼就突然成攢skill了？

這裡要先講一個最近很火的範式，Code as Policy。

跟VLA等端到端的策略模型不同，Code as Policy不讓模型直接輸出機器人動作，而是讓大模型寫一段可執行的機器人控制程式。

程式裡可以呼叫感知模組、規劃API和控制原語，比如識別物體、規劃路徑、移動機械臂、執行抓取。

這樣一來，機器人行為就不再完全藏在神經網路權重裡，而是變成了可執行的操作程式碼。

有了程式碼，就可以被現在強的離譜的Agent模型檢查、修改、除錯、繼續優化。

但過去，Code as Policy一直有兩個問題。

第一，機器人失敗了，系統通常只知道「任務沒完成」，卻不知道到底是感知錯了、抓取沒抓穩、路徑規劃撞了，還是恢復動作出了問題。

第二，也是更關鍵的一點，它不會長記性。

一個任務做完，除錯過程中發現的修復方案、恢復策略、prompt寫法就被丟掉了，下次遇到類似問題，還得重來一遍。

這也是為啥Jim Fan說:

（有了ASPIRE）當機器人完成第100個任務時，它終於不再像完成第1個任務時那樣一無所知。

說白了，這整個過程就跟人類機器人工程師一樣：

當一個機器人程式失敗後，工程師會回放執行過程，看感知結果，分析運動軌跡，判斷到底是抓取錯了、規劃錯了，還是某個恢復動作沒接上。

修好之後，工程師會記下這次的經驗。下次再遇到桌邊物體、抽屜把手、窄空間導航，就不會從零開始。

而ASPIRE做的，就是把這套經驗積累機制交給agent。它不只是讓大模型寫機器人程式碼，更讓大模型在執行環境裡反覆試、反覆看、反覆修，最後把驗證過的修復經驗沉澱成Skill。

所以，在ASPIRE裡，訓練已經不只是梯度下降。

訓練過程變成了Skill Refinement；訓練產物，也不只是模型權重，而是一個機器人不斷積累、不斷成長的Skills Library。

三階段pipeline

在論文中，這套思想被實現為三階段的pipeline。

首先是robot execution engine，也就是機器人執行引擎。

傳統機器人程式失敗後，系統可能只告訴你任務沒完成。

ASPIRE會把失敗拆開，每一次感知、規劃、抓取、控制呼叫，都留下輸入、輸出、視覺證據和錯誤日誌。

就像人類工程師調機器人時會回放影片、看軌跡、查到底是感知錯了還是抓取崩了，而ASPIRE把這套動作交給coding agent。

接下來是skill library。agent修好程式後，不會把這次經驗丟掉，而會煉成可複用的知識。

官網技能庫裡能看到很具體的條目，比如SAM3文字提示怎麼寫、桌邊物體要多角度接近、抽屜把手怎麼過濾假檢測、平面物體推動時該用哪種motion primitive。

這些不像傳統模型權重，它們更像機器人程式員的踩坑筆記。

最後是evolutionary search。

一個agent不只沿著單條修復路徑往下試，系統會生成多條候選控制程式，讓它們進執行環境裡跑，再根據倖存程式和失敗軌跡繼續疊代。

軟體工程裡，coding agent已經習慣了寫程式碼、跑測試、看trace、改bug。ASPIRE做的事，就是把這套循環搬進物理世界。

實驗驗證

為了驗證這套方法，論文在三個經典機器人基準上進行了測試，包括LIBERO-Pro、Robosuite和BEHAVIOR-1K，分別覆蓋泛化操作、接觸密集型操作以及長時家庭任務。

整體結果都比此前的Code as Policy方法明顯更好。

例如，在Robosuite的雙臂物體交接（Bimanual Handover）任務中，ASPIRE 將成功率從20%提升到了92%。

二在泛化能力方面。

研究先在LIBERO-90上不斷積累Skill Library，再直接遷移到從未見過的 LIBERO-Pro Long長任務，中間沒有針對新任務繼續訓練，也沒有更新技能庫。

結果顯示，隨著技能庫越來越豐富，機器人在新任務上的成功率也一路提升，從幾乎不會做，到最終達到31%。換句話說，Skill Library越厚，機器人越不像一個新手。

作者介紹

在技術部落格的最後，輝達也公布了完整的作者名單。

依舊是GEAR團隊的老面孔：Jim Fan、朱玉可、Guanzhi Wang、石冠亞等人。

排在最前面的三位作者為共同貢獻。

其中，Runyu Lu目前是密西根大學博士二年級學生，正在GEAR實習；Yuubo Wu來自伊利諾大學厄巴納-香檳分校（UIUC），Ethan Kou則來自加州大學柏克萊分校，目前還是一名本科生。

值得一提的是，就在昨天，輝達也宣布擴大國內機器人團隊招聘，在北京、上海、深圳三地開放了不少職位，涵蓋具身智能、模擬、機器人部署和解決方案架構等方向。

本文來源：量子位

風險提示及免責條款

        市場有風險，投資需謹慎。本文不構成個人投資建議，也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資，責任自負。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

已置頂

具身智能的Skill時刻！英偉達開源機器人技能庫，Jim Fan：範式變了

訓練出來的，不一定是權重

三階段pipeline

實驗驗證

作者介紹

熱門話題

Gate股票轉倉功能上線

Strategy擬回購股票

預測世界盃英格蘭VS剛果

特朗普披露持有超1億美元加密資產

Sharplink增持1萬枚ETH

已置頂