具身智能的Skill時刻!英偉達開源機器人技能庫,Jim Fan:範式變了

6!機器人也能學Skill了。

剛剛,輝達放出了一套能讓機器人持續成長的技能庫——

ASPIRE

簡單理解,ASPIRE有點像一個機器人版Coding Agent。

就跟GPT能把你的prompt、工作記錄煉成可複用的skill一樣,它也會把機器人的一次次失敗和修復,沉澱成之後能繼續調用的經驗。

只不過,它review的不是程式碼,而是機器人的操作過程

每當機器人執行任務時,ASPIRE就會把感知、導航、抓取、碰撞、運動規劃這些過程都記下來。

它背後呼叫的GPT / Claude則會像研究員一樣,判斷任務中哪裡出了問題,疊代程式。如果跑通,就把沉澱出來的經驗寫進Skill。

由此,機器人就可以透過寫程式碼、看執行軌跡、修程式、沉澱技能來持續學習。

而這,可不光是在機器人經驗中煉化Skill這麼簡單。

輝達機器人主管Jim Fan還表示ASPIRE代表了一種全新的持續學習範式

其中:

  • 訓練,從梯度下降變成了不斷打磨技能(Skill Refinement);

  • 訓練好的模型,對應的也不再只是一堆浮點權重,而是一個持續擴展的機器人技能庫(Sensorimotor Skills);

  • 分散式訓練,則變成了一群 Agent 各自練習不同技能,再把經驗匯總進同一個技能庫。

訓練出來的,不一定是權重

雖然開頭已經介紹的七七八八,但在講怎麼革新機器人訓練範式前,咱先囉嗦幾句背景。

ASPIRE的全名叫Agentic Skill Programming through Iterative Robot Exploration

它能讓機器人用程式碼執行任務,失敗後看多模態執行軌跡,再修程式,把修好的經驗存進一個不斷變厚的skills library。

這裡的Skill,雖然本質上還是一段餵給大模型的上下文,卻沉澱著一套經過驗證的程式碼修復經驗(Code Repair Pattern),讓機器人知道遇到某類問題時,該如何修改控制程式。

比如,當機器人準備拿起一個收音機時,已經識別到了目標,卻始終無法靠近時。

Agent能分析出來原因並非識別錯了,而是規劃器(Planner)給出的目標點都落在障礙物的碰撞緩衝區內。

由此,ASPIRE就會在這次經驗的基礎上,總結出一條新的Skill:

如果遇到這種規劃失敗,就嘗試從45°、90°、180° 等不同角度重新接近目標,直到找到一條無碰撞路徑。

以後再遇到類似場景,無論目標變成收音機、微波爐還是其他家具,這條經驗都可以直接複用,不必重新試錯。

說到這,你可能會好奇。 機器人訓練,不應該都是搞數據、梯度下降、模型權重、真機採集、仿真到現實遷移嗎?

怎麼就突然成攢skill了?

這裡要先講一個最近很火的範式,Code as Policy

跟VLA等端到端的策略模型不同,Code as Policy不讓模型直接輸出機器人動作,而是讓大模型寫一段可執行的機器人控制程式。

程式裡可以呼叫感知模組、規劃API和控制原語,比如識別物體、規劃路徑、移動機械臂、執行抓取。

這樣一來,機器人行為就不再完全藏在神經網路權重裡,而是變成了可執行的操作程式碼。

有了程式碼,就可以被現在強的離譜的Agent模型檢查、修改、除錯、繼續優化。

但過去,Code as Policy一直有兩個問題。

第一,機器人失敗了,系統通常只知道「任務沒完成」,卻不知道到底是感知錯了、抓取沒抓穩、路徑規劃撞了,還是恢復動作出了問題。

第二,也是更關鍵的一點,它不會長記性

一個任務做完,除錯過程中發現的修復方案、恢復策略、prompt寫法就被丟掉了,下次遇到類似問題,還得重來一遍。

這也是為啥Jim Fan說:

(有了ASPIRE)當機器人完成第100個任務時,它終於不再像完成第1個任務時那樣一無所知。

說白了,這整個過程就跟人類機器人工程師一樣:

當一個機器人程式失敗後,工程師會回放執行過程,看感知結果,分析運動軌跡,判斷到底是抓取錯了、規劃錯了,還是某個恢復動作沒接上。

修好之後,工程師會記下這次的經驗。下次再遇到桌邊物體、抽屜把手、窄空間導航,就不會從零開始。

而ASPIRE做的,就是把這套經驗積累機制交給agent。它不只是讓大模型寫機器人程式碼,更讓大模型在執行環境裡反覆試、反覆看、反覆修,最後把驗證過的修復經驗沉澱成Skill。

所以,在ASPIRE裡,訓練已經不只是梯度下降。

訓練過程變成了Skill Refinement;訓練產物,也不只是模型權重,而是一個機器人不斷積累、不斷成長的Skills Library。

三階段pipeline

在論文中,這套思想被實現為三階段的pipeline。

首先是robot execution engine,也就是機器人執行引擎。

傳統機器人程式失敗後,系統可能只告訴你任務沒完成。

ASPIRE會把失敗拆開,每一次感知、規劃、抓取、控制呼叫,都留下輸入、輸出、視覺證據和錯誤日誌。

就像人類工程師調機器人時會回放影片、看軌跡、查到底是感知錯了還是抓取崩了,而ASPIRE把這套動作交給coding agent。

接下來是skill library。agent修好程式後,不會把這次經驗丟掉,而會煉成可複用的知識。

官網技能庫裡能看到很具體的條目,比如SAM3文字提示怎麼寫、桌邊物體要多角度接近、抽屜把手怎麼過濾假檢測、平面物體推動時該用哪種motion primitive。

這些不像傳統模型權重,它們更像機器人程式員的踩坑筆記。

最後是evolutionary search

一個agent不只沿著單條修復路徑往下試,系統會生成多條候選控制程式,讓它們進執行環境裡跑,再根據倖存程式和失敗軌跡繼續疊代。

軟體工程裡,coding agent已經習慣了寫程式碼、跑測試、看trace、改bug。ASPIRE做的事,就是把這套循環搬進物理世界。

實驗驗證

為了驗證這套方法,論文在三個經典機器人基準上進行了測試,包括LIBERO-ProRobosuiteBEHAVIOR-1K,分別覆蓋泛化操作、接觸密集型操作以及長時家庭任務。

整體結果都比此前的Code as Policy方法明顯更好。

例如,在Robosuite的雙臂物體交接(Bimanual Handover)任務中,ASPIRE 將成功率從20%提升到了92%

二在泛化能力方面。

研究先在LIBERO-90上不斷積累Skill Library,再直接遷移到從未見過的 LIBERO-Pro Long長任務,中間沒有針對新任務繼續訓練,也沒有更新技能庫。

結果顯示,隨著技能庫越來越豐富,機器人在新任務上的成功率也一路提升,從幾乎不會做,到最終達到31%。換句話說,Skill Library越厚,機器人越不像一個新手。

作者介紹

在技術部落格的最後,輝達也公布了完整的作者名單。

依舊是GEAR團隊的老面孔:Jim Fan、朱玉可、Guanzhi Wang、石冠亞等人。

排在最前面的三位作者為共同貢獻。

其中,Runyu Lu目前是密西根大學博士二年級學生,正在GEAR實習;Yuubo Wu來自伊利諾大學厄巴納-香檳分校(UIUC),Ethan Kou則來自加州大學柏克萊分校,目前還是一名本科生。

值得一提的是,就在昨天,輝達也宣布擴大國內機器人團隊招聘,在北京、上海、深圳三地開放了不少職位,涵蓋具身智能、模擬、機器人部署和解決方案架構等方向。

本文來源:量子位

風險提示及免責條款

        市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆