✍️ Gate 廣場「創作者認證激勵計劃」進行中!
我們歡迎優質創作者積極創作,申請認證
贏取豪華代幣獎池、Gate 精美周邊、流量曝光等超過 $10,000+ 豐厚獎勵!
立即報名 👉 https://www.gate.com/questionnaire/7159
📕 認證申請步驟:
1️⃣ App 首頁底部進入【廣場】 → 點擊右上角頭像進入個人主頁
2️⃣ 點擊頭像右下角【申請認證】進入認證頁面,等待審核
讓優質內容被更多人看到,一起共建創作者社區!
活動詳情:https://www.gate.com/announcements/article/47889
對話自變數CTO王昊:具身智能的“聖杯”為何是家庭?
作者 Dale
編輯 董雨晴
「家庭確實是具身智能的聖杯。」2026年3月30日上午,深圳零一學院,自變量機器人聯合創始人兼CTO王昊在包括鳳凰網科技在內的一場訪談中給出了這個判斷。彼時正值首屆具身智能開發者大會(EAIDC 2026)舉辦期間,進入決賽的20支頂尖隊伍在此集結,參賽者只有三天時間從零完成資料蒐集、模型訓練到真機部署的全流程。
在幾乎所有同行都在優先拿下工業場景訂單的2026年,自變量選擇了一條更具冒險性的道路。今年3月,自變量宣布與58同城合作,由58到家平台隨機調度阿姨與機器人組成搭檔,共同進行家政服務,已在深圳開啟試點。家庭,這個標準化程度最低、環境最開放的場景,正在成為自變量心中「通往通用機器人」的關鍵戰場。
01 一場把機器人拉回真實世界的比賽
本次EAIDC 2026的賽制設計頗有玄機,所有參賽隊伍使用同一套硬體平台,三天之內從初次接觸具身智能基座模型及真機調試的狀態,完成從資料蒐集到真機部署的全流程。通常情況下,專業研究實驗室完成類似搭建至少需要6個月。
在王昊的觀察中,比賽開始的第一天下午就出現了顯著分化。「第一天下午開營,到了晚上有的選手還在調試環境,有的選手已經有成績了,這是很大的差別。」後來他發現,那些頻繁評測、仔細觀察資料和硬體的團隊,相比不動手的選手更加突出。「整個具身是交互學習,讓機器在測試、以及人對它的觀察中找到問題,越有可能找到真正物理世界複雜性的解法。」
一位參賽選手後來回憶,他們在最初面對「將環套在柱子上」的任務時,成功率只有20%到30%,經過不斷迭代才逐步提升至60%到70%。
比賽還設置了A榜和B榜——A榜環境可控,供選手快速驗證模型能力;B榜則是完全黑盒,考驗模型在光照、背景、操作對象和操作位置變化下的泛化能力。王昊說,這是他們做比賽的初衷:「想透過這次比賽真正讓整個開源專案可以降低對開發者的使用門檻,建立一個相對比較通用和標準的介面」。
在長期依賴仿真評測的具身智能產業,仿真環境雖然可以加速迭代,卻難以還原真實世界的複雜性,sim2real(指從模擬環境到現實世界的技術遷移方法)的差距始終存在。王昊坦言:「長期依賴仿真評測,不可避免會掩蓋模型能力的真實邊界」。而EAIDC這場「真機演武場」,試圖將評測、訓練和資料蒐集三者重新拉回到同一個真實世界中。
02 端到端的「新故事」?
自變量從一開始就選擇了「大小腦統一的端到端大模型」路線。在技術架構上,團隊正嘗試將世界模型與VLA(視覺-語言-動作)模型融合在一個聯合框架下。
王昊解釋了這一路線的底層邏輯。「大語言模型這個訓練基礎還是要用,只是我們要把語言、動作拉到一個空間當中,而不是像以前那樣讓所有視覺都服務於語言。」語言描述的資訊很宏觀,而物理世界的互動發生在公分級和秒級尺度上,兩者之間存在巨大的資訊鴻溝。「如果我們能採用原生多模態的方式,動作可以同時在宏觀和微觀上都有非常清晰的表現,它能把視覺從以前靜態的觀察變成讓視覺理解運動。」
這與目前不少VLA模型的簡化設計形成對比。有產業觀察者指出,許多具身模型仍偏向簡化,多數VLA模型仍依賴單幀影像輸入。
王昊認為,端到端模型最大的挑戰在於訓練複雜度和規模要求。「如果沒有具備這兩個條件,你選擇端到端不一定有選擇垂類小模型或分層模型的效果好。端到端意味著必須要有規模效應,資料量、模型參數量要上去。」此外,具身智能的評測也比語言大模型更棘手,「語言大模型可以看loss曲線,對具身來說往往不是這樣,loss不能反映你在真實世界的表現,因為真實世界是閉環的系統。」
自變量的另一個核心策略是堅持真實世界的真機資料蒐集。王昊說,所有互動式學習和強化學習,最重要的資料都來自真機,「這個資料蒐集不會停,還會繼續做。」但他也透露,2026年會有一個大的變化——「越來越依賴於人的穿戴式或Ego-Centric的方式來蒐集資料」。
資料閉環的構建是自變量的另一個關鍵命題。王昊說:「盡早用人機協作的方式,讓閉環跑起來。首先用高品質資料、大規模訓練構建一個基礎模型,雖然不能解決所有任務,但應該把它放到真實環境中開始做。它有做不好地方,人就接管它,幫它從錯誤中恢復,這樣的資料也會作為非常寶貴的來源。」他描述的是一套評測、訓練和資料蒐集在同一過程中完成的系統。
03 為什麼是家庭?
事實上,業內人士普遍判斷,家庭場景成熟應用需要等待5到10年,多數廠商在商業化上更傾向於工業場景——環境可控、任務單一、ROI可核算。2026年初,一批估值百億的機器人公司湧現,而在家庭服務這個方向上,目前尚無真正意義上的成熟玩家。
王昊給出了不同的解題思路:「家庭代表最開放的環境和最廣泛的任務,解決家庭任務,就代表模型可以實現完全泛化。只有一開始就直面最複雜的場景,才能提升模型的智慧化水平。不管從什麼時候開始,越早開始越好,這是最重要的。」
然而,進入家庭有幾個關鍵難點。一是零樣本泛化能力——模型必須透過推理探索成功路徑,而非依靠事先訓練。「進入家庭一開始沒有多少機會訓練模型,這時候需要激發模型的推理能力,讓它在家庭場景中透過推理探索出成功的例子。」二是長程操作的精細度。「現在基模進入家庭,在很多任務上有完成的趨勢或動作意圖,例如可以在任何物體上有伸過去抓它的趨勢,但精細度不夠,導致複雜長程任務時錯誤累積就會失敗。」
王昊介紹,解決長程精細度問題有兩個關鍵。第一是激發模型的推理能力,「讓語言結合視覺進行推理,語言、視覺、動作在同一個水平下形成思維鏈,讓機器人自己規劃和反思。」第二是在大規模真機情況下做強化學習,「保持在基模標準下達到更高標準的空間精度。」
王昊預估「普通清潔、收納這類任務,可以在1到2年時間實現完全自主。但要在所有家庭任務中實現閉環,時間可能要再長一點。」
這與自變量CEO王潛的表述形成呼應。王潛曾在訪談中提到,今年內就能看到機器人以正ROI的方式實現商業化落地。而家庭場景的推進節奏顯然更慢,但也更長遠。
回到當下具身智能賽道最關心的爭議性話題,技術路線選擇與商業化孰輕孰重?
「在具身這件事上,為了商業而犧牲技術而取得的成就天花板不會高,真正高的天花板是商業與技術協同,由技術逐步推動商業的發展。」王昊認為,自變量的主線是讓基模不停向前迭代,「但有一點,不要在垂直場景做太多模型系統,為了落地而做很多工程上的彌補。比如發現機器人在視覺上有盲區,就搞一個小模型來偵測。短期來看可以幫助加快落地,但長期來看對基模的提升是危害的。」
這種堅持對應著自變量在場景選擇上的邏輯——選場景的第一個依據是看它能否反饋基模能力。「不是說你先把技術做到完全泛化,再去考慮場景。恰恰相反,場景給你迭代,迭代讓基模更強,更強的基模再反饋商業,才能形成完整的閉環。」
他透露,做基礎模型的投入一直很高,公司從成立第一天起就在資料、算力和基礎設施上大規模投入。「一旦建立規模化效應,當你投入10倍資源取得領先的時候,資源聚集效應會越來越明顯,你會以數量級的優勢在速度上超越別人。越早開始越有優勢,越晚開始就越難做成。」
(編輯:劉靜 HZ010)
檢舉