對話自變數CTO王昊：具身智能的“聖杯”為何是家庭？

Question

作者 Dale編輯 董雨晴「家庭確實是具身智能的聖杯。」2026年3月30日上午，深圳零一學院，自變量機器人聯合創始人兼CTO王昊在包括鳳凰網科技在內的一場訪談中給出了這個判斷。彼時正值首屆具身智能開發者大會（EAIDC 2026）舉辦期間，進入決賽的20支頂尖隊伍在此集結，參賽者只有三天時間從零完成資料蒐集、模型訓練到真機部署的全流程。在幾乎所有同行都在優先拿下工業場景訂單的2026年，自變量選擇了一條更具冒險性的道路。今年3月，自變量宣布與58同城合作，由58到家平台隨機調度阿姨與機器人組成搭檔，共同進行家政服務，已在深圳開啟試點。家庭，這個標準化程度最低、環境最開放的場景，正在成為自變量心中「通往通用機器人」的關鍵戰場。**01 一場把機器人拉回真實世界的比賽**本次EAIDC 2026的賽制設計頗有玄機，所有參賽隊伍使用同一套硬體平台，三天之內從初次接觸具身智能基座模型及真機調試的狀態，完成從資料蒐集到真機部署的全流程。通常情況下，專業研究實驗室完成類似搭建至少需要6個月。在王昊的觀察中，比賽開始的第一天下午就出現了顯著分化。「第一天下午開營，到了晚上有的選手還在調試環境，有的選手已經有成績了，這是很大的差別。」後來他發現，那些頻繁評測、仔細觀察資料和硬體的團隊，相比不動手的選手更加突出。「整個具身是交互學習，讓機器在測試、以及人對它的觀察中找到問題，越有可能找到真正物理世界複雜性的解法。」一位參賽選手後來回憶，他們在最初面對「將環套在柱子上」的任務時，成功率只有20%到30%，經過不斷迭代才逐步提升至60%到70%。比賽還設置了A榜和B榜——A榜環境可控，供選手快速驗證模型能力；B榜則是完全黑盒，考驗模型在光照、背景、操作對象和操作位置變化下的泛化能力。王昊說，這是他們做比賽的初衷：「想透過這次比賽真正讓整個開源專案可以降低對開發者的使用門檻，建立一個相對比較通用和標準的介面」。在長期依賴仿真評測的具身智能產業，仿真環境雖然可以加速迭代，卻難以還原真實世界的複雜性，sim2real（指從模擬環境到現實世界的技術遷移方法）的差距始終存在。王昊坦言：「長期依賴仿真評測，不可避免會掩蓋模型能力的真實邊界」。而EAIDC這場「真機演武場」，試圖將評測、訓練和資料蒐集三者重新拉回到同一個真實世界中。**02 端到端的「新故事」？**自變量從一開始就選擇了「大小腦統一的端到端大模型」路線。在技術架構上，團隊正嘗試將世界模型與VLA（視覺-語言-動作）模型融合在一個聯合框架下。王昊解釋了這一路線的底層邏輯。「大語言模型這個訓練基礎還是要用，只是我們要把語言、動作拉到一個空間當中，而不是像以前那樣讓所有視覺都服務於語言。」語言描述的資訊很宏觀，而物理世界的互動發生在公分級和秒級尺度上，兩者之間存在巨大的資訊鴻溝。「如果我們能採用原生多模態的方式，動作可以同時在宏觀和微觀上都有非常清晰的表現，它能把視覺從以前靜態的觀察變成讓視覺理解運動。」這與目前不少VLA模型的簡化設計形成對比。有產業觀察者指出，許多具身模型仍偏向簡化，多數VLA模型仍依賴單幀影像輸入。王昊認為，端到端模型最大的挑戰在於訓練複雜度和規模要求。「如果沒有具備這兩個條件，你選擇端到端不一定有選擇垂類小模型或分層模型的效果好。端到端意味著必須要有規模效應，資料量、模型參數量要上去。」此外，具身智能的評測也比語言大模型更棘手，「語言大模型可以看loss曲線，對具身來說往往不是這樣，loss不能反映你在真實世界的表現，因為真實世界是閉環的系統。」自變量的另一個核心策略是堅持真實世界的真機資料蒐集。王昊說，所有互動式學習和強化學習，最重要的資料都來自真機，「這個資料蒐集不會停，還會繼續做。」但他也透露，2026年會有一個大的變化——「越來越依賴於人的穿戴式或Ego-Centric的方式來蒐集資料」。資料閉環的構建是自變量的另一個關鍵命題。王昊說：「盡早用人機協作的方式，讓閉環跑起來。首先用高品質資料、大規模訓練構建一個基礎模型，雖然不能解決所有任務，但應該把它放到真實環境中開始做。它有做不好地方，人就接管它，幫它從錯誤中恢復，這樣的資料也會作為非常寶貴的來源。」他描述的是一套評測、訓練和資料蒐集在同一過程中完成的系統。**03 為什麼是家庭？**事實上，業內人士普遍判斷，家庭場景成熟應用需要等待5到10年，多數廠商在商業化上更傾向於工業場景——環境可控、任務單一、ROI可核算。2026年初，一批估值百億的機器人公司湧現，而在家庭服務這個方向上，目前尚無真正意義上的成熟玩家。王昊給出了不同的解題思路：「家庭代表最開放的環境和最廣泛的任務，解決家庭任務，就代表模型可以實現完全泛化。只有一開始就直面最複雜的場景，才能提升模型的智慧化水平。不管從什麼時候開始，越早開始越好，這是最重要的。」然而，進入家庭有幾個關鍵難點。一是零樣本泛化能力——模型必須透過推理探索成功路徑，而非依靠事先訓練。「進入家庭一開始沒有多少機會訓練模型，這時候需要激發模型的推理能力，讓它在家庭場景中透過推理探索出成功的例子。」二是長程操作的精細度。「現在基模進入家庭，在很多任務上有完成的趨勢或動作意圖，例如可以在任何物體上有伸過去抓它的趨勢，但精細度不夠，導致複雜長程任務時錯誤累積就會失敗。」王昊介紹，解決長程精細度問題有兩個關鍵。第一是激發模型的推理能力，「讓語言結合視覺進行推理，語言、視覺、動作在同一個水平下形成思維鏈，讓機器人自己規劃和反思。」第二是在大規模真機情況下做強化學習，「保持在基模標準下達到更高標準的空間精度。」王昊預估「普通清潔、收納這類任務，可以在1到2年時間實現完全自主。但要在所有家庭任務中實現閉環，時間可能要再長一點。」這與自變量CEO王潛的表述形成呼應。王潛曾在訪談中提到，今年內就能看到機器人以正ROI的方式實現商業化落地。而家庭場景的推進節奏顯然更慢，但也更長遠。回到當下具身智能賽道最關心的爭議性話題，技術路線選擇與商業化孰輕孰重？「在具身這件事上，為了商業而犧牲技術而取得的成就天花板不會高，真正高的天花板是商業與技術協同，由技術逐步推動商業的發展。」王昊認為，自變量的主線是讓基模不停向前迭代，「但有一點，不要在垂直場景做太多模型系統，為了落地而做很多工程上的彌補。比如發現機器人在視覺上有盲區，就搞一個小模型來偵測。短期來看可以幫助加快落地，但長期來看對基模的提升是危害的。」這種堅持對應著自變量在場景選擇上的邏輯——選場景的第一個依據是看它能否反饋基模能力。「不是說你先把技術做到完全泛化，再去考慮場景。恰恰相反，場景給你迭代，迭代讓基模更強，更強的基模再反饋商業，才能形成完整的閉環。」他透露，做基礎模型的投入一直很高，公司從成立第一天起就在資料、算力和基礎設施上大規模投入。「一旦建立規模化效應，當你投入10倍資源取得領先的時候，資源聚集效應會越來越明顯，你會以數量級的優勢在速度上超越別人。越早開始越有優勢，越晚開始就越難做成。」     （編輯：劉靜 HZ010）  		          【免責聲明】本文僅代表作者本人觀點，與和訊網無關。和訊網站對文中所述、觀點判斷保持中立，不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考，並請自行承擔全部責任。信箱：news_center@staff.hexun.com            檢舉

對話自變數CTO王昊：具身智能的“聖杯”為何是家庭？

熱門話題

Gate廣場四月發帖挑戰

三月非農數據來襲

加密市場行情震盪

國際油價走高

SpaceXIPO衝刺2兆美元估值

熱門 Gate Fun

狐狸币

狐狸币

iranht

"Iran has teeth".

FUN

FUN COIN

Token

词元

TMP

特没谱

置頂