據動察 Beating 監測，Y Combinator 合夥人 Diana Hu 在 X 上指出，相比單純擴大參數規模，未來的前沿在於構建在基座模型之上的薄軟體層，讓 AI 像程式員一樣自己編寫解決問題的規則 (可執行世界模型)。AI 可以根據運行結果不斷測試、修改並精簡程式碼，而不需要對大模型本身進行昂貴的微調。

無梯度程式碼學習的路徑，印證了 OpenAI 後訓練核心成員翁家翌上個月提出的啟發式學習 (Heuristic Learning) 範式。傳統強化學習為了讓 AI 學會一個任務，需要成千上萬次調試，把經驗強行壓進神經網路這個黑盒裡，耗能巨大且容易遺忘。而翁家翌的實驗在不調整大模型任何參數的前提下，純靠大模型自己寫 Python 程式碼、找 bug 調規則，就刷滿了 Atari 打磚塊遊戲。這表明知識的載體完全可以是人類可讀、可測試的程式碼系統，而非看不懂的神經網路權重。

在 YC 聯合創始人 Paul Graham 看來，寫程式碼、驗證並壓縮的循環非常接近科學家的日常研究。大模型不需要重構大腦，而是像科學家一樣，針對新環境用程式碼寫出假設模型，運行程式碼進行驗證實驗，並提煉出最簡潔的規則來解決問題。尋找最簡程式的過程，也是 ARC-AGI 衡量人工智慧效率的終極標準。

最關鍵的紅利在於，無梯度學習可以直接乘上底層大模型能力提升的便車。底層大模型變得更聰明，智能體寫出的程式碼和策略就會成倍變強。在理查德·薩頓 (Richard Sutton) 著名的慘痛的教訓 (The Bitter Lesson) 之上，無梯度程式碼學習正在畫出一條全新的 S 曲線。隨著大模型程式碼能力的爆發，靠 AI 自我進化的路徑正在拉開下一代人工智慧範式的大幕。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

熱門話題
查看更多
#
分享美股交易贏輝達股票
370.15萬熱度
#
比特幣回升超5%
49907.53萬熱度
#
成長值抽獎贏金條
133.68萬熱度
#
非農數據超預期加息預期升溫
181.43萬熱度
#
預測NBA總冠軍贏20000U
14.12萬熱度

已置頂

YC合夥人：與其卷模型大小，不如讓AI像科學家一樣寫代碼自我進化

熱門話題

分享美股交易贏輝達股票

比特幣回升超5%

成長值抽獎贏金條

非農數據超預期加息預期升溫

預測NBA總冠軍贏20000U

已置頂