據動察 Beating 監測,Y Combinator 合夥人 Diana Hu 在 X 上指出,相比單純擴大參數規模,未來的前沿在於構建在基座模型之上的薄軟體層,讓 AI 像程式員一樣自己編寫解決問題的規則 (可執行世界模型)。AI 可以根據運行結果不斷測試、修改並精簡程式碼,而不需要對大模型本身進行昂貴的微調。
在 YC 聯合創始人 Paul Graham 看來,寫程式碼、驗證並壓縮的循環非常接近科學家的日常研究。大模型不需要重構大腦,而是像科學家一樣,針對新環境用程式碼寫出假設模型,運行程式碼進行驗證實驗,並提煉出最簡潔的規則來解決問題。尋找最簡程式的過程,也是 ARC-AGI 衡量人工智慧效率的終極標準。
最關鍵的紅利在於,無梯度學習可以直接乘上底層大模型能力提升的便車。底層大模型變得更聰明,智能體寫出的程式碼和策略就會成倍變強。在理查德·薩頓 (Richard Sutton) 著名的慘痛的教訓 (The Bitter Lesson) 之上,無梯度程式碼學習正在畫出一條全新的 S 曲線。隨著大模型程式碼能力的爆發,靠 AI 自我進化的路徑正在拉開下一代人工智慧範式的大幕。
YC合夥人:與其卷模型大小,不如讓AI像科學家一樣寫代碼自我進化
無梯度程式碼學習的路徑,印證了 OpenAI 後訓練核心成員翁家翌上個月提出的啟發式學習 (Heuristic Learning) 範式。傳統強化學習為了讓 AI 學會一個任務,需要成千上萬次調試,把經驗強行壓進神經網路這個黑盒裡,耗能巨大且容易遺忘。而翁家翌的實驗在不調整大模型任何參數的前提下,純靠大模型自己寫 Python 程式碼、找 bug 調規則,就刷滿了 Atari 打磚塊遊戲。這表明知識的載體完全可以是人類可讀、可測試的程式碼系統,而非看不懂的神經網路權重。
在 YC 聯合創始人 Paul Graham 看來,寫程式碼、驗證並壓縮的循環非常接近科學家的日常研究。大模型不需要重構大腦,而是像科學家一樣,針對新環境用程式碼寫出假設模型,運行程式碼進行驗證實驗,並提煉出最簡潔的規則來解決問題。尋找最簡程式的過程,也是 ARC-AGI 衡量人工智慧效率的終極標準。
最關鍵的紅利在於,無梯度學習可以直接乘上底層大模型能力提升的便車。底層大模型變得更聰明,智能體寫出的程式碼和策略就會成倍變強。在理查德·薩頓 (Richard Sutton) 著名的慘痛的教訓 (The Bitter Lesson) 之上,無梯度程式碼學習正在畫出一條全新的 S 曲線。隨著大模型程式碼能力的爆發,靠 AI 自我進化的路徑正在拉開下一代人工智慧範式的大幕。