据动察 Beating 监测，Y Combinator 合伙人 Diana Hu 在 X 上指出，相比单纯扩大参数规模，未来的前沿在于构建在基座模型之上的薄软件层，让 AI 像程序员一样自己编写解决问题的规则 (可执行世界模型)。AI 可以根据运行结果不断测试、修改并精简代码，而不需要对大模型本身进行昂贵的微调。

无梯度代码学习的路径，印证了 OpenAI 后训练核心成员翁家翌上个月提出的启发式学习 (Heuristic Learning) 范式。传统强化学习为了让 AI 学会一个任务，需要成千上万次调试，把经验强行压进神经网络这个黑盒里，耗能巨大且容易遗忘。而翁家翌的实验在不调整大模型任何参数的前提下，纯靠大模型自己写 Python 代码、找 bug 调规则，就刷满了 Atari 打砖块游戏。这表明知识的载体完全可以是人类可读、可测试的代码系统，而非看不懂的神经网络权重。

在 YC 联合创始人 Paul Graham 看来，写代码、验证并压缩的循环非常接近科学家的日常研究。大模型不需要重构大脑，而是像科学家一样，针对新环境用代码写出假设模型，运行代码进行验证实验，并提炼出最简洁的规则来解决问题。寻找最简程序的过程，也是 ARC-AGI 衡量人工智能效率的终极标准。

最关键的红利在于，无梯度学习可以直接乘上底层大模型能力提升的便车。底层大模型变得更聪明，智能体写出的代码和策略就会成倍变强。在理查德·萨顿 (Richard Sutton) 著名的惨痛的教训 (The Bitter Lesson) 之上，无梯度代码学习正在画出一条全新的 S 曲线。随着大模型代码能力的爆发，靠 AI 自我进化的路径正在拉开下一代人工智能范式的大幕。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
分享美股交易赢英伟达股票
371.27万热度
#
比特币回升5%
49912.9万热度
#
成长值抽奖赢金条
133.91万热度
#
非农数据超预期加息预期升温
181.69万热度
#
预测NBA总冠军赢20,000U
85.3万热度

置顶

YC合伙人：与其卷模型大小，不如让AI像科学家一样写代码自我进化

热门话题

分享美股交易赢英伟达股票

比特币回升5%

成长值抽奖赢金条

非农数据超预期加息预期升温

预测NBA总冠军赢20,000U

置顶