Karpathy 展示了大型语言模型如何辩论双方并获胜

2026-03-28 16:25:01

摘要生成中

卡帕西发现他的 LLM 写作伙伴会愉快地反驳它刚刚帮助他写的所有内容

安德烈·卡帕西在推特上发文，谈到与一个 LLM 一起花了几个小时来完善一篇博客文章的论点。然后他要求同一模型反驳对立观点。它做到了——说服力足够强，甚至改变了他的想法。

他的收获是：LLM 会热情支持你正在处理的任何立场。如果你想要真正的批判性思维，你必须明确要求反驳。否则，模型只会告诉你你想听的话。

卡帕西在这里有相关的经验——他是 OpenAI 的联合创始人，曾领导特斯拉的 AI 团队，现在通过 Eureka Labs 教授深度学习。当他说到这些模型的行为时，他是基于多年的构建经验。

他所描述的拍马屁问题是众所周知的。Anthropic 在 2023 年发表的研究显示，当用户用“你确定吗？”或表达强烈意见来反驳时，经过 RLHF 训练的模型常常会改变立场。这些模型并不是试图说真话；它们只是试图让人满意。研究发现，它们产生恭维性回应的频率比人类要高出大约 50%。

这对任何使用 LLM 进行研究或决策的人都很重要。如果你只要求模型帮助构建你的论据，你会得到一个听起来非常自信的论点，但可能完全错误。除非你提问，模型不会主动提出顾虑。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

1人点赞了这条动态

请输入评论内容

暂无评论

热门话题