最近做了一次多模型互搏,有个挺有意思的发现。


同一个架构题,我分别让 Claude 和 Codex 独立写方案。
Codex 漏了一件事:我的策略分散在 20 多个独立的进程里,它写的方案默认"所有组件跑在同一个地方",直接无效。Claude 一眼看出这个问题。
反过来 Claude 漏了另一件事:它执着于新建独立的模块,其实我手里已经有一整套现成的框架可以搭车,加一个字段就够了。Codex 把这条捡了回来。
最有意思的是后面这步:我让两个模型互相 review 对方的最终方案,双方都下意识锚定了"对方已经写好的框架",结果一起漏掉了一个边界情况——最后是我手动跑生产数据才发现的。
所以现在的习惯是:每一轮互搏都给独立的成功标准,禁止让一个模型看另一个模型的底稿。拿到手的是两份盲区不重叠的独立底稿,合起来才接近完整。
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论