为什么你的代理在几分钟后停止工作?OpenAI工程师:它需要一个记分板和外部存储器

robot
摘要生成中

根据东查贝丁的监测,Codex的/goal模式允许代理连续循环,直到任务完成,但这放大了模糊人类提示的缺陷。OpenAI工程师Chris Hayduk指出,从内部实际经验来看,像“优化代码”这样的模糊指令可能导致模型过早放弃,因为不知道终点在哪里,或者陷入盲目的修改循环。为了确保代理能稳定工作数天甚至更长时间,他总结了三条纪律:

  • 消除定性术语,用检查清单替代:模型无法评估“更好”的标准,但可以理解“在不失败测试的情况下减少20%的时间”。面对格式化论文等定性任务时,他甚至直接提供了一个包含200个格式要求的Markdown检查清单,将抽象任务残酷地转化为定量任务——“完成所有复选框即为完成。”
  • 将验证时间缩短到几分钟:代理需要通过测试验证操作。不要让它在大型生产环境中运行数小时,而应提供一个样本数据集和轻量级框架,使反馈循环尽可能短。
  • 创建三个文件作为“外部大脑”:即使有较大的上下文窗口,运行几天后也会失去记忆。他建议直接在本地创建三个Markdown文件:PLAN.md(宏观计划)、EXPERIMENTS.md(实验及结果记录)和EXPERIMENT_NOTES.md(实时思考草稿),强制模型将试错过程写入硬盘。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论