10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
Claude 代码新推 /goals 指令:分离执行与评估,避免 AI 代理偷懒说谎
Anthropic 为 Claude Code 推出 /goals 指令,将任务执行与完成判断拆分给两个独立模型,因为让同一个 AI 评判自己的功课,在架构上就是有缺陷的设计。
(前情提要:Claude Code 宣布每周 Token 使用上限增加 50%!为期两个月 Anthropic 抢占开发者生态)
(背景补充:Claude Code 自动执行功能 Routine 上线:排程、API、GitHub 事件三种触发全支持)
你可能遇到过这种情况:AI 完成了代码设计,它回应你任务完成。但几天后你才发现,几个模块根本没有被编译。这不是模型能力不足,而是模型自己决定它「已经做完了」,但实际上它没有。
为了改善这种状况,Anthropic 本周为 Claude Code 新推出 /goals 指令。逻辑很直接:执行任务的模型,和判断任务是否完成的模型,必须是两个不同的角色。同一个模型不能同时扮演这两者,因为它永远是评判自己功课最糟糕的评审。
AI 代理为何会「提前收工」
AI 编码代理的工作是一个循环:读取文件、执行命令、修改代码,然后判断任务是否完成。问题就在最后这一步。
执行过程中积累的上下文:已完成的步骤、尝试过的方法、走过的错误……让模型对自身进度产生偏差。它倾向把「我做了很多」等同于「我做完了」。这个问题在企业环境中代价昂贵:代码迁移或测试修复若在终态前停止,往往要几天后才被发现。
目前产业也有一些方案。OpenAI 让代理模型自行决定何时停止,允许开发者自行接入外部评估器。Google ADK 支持通过 LoopAgent 实现独立评估,LangGraph 也支持类似模式,但这些方案有共同点:批评节点(critic node)和终止逻辑需要开发者自己设计,平台不提供预设。
一个指令、两个模型
/goals 的核心设计是把「执行」和「评估」正式拆成两个角色。开发者输入目标条件,例如:
/goal test/auth 目录下的所有测试都通过,并且 lint 检查结果为干净
每当代理尝试结束工作,评估模型就接手核查。评估模型预设使用 Claude Haiku(Anthropic 旗下较轻量的模型)。选择小模型的原因很简单:评估者只需要做一个二元判断,条件满足或条件未满足,不需要大模型的推理能力。
当条件未满足,代理继续执行;当条件满足,评估模型将结果记录到对话记录并清除目标。整个流程在 Claude Code 内部完成,不需要额外的第三方可观察性平台或自定义日志系统。
Anthropic 文件指出,有效的目标条件通常需要三个要素:可衡量的终态(测试结果、构建退出码、特定文件数量);明确的验证方式(例如「npm test 退出码为 0」);以及过程中不得变动的限制(例如「不得修改其他测试文件」)。