Anthropic выпустила команду /goals для Claude Code, разделяя выполнение задач и оценку их завершения на два независимых модели, потому что позволять одному ИИ судить о своей работе — это по сути дефектная архитектура. (Предыстория: Claude Code объявил о увеличении еженедельного лимита использования токенов на 50%! В течение двух месяцев Anthropic захватывает экосистему разработчиков) (Дополнительный фон: Запущена автоматическая функция Routine для Claude Code: поддержка триггеров по расписанию, API и событиям GitHub) Вам, возможно, приходилось сталкиваться с такой ситуацией: ИИ завершил разработку кода и ответил, что задача выполнена. Но через несколько дней вы обнаруживаете, что несколько модулей вообще не были скомпилированы. Это не недостаток модели, а то, что модель сама решила, что «уже сделала».

動區BlockTempo

2026-05-15 02:10:57

Anthropic 为 Claude Code 推出 /goals 指令，将任务执行与完成判断拆分给两个独立模型，因为让同一个 AI 评判自己的作业，在架构上就是有缺陷的设计。
（前情提要：Claude Code 宣布每周 Token 使用上限增加 50%！为期两个月 Anthropic 争夺开发者生态）
（背景补充：Claude Code 自动执行功能 Routine 上线：排程、API、GitHub 事件三种触发全支持）

你可能遇到过这种情况：AI 完成了代码设计，它回应你任务完成。但几天后你才发现，几个模块根本没有被编译。这不是模型能力不足，而是模型自己决定它「已经做完了」，但实际上它没有。

为了改善这种状况，Anthropic 本周为 Claude Code 新推出 /goals 指令。逻辑很直接：执行任务的模型，和判断任务是否完成的模型，必须是两个不同的角色。同一个模型不能同时扮演这两者，因为它永远是评判自己作业最糟糕的评审。

How do you keep Claude working until the job is done? Claude Code helps with this in a few ways, including one we shipped recently: /goal. pic.twitter.com/QtVPmwoKct

— ClaudeDevs (@ClaudeDevs) May 13, 2026

AI 代理为何会「提前收工」

AI 编码代理的工作是一个循环：读取文件、执行命令、修改程序，然后判断任务是否完成。问题就在最后这一步。

执行过程中积累的上下文：已完成的步骤、尝试过的方法、走过的错误…让模型对自身进度产生偏差。它倾向把「我做了很多」等同于「我做完了」。这个问题在企业环境中代价昂贵：程序码迁移或测试修复若在终态前停止，往往要几天后才被发现。

目前产业也有一些方案。OpenAI 让代理模型自行决定何时停止，允许开发者自行接入外部评估器。Google ADK 支持通过 LoopAgent 实现独立评估，LangGraph 也支持类似模式，但这些方案有共同点：批评节点（critic node）和终止逻辑需要开发者自己设计，平台不提供预设。

一个指令、两个模型

/goals 的核心设计是把「执行」和「评估」正式拆成两个角色。开发者输入目标条件，例如：

/goals test/auth 目录下的所有测试都通过，并且 lint 检查结果为干净

每当代理尝试结束工作，评估模型就接手核查。评估模型预设使用 Claude Haiku（Anthropic 旗下较轻量的模型）。选择小模型的原因很简单：评估者只需要做一个二元判断，条件满足或条件未满足，不需要大模型的推理能力。

当条件未满足，代理继续执行；当条件满足，评估模型将结果记录到对话记录并清除目标。整个流程在 Claude Code 内部完成，不需要额外的第三方可观察性平台或自定义日志系统。

Anthropic 文件指出，有效的目标条件通常需要三个要素：可衡量的终态（测试结果、构建退出码、特定文件数量）；明确的验证方式（例如「npm test 退出码为 0」）；以及过程中不得变动的限制（例如「不得修改其他测试文件」）。

ANTHROPIC-2,99%

TOKEN0,18%

IN0,24%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateSquareMayTradingShare
1.74M Популярность
#
CLARITYActPassesSenateCommittee
3.48M Популярность
#
IsraelStrikesIranBTCPlunges
46.79K Популярность
#
#DailyPolymarketHotspot
945.35K Популярность
#
BitcoinVShapedReversalBack
226.96M Популярность

Закреплено

Карта сайта

Claude Code новая команда /goals: разделение выполнения и оценки, чтобы избежать лени и лжи со стороны AI-агента

AI 代理为何会「提前收工」

一个指令、两个模型

Популярные темы

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Закреплено