Anthropic для Claude Code запустила команду /goals, яка розділяє визначення виконання та оцінки завдання на дві окремі моделі, оскільки дозволяти одній і тій же ШІ оцінювати свою роботу — це структурно недосконале рішення.
(Передісторія: Claude Code оголосила про збільшення щотижневого ліміту токенів на 50%! Протягом двох місяців Anthropic захоплює екосистему розробників)
(Додатковий фон: запуск автоматичних функцій Routines у Claude Code: підтримка планування, API та тригери подій GitHub)

Можливо, ви стикалися з такою ситуацією: ШІ завершила проектування коду, і відповідає, що завдання виконане. Але через кілька днів ви виявляєте, що кілька модулів взагалі не скомпільовані. Це не через недостатню здатність моделі, а тому, що модель сама вирішила, що «виконала все», хоча насправді — ні.

Щоб покращити цю ситуацію, Anthropic цього тижня запустила нову команду /goals у Claude Code. Логіка дуже проста: модель, яка виконує завдання, і модель, яка оцінює його завершення, мають бути двома різними ролями. Одна й та сама модель не може виконувати обидві функції одночасно, бо вона завжди буде найгіршим суддею власної роботи.

Як тримати Claude у роботі, доки завдання не буде завершено? Claude Code допомагає у цьому кількома способами, зокрема одним, який ми нещодавно запустили: /goal. pic.twitter.com/QtVPmwoKct

— ClaudeDevs (@ClaudeDevs) 13 травня 2026

Чому агент ШІ «здається раніше часу»

Робота агентів кодування ШІ — це цикл: читання файлів, виконання команд, модифікація коду, і потім — оцінка, чи завершено завдання. Проблема — саме на останньому кроці.

Контекст, накопичений під час процесу: завершені кроки, спробовані методи, допущені помилки… все це викривляє уявлення моделі про власний прогрес. Вона схильна вважати «я зробив багато» рівнозначним «я вже завершив». Це дорого обходиться в корпоративних середовищах: якщо перенесення або тестування коду зупиняється перед кінцевим станом, це часто виявляється лише через кілька днів.

У галузі також існують рішення. OpenAI дозволяє агенту самостійно вирішувати, коли зупинитися, і дає можливість розробникам підключати зовнішні оцінювачі. Google ADK підтримує незалежну оцінку через LoopAgent, LangGraph також підтримує подібний режим, але всі ці рішення мають спільну рису: критичний вузол (critic node) і логіка завершення мають бути розроблені самостійно, платформою не передбачено стандартних налаштувань.

Одна команда, дві моделі

Основна ідея /goals — офіційно розділити «виконання» та «оцінку» на дві ролі. Розробник вводить цільові умови, наприклад:

/goal test/auth усі тести в каталозі пройдені, і результати lint — чисті

Коли агент намагається завершити роботу, роль оцінювача бере на себе модель оцінки. За замовчуванням вона використовує Claude Haiku (легкий модельний варіант Anthropic). Вибір меншої моделі зумовлений тим, що оцінювачу потрібно лише зробити бінарну оцінку: умова виконана або ні. Відповідно, не потрібна складна логіка або глибоке мислення.

Якщо умова не виконана, агент продовжує роботу; якщо виконана — модель оцінки фіксує результат у діалог і очищує ціль. Весь процес відбувається всередині Claude Code, без додаткових сторонніх платформ або систем логування.

Anthropic зазначає, що ефективна цільова умова зазвичай має три елементи: вимірюваний кінцевий стан (результати тестів, код виходу з побудови, кількість файлів), чіткий спосіб перевірки (наприклад, «npm test повертає 0»), і обмеження, які не можна змінювати під час процесу (наприклад, «не змінювати інші тестові файли»).

ANTHROPIC-2,99%

TOKEN0,18%

IN0,24%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateSquareMayTradingShare
1.74M Популярність
#
CLARITYActPassesSenateCommittee
3.48M Популярність
#
IsraelStrikesIranBTCPlunges
46.79K Популярність
#
#DailyPolymarketHotspot
945.35K Популярність
#
BitcoinVShapedReversalBack
226.96M Популярність

Закріплено

карта сайту

Claude Code новий командний /goals: розділити виконання та оцінку, щоб уникнути лінування та брехні AI-агента

Чому агент ШІ «здається раніше часу»

Одна команда, дві моделі

Популярні теми

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Закріплено