Агенту потрібні «дисплей рівня палива» та «гальмо»: стаття, яка розкриває «заплутані справи» агента

уявіть собі цю ситуацію:

Ви просите AI-агента допомогти вам виправити помилку у коді. Він відкриває проект, читає 20 файлів, трохи змінює, запускає тест — не проходить, знову змінює, знову запускає — все ще не проходить… кілька разів так повторює, нарешті — все ще не виправлено.

Ви вимикаєте комп’ютер, зітхаєте з полегшенням. А потім отримуєте рахунок за API.

Ці цифри можуть вас налякати — автономне виправлення помилок AI-агентом за допомогою офіційного API за кордоном, часто вартість невиправленого завдання з’їдає понад мільйон токенів, ціна може сягати десятків або понад сотню доларів.

У квітні 2026 року вийшла спільна дослідницька стаття Стенфордського, MIT, Мічиганського університетів та інших, яка вперше системно розкрила “чорний ящик” витрат AI-агента у кодових задачах — куди саме йдуть гроші, чи вони виправдані, чи можна їх передбачити заздалегідь, — відповіді виявилися шокуючими.

Відкриття перше: швидкість витрат агента на написання коду у 1000 разів перевищує звичайну бесіду з AI

Можливо, ви думаєте: “Дозволь мені попросити AI допомогти з написанням коду і спілкуванням про код — ціна має бути приблизно однакова?”

Дослідження показало:

Обсяг токенів, що витрачається на завдання коду з агентом, у 1000 разів більший, ніж на звичайні питання та відповіді з кодом і логікою.

Це цілі три порядки величини.

Чому так? Стаття вказує на один факт — гроші витрачаються не на “писання коду”, а на “читання коду”.

Тут “читання” — не людське, а те, що робить агент у процесі роботи: постійно потрібно подавати модель весь контекст проекту, історію дій, повідомлення про помилки, вміст файлів. Кожен новий раунд діалогу робить цей контекст довшим; а модель оплачується за кількість токенів — чим більше “годуєш”, тим більше платиш.

Наприклад: це схоже на запрошення майстра, який перед тим, як почати працювати, просить тебе перечитати йому всю документацію будівлі — платити за читання документації набагато дорожче, ніж за закручування гвинтів.

Стаття підсумовує цей феномен так: вартість роботи агента зростає експоненційно через збільшення кількості введених токенів, а не через кількість виведених.

Друге відкриття: одна й та сама помилка при двох запусках може коштувати вдвічі більше — і чим дорожча помилка, тим менш стабільна

Ще одна проблема — випадковість.

Дослідники запускали одного й того ж агента на одній і тій же задачі 4 рази і виявили:

Між різними задачами найдорожча може спожити приблизно на 7 мільйонів токенів більше, ніж найменша (рисунок 2а)

У кількох запусках одного й того ж моделі на одній задачі найдорожчий запуск у 2 рази дорожчий за найекономніший (рисунок 2b)

Якщо порівнювати різні моделі на одній і тій же задачі, різниця між найвищим і найнижчим споживанням може сягати аж 30 разів

Останнє число особливо важливе: це означає, що різниця у вартості між правильно обраною моделлю і неправильною — не просто “дорожче”, а “у кілька разів”.

Ще більш боляче: більше витрат — не означає кращу якість роботи.

Стаття виявила “U-подібну” криву:

Рівень витрат і точність мають таку тенденцію: низькі витрати — низька точність (можливо, недостатньо ресурсів), середні — найвища точність, високі — точність знижується і входить у “сферу насичення”.

Чому так? Аналізуючи конкретні дії агента, автори дають відповідь:

У високовитратних запусках багато часу витрачається на “повторну роботу”.

Дослідження показало, що у високовитратних сценаріях близько 50% операцій з перегляду та редагування файлів — повторювані. Тобто агент повторно читає один і той самий файл, змінює одну й ту ж рядок — наче людина, яка кружляє по кімнаті, стає все більш заплутаною і втомлюється.

Гроші витрачаються не на вирішення проблеми, а на “заблукання”.

Третє відкриття: ефективність моделей різниться у рази — GPT-5 найекономічніша, а деякі моделі споживають до 1,5 мільйонів токенів

Дослідження на стандартному тесті SWE-bench Verified (500 реальних GitHub Issue) показало результати восьми передових моделей. Перераховуючи в долари, моделі з високою ефективністю токенів дозволяють виконати кілька десятків завдань більше за ту ж ціну. Для підприємств, які запускають сотні задач щодня, різниця — реальні гроші.

Ще цікавіше: ефективність токенів — це “внутрішня характеристика” моделі, а не залежить від задачі.

Дослідники порівнювали всі задачі, які успішно вирішили всі моделі (230), і всі задачі, які провалили всі моделі (100). Виявилося, що рейтинг моделей у цій вибірці майже не змінюється.

Це означає: деякі моделі “говорять більше” за інших незалежно від складності задачі.

Ще одне важливе відкриття — у моделей відсутня “стратегія зупинки”.

Коли всі моделі не справляються з важкою задачею, ідеальний агент мав би відмовитися раніше, щоб не витрачати даремно токени. Але насправді, моделі зазвичай витрачають більше токенів на невдачі — вони не “здаються”, а продовжують досліджувати, повторювати, перечитувати контекст — наче автомобіль без індикатора рівня палива, що їде і раптово зупиняється.

Четверте відкриття: те, що важко для людини, не обов’язково дорого для агента — сприйняття складності зовсім різне

Можливо, ви думаєте: “Я можу оцінити вартість, орієнтуючись на складність задачі?”

Дослідження залучило експертів, які оцінили складність 500 задач, і порівняли з фактичним споживанням токенів агентом —

Результат: між оцінками і реальним споживанням — слабкий зв’язок.

Проще кажучи: задачі, які люди вважають дуже складними, агент може легко зробити без великих витрат; а задачі, що здаються простими, можуть коштувати дуже дорого.

Причина — різне сприйняття складності:

Люди враховують: логіку, алгоритми, бізнес-логіку.

Агент — розмір проекту, кількість файлів, довжину пошукових шляхів, повторне редагування.

Задача, яку експерт вважає “просто змінити один рядок”, агент може спочатку читати весь кодовий базу, щоб знайти потрібний рядок — і це коштує багато токенів. А алгоритмічну задачу, яку людина вважає “заплутаною”, агент може швидко вирішити, знаючи стандартне рішення.

Це призводить до неприємної реальності: розробнику важко інтуїтивно оцінити вартість роботи агента.

П’яте відкриття: навіть модель не може точно оцінити, скільки вона витратить

Якщо людина не може точно підрахувати, то чи може AI сам собі передбачити?

Дослідники створили експеримент: перед початком виправлення помилки агент має “проінспектувати” кодову базу і передбачити, скільки токенів йому знадобиться — без фактичного виправлення.

Результат?

Усі моделі провалилися.

Найкращий показник — прогнозування кількості вихідних токенів у Claude Sonnet-4.5 — кореляція 0,39 (з ідеалом 1.0). Більшість моделей мають кореляцію від 0,05 до 0,34, Gemini-3-Pro — лише 0,04 — майже випадкове вгадування.

Ще більш абсурдне: усі моделі систематично недооцінювали свої витрати — у графіку на рисунку 11 майже всі точки нижче “ідеальної лінії”. Тобто, модель вважає, що вона витратить менше, ніж насправді. І ця похибка ще зростає, якщо не подавати приклади.

Ще більш іронічно: передбачення теж коштує грошей.

Прогнозування Claude Sonnet-3.7 і Sonnet-4 коштує іноді більше, ніж сама робота — у 2 рази і більше. Тобто, щоб модель сама “оцінила” свої витрати, потрібно платити ще більше.

Висновок статті простий: на сучасному етапі передові моделі не здатні точно передбачити свої витрати у токенах. Натискаєш “Запустити агента” — і це як відкривати лотерею: рахунок приходить лише після.

За цим “заплутаним” рахунком ховається ще одна велика проблема галузі:

Якщо ви читаєте далі, можливо, запитаєте: що це означає для бізнесу?

  1. Модель підписки “по місяцю” руйнується

Стаття зазначає, що підписка на ChatGPT Plus і подібні сервіси працює тому, що звичайна бесіда з AI — відносно передбачувана і контрольована за кількістю токенів. Але задачі агента цю гіпотезу руйнують — один і той самий запит може “з’їсти” мільйони токенів через цикли і повтори.

Це означає, що модель фіксованої ціни за підпискою у сценаріях агента може бути недієвою — доведеться перейти на оплату за використання (pay-as-you-go), але й вона має недолік — використання важко передбачити.

  1. Ефективність токенів має стати третім критерієм вибору моделі

Зазвичай компанії обирають модель за двома параметрами: здатність (чи може виконати задачу) і швидкість (чи швидко). Стаття пропонує додати третій — “ефективність” (скільки токенів потрібно для досягнення результату).

Модель з трохи меншою здатністю, але у 3 рази більш ефективна, може бути економічно вигіднішою у масштабі.

  1. Агенту потрібен “датчик палива” і “тормоз”

Стаття пропонує перспективний напрям — “бюджетно-усвідомлені” політики використання інструментів. Простими словами — додати агенту “датчик палива”: коли витрати токенів наближаються до ліміту, він має зупинитися, щоб не витрачати даремно.

Зараз майже всі популярні фреймворки агентів цього не підтримують.

Проблема “витрат” у агентів — не помилка, а структурна особливість галузі.

Ця стаття не вказує на недоліки окремих моделей, а підкреслює системну проблему — коли AI переходить від “один запит — одна відповідь” до “самостійного планування, багатоступеневих дій і багатократних корекцій”, непередбачуваність витрат токенів стає неминучою.

Добра новина — це перша системна спроба порахувати цю “заплутану” статтю. З цими даними розробники зможуть краще обирати моделі, планувати бюджети і впроваджувати механізми зупинки; виробники моделей — зосередитися не лише на покращенні якості, а й на економії.

Адже, перш ніж AI-агенти стануть повсюдним інструментом у промисловості, важливо розуміти, куди йдуть гроші — це важливіше, ніж просто красиво писати код.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити