ніщоУявіть цю ситуацію:Ви просите AI-агента допомогти вам виправити помилку в коді. Він відкриває проект, читає 20 файлів, трохи змінює, запускає тест, не проходить, знову змінює, знову запускає, все ще не проходить... кілька разів, нарешті — все ще не виправлено.Ви вимикаєте комп’ютер, зітхаєте з полегшенням. Потім отримуєте рахунок за API.Ці цифри можуть змусити вас затамувати подих — автономне виправлення помилок AI-агентом через офіційний API за кордоном, один неуспішний завдання зазвичай спалює понад мільйон токенів, вартість може сягати від кількох десятків до понад сотні доларів.У квітні 2026 року, спільна дослідницька стаття Стенфордського, MIT, Мічиганського університетів та інших вперше систематично розкрила “чорний ящик” споживання AI-агента у завданнях з кодом — куди саме йдуть гроші, чи вони виправдані, і чи можливо

MarsBitNews

2026-05-03 01:01:40

уявіть собі цю ситуацію:

Ви просите AI-агента допомогти вам виправити помилку у коді. Він відкриває проект, читає 20 файлів, трохи змінює, запускає тест — не проходить, знову змінює, знову запускає — все ще не проходить… кілька разів так повторює, нарешті — все ще не виправлено.

Ви вимикаєте комп’ютер, зітхаєте з полегшенням. А потім отримуєте рахунок за API.

Ці цифри можуть вас налякати — автономне виправлення помилок AI-агентом за допомогою офіційного API за кордоном, часто вартість невиправленого завдання з’їдає понад мільйон токенів, ціна може сягати десятків або понад сотню доларів.

У квітні 2026 року вийшла спільна дослідницька стаття Стенфордського, MIT, Мічиганського університетів та інших, яка вперше системно розкрила “чорний ящик” витрат AI-агента у кодових задачах — куди саме йдуть гроші, чи вони виправдані, чи можна їх передбачити заздалегідь, — відповіді виявилися шокуючими.

Відкриття перше: швидкість витрат агента на написання коду у 1000 разів перевищує звичайну бесіду з AI

Можливо, ви думаєте: “Дозволь мені попросити AI допомогти з написанням коду і спілкуванням про код — ціна має бути приблизно однакова?”

Дослідження показало:

Обсяг токенів, що витрачається на завдання коду з агентом, у 1000 разів більший, ніж на звичайні питання та відповіді з кодом і логікою.

Це цілі три порядки величини.

Чому так? Стаття вказує на один факт — гроші витрачаються не на “писання коду”, а на “читання коду”.

Тут “читання” — не людське, а те, що робить агент у процесі роботи: постійно потрібно подавати модель весь контекст проекту, історію дій, повідомлення про помилки, вміст файлів. Кожен новий раунд діалогу робить цей контекст довшим; а модель оплачується за кількість токенів — чим більше “годуєш”, тим більше платиш.

Наприклад: це схоже на запрошення майстра, який перед тим, як почати працювати, просить тебе перечитати йому всю документацію будівлі — платити за читання документації набагато дорожче, ніж за закручування гвинтів.

Стаття підсумовує цей феномен так: вартість роботи агента зростає експоненційно через збільшення кількості введених токенів, а не через кількість виведених.

Друге відкриття: одна й та сама помилка при двох запусках може коштувати вдвічі більше — і чим дорожча помилка, тим менш стабільна

Ще одна проблема — випадковість.

Дослідники запускали одного й того ж агента на одній і тій же задачі 4 рази і виявили:

Між різними задачами найдорожча може спожити приблизно на 7 мільйонів токенів більше, ніж найменша (рисунок 2а)

У кількох запусках одного й того ж моделі на одній задачі найдорожчий запуск у 2 рази дорожчий за найекономніший (рисунок 2b)

Якщо порівнювати різні моделі на одній і тій же задачі, різниця між найвищим і найнижчим споживанням може сягати аж 30 разів

Останнє число особливо важливе: це означає, що різниця у вартості між правильно обраною моделлю і неправильною — не просто “дорожче”, а “у кілька разів”.

Ще більш боляче: більше витрат — не означає кращу якість роботи.

Стаття виявила “U-подібну” криву:

Рівень витрат і точність мають таку тенденцію: низькі витрати — низька точність (можливо, недостатньо ресурсів), середні — найвища точність, високі — точність знижується і входить у “сферу насичення”.

Чому так? Аналізуючи конкретні дії агента, автори дають відповідь:

У високовитратних запусках багато часу витрачається на “повторну роботу”.

Дослідження показало, що у високовитратних сценаріях близько 50% операцій з перегляду та редагування файлів — повторювані. Тобто агент повторно читає один і той самий файл, змінює одну й ту ж рядок — наче людина, яка кружляє по кімнаті, стає все більш заплутаною і втомлюється.

Гроші витрачаються не на вирішення проблеми, а на “заблукання”.

Третє відкриття: ефективність моделей різниться у рази — GPT-5 найекономічніша, а деякі моделі споживають до 1,5 мільйонів токенів

Дослідження на стандартному тесті SWE-bench Verified (500 реальних GitHub Issue) показало результати восьми передових моделей. Перераховуючи в долари, моделі з високою ефективністю токенів дозволяють виконати кілька десятків завдань більше за ту ж ціну. Для підприємств, які запускають сотні задач щодня, різниця — реальні гроші.

Ще цікавіше: ефективність токенів — це “внутрішня характеристика” моделі, а не залежить від задачі.

Дослідники порівнювали всі задачі, які успішно вирішили всі моделі (230), і всі задачі, які провалили всі моделі (100). Виявилося, що рейтинг моделей у цій вибірці майже не змінюється.

Це означає: деякі моделі “говорять більше” за інших незалежно від складності задачі.

Ще одне важливе відкриття — у моделей відсутня “стратегія зупинки”.

Коли всі моделі не справляються з важкою задачею, ідеальний агент мав би відмовитися раніше, щоб не витрачати даремно токени. Але насправді, моделі зазвичай витрачають більше токенів на невдачі — вони не “здаються”, а продовжують досліджувати, повторювати, перечитувати контекст — наче автомобіль без індикатора рівня палива, що їде і раптово зупиняється.

Четверте відкриття: те, що важко для людини, не обов’язково дорого для агента — сприйняття складності зовсім різне

Можливо, ви думаєте: “Я можу оцінити вартість, орієнтуючись на складність задачі?”

Дослідження залучило експертів, які оцінили складність 500 задач, і порівняли з фактичним споживанням токенів агентом —

Результат: між оцінками і реальним споживанням — слабкий зв’язок.

Проще кажучи: задачі, які люди вважають дуже складними, агент може легко зробити без великих витрат; а задачі, що здаються простими, можуть коштувати дуже дорого.

Причина — різне сприйняття складності:

Люди враховують: логіку, алгоритми, бізнес-логіку.

Агент — розмір проекту, кількість файлів, довжину пошукових шляхів, повторне редагування.

Задача, яку експерт вважає “просто змінити один рядок”, агент може спочатку читати весь кодовий базу, щоб знайти потрібний рядок — і це коштує багато токенів. А алгоритмічну задачу, яку людина вважає “заплутаною”, агент може швидко вирішити, знаючи стандартне рішення.

Це призводить до неприємної реальності: розробнику важко інтуїтивно оцінити вартість роботи агента.

П’яте відкриття: навіть модель не може точно оцінити, скільки вона витратить

Якщо людина не може точно підрахувати, то чи може AI сам собі передбачити?

Дослідники створили експеримент: перед початком виправлення помилки агент має “проінспектувати” кодову базу і передбачити, скільки токенів йому знадобиться — без фактичного виправлення.

Результат?

Усі моделі провалилися.

Найкращий показник — прогнозування кількості вихідних токенів у Claude Sonnet-4.5 — кореляція 0,39 (з ідеалом 1.0). Більшість моделей мають кореляцію від 0,05 до 0,34, Gemini-3-Pro — лише 0,04 — майже випадкове вгадування.

Ще більш абсурдне: усі моделі систематично недооцінювали свої витрати — у графіку на рисунку 11 майже всі точки нижче “ідеальної лінії”. Тобто, модель вважає, що вона витратить менше, ніж насправді. І ця похибка ще зростає, якщо не подавати приклади.

Ще більш іронічно: передбачення теж коштує грошей.

Прогнозування Claude Sonnet-3.7 і Sonnet-4 коштує іноді більше, ніж сама робота — у 2 рази і більше. Тобто, щоб модель сама “оцінила” свої витрати, потрібно платити ще більше.

Висновок статті простий: на сучасному етапі передові моделі не здатні точно передбачити свої витрати у токенах. Натискаєш “Запустити агента” — і це як відкривати лотерею: рахунок приходить лише після.

За цим “заплутаним” рахунком ховається ще одна велика проблема галузі:

Якщо ви читаєте далі, можливо, запитаєте: що це означає для бізнесу?

Модель підписки “по місяцю” руйнується

Стаття зазначає, що підписка на ChatGPT Plus і подібні сервіси працює тому, що звичайна бесіда з AI — відносно передбачувана і контрольована за кількістю токенів. Але задачі агента цю гіпотезу руйнують — один і той самий запит може “з’їсти” мільйони токенів через цикли і повтори.

Це означає, що модель фіксованої ціни за підпискою у сценаріях агента може бути недієвою — доведеться перейти на оплату за використання (pay-as-you-go), але й вона має недолік — використання важко передбачити.

Ефективність токенів має стати третім критерієм вибору моделі

Зазвичай компанії обирають модель за двома параметрами: здатність (чи може виконати задачу) і швидкість (чи швидко). Стаття пропонує додати третій — “ефективність” (скільки токенів потрібно для досягнення результату).

Модель з трохи меншою здатністю, але у 3 рази більш ефективна, може бути економічно вигіднішою у масштабі.

Агенту потрібен “датчик палива” і “тормоз”

Стаття пропонує перспективний напрям — “бюджетно-усвідомлені” політики використання інструментів. Простими словами — додати агенту “датчик палива”: коли витрати токенів наближаються до ліміту, він має зупинитися, щоб не витрачати даремно.

Зараз майже всі популярні фреймворки агентів цього не підтримують.

Проблема “витрат” у агентів — не помилка, а структурна особливість галузі.

Ця стаття не вказує на недоліки окремих моделей, а підкреслює системну проблему — коли AI переходить від “один запит — одна відповідь” до “самостійного планування, багатоступеневих дій і багатократних корекцій”, непередбачуваність витрат токенів стає неминучою.

Добра новина — це перша системна спроба порахувати цю “заплутану” статтю. З цими даними розробники зможуть краще обирати моделі, планувати бюджети і впроваджувати механізми зупинки; виробники моделей — зосередитися не лише на покращенні якості, а й на економії.

Адже, перш ніж AI-агенти стануть повсюдним інструментом у промисловості, важливо розуміти, куди йдуть гроші — це важливіше, ніж просто красиво писати код.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
532.6K Популярність
#
USSeeksStrategicBitcoinReserve
58.75M Популярність
#
IsraelStrikesIranBTCPlunges
39.51K Популярність
#
BitcoinETFOptionLimitQuadruples
1.02M Популярність
#
#FedHoldsRateButDividesDeepen
42.34K Популярність

Закріпити

карта сайту

Агенту потрібні «дисплей рівня палива» та «гальмо»: стаття, яка розкриває «заплутані справи» агента

Популярні теми

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Закріпити