AI Agent видає сміття? Проблема в тому, що ти не хочеш спалювати токени

Проблема не в підказках!

Автор: Systematic Long Short

Переклад: Deep潮 TechFlow

**Глибоке читання: **Центральна ідея цієї статті зводиться до однієї фрази: якість виходу AI-агента прямо пропорційна кількості вкладених у нього токенів.

Автор не просто розмірковує теоретично, а пропонує два конкретні методи, які можна вже сьогодні застосовувати, і чітко окреслює межі, за якими токенами вже не вдається подолати — «проблема новизни».

Для тих, хто використовує агентів для написання коду або запуску робочих процесів, ця інформація має високу цінність і практичну користь.

Вступ

Добре, ви маєте визнати, що цей заголовок справді привертає увагу — але чесно кажучи, це не жарт.

У 2023 році, коли ми ще використовували великих мовних моделей (LLM) для виробництва коду, навколишні були в шоці, бо загальне уявлення тоді було, що LLM може лише генерувати непотрібний сміття. Але ми знаємо одну річ, яку інші не помітили: якість виходу агента — це функція кількості вкладених токенів. Просто і ясно.

Самі можете переконатися, провівши кілька експериментів. Наприклад, доручіть агенту виконати складне, маловідоме завдання — скажімо, з нуля реалізувати обмежений алгоритм конвексної оптимізації. Спершу — на найнижчому рівні роздумів; потім — на найвищому, щоб він переглянув свій код і знайшов помилки. Пробуйте різні рівні. Ви побачите, що кількість помилок зменшується з ростом вкладених токенів.

Це не важко зрозуміти, правда?

Більше токенів = менше помилок. Це логіка, яка лежить в основі процесу code review. Уявімо, що ми вкладаємо величезну кількість токенів у аналіз коду — наприклад, розбираємо його рядок за рядком, визначаючи, чи є помилки. Такий підхід дозволяє виявити більшість або навіть всі помилки. Процес можна повторювати десятки або сотні разів, кожного разу з різних точок зору, і в кінці — знайти всі баги.

Ідея «більше токенів — кращий агент» має ще одне підтвердження: ті команди, що стверджують, ніби агент може писати код і запускати його у виробництво безпосередньо, або — це самі провайдери моделей, або — дуже багаті компанії.

Отже, якщо ви досі мучитеся через те, що агент не генерує виробничий код — скажу прямо: проблема у вас. Або — у вашому гаманці.

Як визначити, чи достатньо ви вкладали токенів

Я писав цілу статтю про те, що проблема точно не у вашій платформі (harness). «Залишайте все простим» — і все одно можна зробити якісний продукт. Я й досі дотримуюся цієї думки. Якщо ви прочитали ту статтю і зробили так, але все одно розчаровані виходом агента — напишіть мені в особисті повідомлення, я бачив, але не відповів.

Ця стаття — відповідь.

Якщо агент погано виконує завдання і не може його вирішити — у більшості випадків причина у тому, що ви вкладали недостатньо токенів.

Скільки потрібно вкладати токенів для вирішення конкретної задачі — залежить від її масштабу, складності та новизни.

«Що таке 2+2?» — не потребує багато токенів.

Але, наприклад, «Допоможіть мені написати бота, який сканує всі ринки між Polymarket і Kalshi, знаходить схожі за змістом, що мають бути розраховані в один і той самий час, встановлює безарбітражні межі і автоматично торгує при появі можливості» — вимагає значних вкладень.

Ми помітили цікаву річ у практиці.

Якщо вкладати достатньо токенів для вирішення масштабних і складних задач, агент здатен їх вирішити. Іншими словами, якщо ви хочете побудувати щось дуже складне, з багатьма компонентами і тисячами рядків коду — достатньо вкладати токени у ці задачі, і вони будуть повністю вирішені.

Є один важливий виняток.

Ваші задачі не повинні бути надто новими. На даному етапі жодна кількість токенів не здатна подолати «проблему новизни». Достатньо багато токенів зменшують помилки, що виникають через складність, але не здатні змусити агенту винаходити невідоме самостійно.

Цей висновок — це насамперед полегшення.

Ми витратили багато зусиль, вкладали величезну кількість токенів, щоб спробувати без підказок відтворити процес інституційних інвестицій. Це було для того, щоб зрозуміти, скільки років залишилось до повної заміни людей AI. Але виявилося, що агент не здатен і близько відтворити повний інституційний процес — бо його просто не навчали цьому, він у тренувальних даних відсутній.

Отже, якщо ваша задача нова — не сподівайтеся, що просто накопичення токенів її вирішить. Вам потрібно самостійно вести пошук і дослідження. Але коли ви визначили рішення — можете сміливо вкладати токени для його реалізації — незалежно від розміру коду або кількості компонентів.

Є простий евристичний принцип: бюджет токенів має зростати пропорційно кількості рядків коду.

Що робить більше токенів

На практиці додаткові токени підвищують якість роботи агента за рахунок:

  • Дозволяючи йому витратити більше часу на роздуми, що дає шанс виявити логічні помилки. Чим глибше роздуми — тим краще планування — і тим вищий шанс на успіх.

  • Дозволяючи йому робити кілька незалежних спроб, досліджуючи різні шляхи розв’язання. Деякі з них кращі за інші. Більше спроб — більше шансів обрати найкращий.

  • Дозволяючи йому відмовитися від слабких напрямків і зберегти найперспективніші.

  • Надання йому можливості використовувати новий контекст для критики власної роботи і покращення. Це дозволяє уникнути «застою» у певних логіках.

  • І найулюбленіше — більше токенів дає змогу застосовувати тестування і інструменти для перевірки. Запуск коду і перевірка його роботи — найнадійніший спосіб підтвердити правильність відповіді.

Ця логіка працює, бо провали агента у проектуванні — не випадкові. Зазвичай це через передчасний вибір неправильного шляху, відсутність перевірки його життєздатності (на ранніх етапах) або недостатній бюджет для відкату і виправлення помилок.

Отже, історія така: кількість токенів — це буквально ваші інвестиції у якість рішень. Уявіть, що це — дослідження: якщо ви ставите людині складне питання і даєте час — відповідь буде кращою. Вчені витрачають біологічний час на пошук кращих відповідей, агент — обчислювальний час.

Як покращити свого агента

Можливо, ви й досі сумніваєтеся, але багато досліджень підтверджують цю ідею: регулювання «роздумів» — це все, що вам потрібно.

Особливо мені подобається одна стаття, де дослідники навчили модель на невеликій кількості спеціально підготовлених прикладів роздумів, а потім — змусили її продовжувати думати, додавши команду «Wait» (зачекай) там, де вона хотіла зупинитися. Це підвищило результати тестів з 50% до 57%.

Я хочу сказати прямо: якщо ви скаржитеся, що агент погано пише код — швидше за все, одного максимуму роздумів недостатньо.

Ось два дуже простих способи покращити ситуацію:

Простий спосіб один: WAIT (зачекай)

Вже сьогодні можете зробити найпростіше: налаштувати автоматичний цикл — після завершення — щоб агент переглядав код у новому контексті N разів, і кожного разу виправляв помилки.

Якщо ця проста ідея покращила результати — значить, проблема у кількості токенів. Тоді приєднуйтеся до клубу вкладень.

Простий спосіб два: VERIFY (перевірка)

Давайте агенту раніше і частіше перевіряти свою роботу. Створюйте тестові сценарії, щоб переконатися, що обраний шлях працює. Це особливо важливо для складних проектів з глибокою вкладеністю — один функціонал може викликатися багатьма іншими. Виявлення помилок на ранніх етапах — економить багато часу і токенів у майбутньому. Тому, якщо можливо, ставте перевірки на кожному етапі.

Після завершення роботи — нехай інший агент перевірить її. Це допоможе виявити системні помилки і зменшити кількість повторних запусків.

Все. Більше про цю тему писати можна багато, але достатньо усвідомити ці два підходи і застосовувати їх — і ви вирішите 95% проблем. Вірю, що просте — найкраще, і його потрібно доводити до досконалості, а потім додавати складність за потреби.

Я вже згадував, що «проблему новизни» не можна подолати за допомогою токенів — і хочу ще раз наголосити, бо рано чи пізно ви натрапите на цю пастку і скажете мені, що вкладати токени безглуздо.

Якщо ваша задача не входить до тренувального набору — саме ви маєте бути тим, хто знайде рішення. Тому галузеві знання залишаються дуже важливими.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити