AI Agent выдаёт мусор? Проблема в том, что ты не хочешь сжигать Token

Question

Проблема не в подсказках!Автор: Systematic Long ShortПеревод: DeepChao TechFlow**Обзор DeepChao:** Основной тезис этой статьи — одна фраза: качество вывода AI-агента прямо пропорционально количеству использованных токенов.Автор не рассуждает абстрактно о теории, а предлагает два конкретных метода, которые можно начать применять уже сегодня, и ясно обозначает границы, за которыми токены не помогут — «проблема новизны».Для читателей, использующих агента для написания кода или автоматизации рабочих процессов, информация очень насыщенная и практически применимая.Введение--Ну да, нужно признать, что заголовок действительно привлекает внимание — но, честно говоря, это не шутка.В 2023 году, когда мы еще использовали большие языковые модели (LLM) для производства кода, окружающие были в шоке, потому что тогда считалось, что LLM могут только генерировать бесполезный мусор. Но мы знали одну вещь, о которой другие не догадывались: качество вывода агента — это функция количества вложенных токенов. Всё очень просто.Вы можете сами провести несколько экспериментов. Пусть агент выполнит сложную, немного нишевую задачу программирования — например, реализовать с нуля ограниченный алгоритм выпуклой оптимизации. Сначала на минимальном уровне размышлений; затем переключиться на максимальный уровень, чтобы он проверил свой код и обнаружил сколько ошибок. Попробуйте средний и высокий уровни. Вы увидите наглядно: количество ошибок убывает монотонно с увеличением вложенных токенов.Это легко понять, верно?Больше токенов = меньше ошибок. Можно развить эту идею дальше — и это в основном та (упрощенная) идея, которая лежит в основе процесса code review. В новом контексте, вложив огромное количество токенов (например, чтобы он построчно анализировал код и определял, есть ли ошибки), — вы сможете выявить большинство или даже все ошибки. Этот процесс можно повторять десять, сто раз, каждый раз с «разных сторон» просматривая кодовую базу, и в итоге вы найдете все баги.Еще одно подтверждение, что «больше токенов — лучше качество агента»: те команды, которые утверждают, что используют агента для полного автоматического написания кода и вывода его в продакшн, либо являются поставщиками базовых моделей, либо очень богатой компанией.Поэтому, если вы все еще страдаете от того, что агент не генерирует продакшн-код — скажу прямо: проблема в вас. Или, точнее, в вашем бюджете токенов.Как понять, достаточно ли вы вложили токенов-----------------Я писал целую статью о том, что проблема точно не в вашей системе (harness), — «оставаться простым» вполне можно, и это даст хорошие результаты. Я по-прежнему придерживаюсь этого мнения. Вы прочитали ту статью, сделали по ней — и все равно разочаровались в выводах агента. Тогда напишите мне в личку, я прочитаю, но не отвечу.Это — ответ.Плохая производительность агента или неспособность решить проблему — чаще всего связано с недостаточным количеством вложенных токенов.Сколько токенов нужно для решения задачи, полностью зависит от ее масштаба, сложности и новизны.«2+2 сколько?» — не требует много токенов.«Помоги написать бота, который сканирует все рынки Polymarket и Kalshi, ищет похожие по смыслу и предполагает одинаковую дату расчетов, устанавливает безарбитражные границы, и при появлении арбитражных возможностей автоматически торгует с минимальной задержкой» — для этого потребуется вложить много токенов.На практике мы обнаружили интересный факт.Если вложить достаточно токенов для обработки задач, вызванных масштабом и сложностью, агент в любом случае сможет их решить. Иными словами, если вы хотите построить очень сложную систему с множеством компонентов и строк кода, — достаточно вложить в эти задачи достаточное количество токенов, и они будут полностью решены.Есть одно важное исключение.Ваш вопрос не должен быть слишком новым. На текущем этапе никакое количество токенов не решит проблему «новизны». Достаточно много токенов снизит ошибки, связанные со сложностью, до нуля, но не позволит агенту из ничего придумать то, чего он не знает.Этот вывод, на самом деле, нас немного облегчает.Мы потратили много сил, вложили — много-много токенов — чтобы понять, можем ли без особых подсказок заставить агента воспроизвести инвестиционный процесс в организации. И выяснили, что агент этого сделать не может — потому что такие процессы в обучающих данных просто отсутствуют.Значит, если ваша задача действительно нова — не ждите, что просто накапливая токены, вы ее решите. Нужно самому вести исследование и руководство. Но как только вы определите решение, можете смело увеличивать вложения токенов — размер кода и компонентов не станет преградой.Есть простое эвристическое правило: бюджет токенов должен расти пропорционально количеству строк кода.Что делает больше вложенных токенов----------------На практике дополнительные токены обычно повышают качество инженерных решений за счет:- Позволения агенту в одной попытке глубже размышлять, находить ошибки логики. Чем глубже размышление — тем лучше план — и тем выше шанс попасть в точку.- Позволения ему делать несколько независимых попыток, проходя разные пути решения. Некоторые пути лучше других. Несколько попыток позволяют выбрать лучший.- Позволения ему отказаться от слабых вариантов и оставить наиболее перспективные.- Использования большего количества токенов для критики своих предыдущих решений в новом контексте, давая шанс на улучшение, а не застревание в «инерции» рассуждений.- И, что мне особенно нравится, — больше токенов позволяют использовать тесты и инструменты для проверки. Запуск кода и проверка его работоспособности — самый надежный способ убедиться в правильности ответа.Эта логика работает потому, что неудачи агента в инженерной части — не случайны. Обычно это связано с преждевременным выбором неправильного пути, отсутствием проверки его работоспособности (на ранних этапах), или недостаточным бюджетом для восстановления и отката после ошибок.История такова: токены — это буквально ваши инвестиции в качество решений. Представьте, что вы задаете сложный вопрос человеку — его ответ зависит от времени, которое он тратит. Чем больше времени — тем лучше ответ.Исследование, в конечном итоге, — это создание «знания». Люди тратят биологическое время, чтобы получить лучший ответ, а агент — больше вычислительное время, чтобы дать лучший ответ.Как улучшить вашего агента------------Возможно, вы все еще сомневаетесь, но есть много исследований, подтверждающих это — честно говоря, наличие «регулятора» для рассуждений — это уже все, что вам нужно.Особенно мне нравится одна статья, где исследователи использовали небольшую выборку специально подготовленных примеров рассуждений для обучения, а затем принудительно заставляли модель продолжать думать, добавляя «Wait» (подождите) там, где она хотела остановиться. Уже это повысило результат на базовом тесте с 50% до 57%.Хочу сказать прямо: если вы постоянно жалуетесь, что код агента оставляет желать лучшего, — скорее всего, одного прохода на максимальном уровне размышлений недостаточно.Даю два очень простых метода.### Простая рекомендация 1: WAIT (подождите)Это — самый простой способ, который вы можете начать применять сегодня: организуйте автоматический цикл — после завершения, пусть агент использует новый контекст для повторного обзора N раз, исправляя ошибки по мере обнаружения.Если этот трюк улучшил работу агента — значит, проблема именно в недостатке токенов. Тогда присоединяйтесь к клубу вложений!### Простая рекомендация 2: VERIFY (проверка)Пускай агент как можно раньше и чаще проверяет свою работу. Пишите тесты, чтобы убедиться, что выбранный путь действительно работает. Особенно полезно для сложных, глубоко вложенных проектов — один вызов функции может быть использован множеством других функций. Если на верхнем уровне можно поймать ошибку — это сэкономит вам много времени и токенов на последующих этапах. Поэтому по возможности вставляйте проверки на каждом этапе.Когда агент завершает работу, пусть второй агент проверит результат. Не связанные потоки рассуждений помогут выявить системные ошибки.Вот и все. Можно было бы писать еще много, но я уверен, что, осознав эти два пункта и применяя их, вы решите 95% проблем. Главное — делать простое максимально хорошо, а затем по мере необходимости усложнять.Я еще раз подчеркиваю, что «новизна» — это проблема, которую токены решить не смогут. И это важно помнить, потому что рано или поздно вы столкнетесь с этим и будете жаловаться, что вложения токенов — бесполезны.Когда ваша задача не входит в обучающий набор — именно вы должны придумать решение. Поэтому профессиональные знания в области остаются крайне важными.

AI Agent выдаёт мусор? Проблема в том, что ты не хочешь сжигать Token

Введение

Как понять, достаточно ли вы вложили токенов

Что делает больше вложенных токенов

Как улучшить вашего агента

Простая рекомендация 1: WAIT (подождите)

Простая рекомендация 2: VERIFY (проверка)

Популярные темы

Gate13thAnniversaryGlobalCelebration

GateProofOfReservesReport

IsraelStrikesIranBTCPlunges

CryptoMarketVolatility

GoldSeesLargestWeeklyDropIn43Years

Горячее на Gate Fun

MPRT

Monir PRT

AI

AI

LCWL

林创网络

以“德”服人

以“德”服人

如风如雨

如风如雨

Закрепить