Raindrop Workshop с помощью Codex помогает вашему AI-агенту автоматически находить ошибки и исправлять их (бесплатное открытое ПО)

AI Агент Инструменты Разработчика Raindrop на этой неделе выпустил открытый исходный код локального отладчика Workshop (v0.1.6), позволяющего разработчикам в реальном времени отслеживать каждое токеновое вывод и вызовы инструментов агента, а также через MCP автоматически читать, писать тесты и исправлять Claude Code.
(Предыстория: Claude безумно ошибается и притворяется глупым при написании кода? Модификация 12 правил Андрея Карпати помогает снизить уровень ошибок с 41% до 3%)
(Дополнительный фон: Anthropic запустила «Claude for Small Business»: ориентированное на малый и средний бизнес решение для автоматизации AI)

Ваш AI Агент только что дал странный результат. Он выбрал неожиданный инструмент и вывел неоднозначный ответ. Вы открываете лог, и видите кучу API вызовов и чисел токенов, но никаких подсказок, где произошла ошибка в решении.

Raindrop 14 мая выпустил открытый инструмент, который пытается сделать так, чтобы подобные ситуации больше не возникали: полностью локальный, полностью бесплатный Workshop для отладки AI Агентов. Он позволяет разработчикам в реальном времени отслеживать каждый токеновый вывод и вызов инструмента, а также поручает самим Claude Code или Codex заниматься отладкой.

Почему проблема отладки AI Агентов особенно сложна?

В традиционной отладке программного обеспечения есть точки останова, полный стек вызовов, детерминированный путь выполнения. Отладка AI Агентов — совсем другое дело. Их поведение вероятностное, один и тот же ввод при разных запусках может вести по совершенно разным путям; их решения распределены между множеством вызовов LLM, и по одному конечному выводу почти невозможно понять логику.

Суть проблемы в том, что вы не ищете «какая строка кода ошибочна», а «в каком конкретном контексте агент принял неожиданное решение, на каком шаге возникла проблема». Такие задачи невозможно решить с помощью обычного отладчика.

Существующие решения обычно делятся на два пути:

  • Первый — облачные платформы мониторинга, отправляющие трассировки в сторонние сервисы для анализа через дашборды
  • Второй — вставка в код собственной логики логирования

Первый вариант неудобен для разработчиков, заботящихся о приватности данных, второй — трудоемкий и требует поддержки новой инфраструктуры при каждом обновлении фреймворка. И у обоих есть общий недостаток: они показывают «что произошло», но не помогают «починить проблему».

Workshop выбирает третий путь: полностью локальное выполнение, без передачи данных на внешние серверы, с открытым исходным кодом, бесплатно, позволяя AI напрямую участвовать в цикле отладки.

Как работает Workshop

После запуска Workshop запускается локальный визуальный интерфейс и открывает MCP (Model Context Protocol) Server. MCP — это «стандартный протокол связи, позволяющий AI-инструментам вызывать внешние возможности» — мост между Claude Code и другими AI-инструментами для чтения внешних данных.

Подключившись к поддерживаемому SDK, каждый узел выполнения агента — каждый токен, вызов инструмента, ветка решения — отображается в реальном времени через поток на localhost:5899, без опросов и ручной перезагрузки.

Проще говоря, у вас на компьютере открывается мониторинг-окно, в реальном времени показывающее, что делает AI Агент, как в прямом эфире.

Главная особенность Workshop — интеграция Claude Code и других помощников проектирования в цикл отладки. Благодаря открытому MCP Server Claude Code может напрямую читать трассировки, на основе них писать eval-тесты, запускать их, наблюдать за неудачными утверждениями, возвращаться к исправлению кода агента и запускать заново — пока все тесты не пройдут.

Raindrop называет этот цикл «самовосстанавливающим eval-цикл». Весь процесс — локальный, замкнутый, Claude Code читает трассировки, пишет eval, наблюдает за ошибками, исправляет код, перезапускает — без необходимости ручного вмешательства разработчика.

Workshop также поддерживает функцию Replay: загрузка трассировок из реальной среды обратно в локальную, повторное выполнение с реальным кодом для регрессионного тестирования. Особенно полезно, когда в боевой среде произошла ошибка, которую трудно воспроизвести локально: можно просто запустить реальную трассировку, экономя время на восстановление ситуации.

CODEX-0,65%
TOKEN-0,09%
ANTHROPIC-1,54%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено