Raindrop Workshop usa Codex para ajudar o seu Agente de IA a encontrar bugs automaticamente e corrigi-los (gratuito e de código aberto)

Ferramenta de desenvolvedor de agentes de IA Raindrop lança Workshop de depuração local (v0.1.6) nesta semana, permitindo que desenvolvedores rastreiem em tempo real cada saída de token do agente e chamadas de ferramentas, além de usar MCP para que Claude Code leia, escreva testes e corrija automaticamente.
(Resumindo: Claude escreve código e fica louco de cometer erros? Transforme as 12 regras de Andrej Karpathy para reduzir a taxa de erro de 41% para 3%)
(Complemento: Anthropic lança “Claude for Small Business”: voltado para automação de IA para pequenas e médias empresas)

Seu agente de IA acabou de gerar um resultado estranho. Ele escolheu uma ferramenta que você não esperava, e respondeu com uma resposta ambígua. Você abre o log, vê uma série de chamadas de API e números de tokens, mas sem nenhuma pista de qual decisão foi errada.

Raindrop lançou em 14 de maio uma ferramenta de código aberto que tenta evitar que isso aconteça: um Workshop de depuração de IA totalmente local, gratuito, que permite aos desenvolvedores rastrear cada token de saída do agente e chamadas de ferramenta em tempo real, deixando a própria depuração para Claude Code ou Codex.

Por que o problema de depuração de agentes de IA é especialmente difícil?

A depuração de software tradicional tem pontos de interrupção, uma pilha de chamadas completa, um caminho de execução determinístico. A depuração de agentes de IA é diferente. Seu comportamento é probabilístico, a mesma entrada pode levar a caminhos completamente diferentes em execuções distintas; suas decisões são dispersas entre múltiplas chamadas de LLM, e apenas a saída final quase não revela lógica alguma.

A essência do problema é: você não está procurando por “qual linha de código está errada”, mas por “em qual etapa o agente tomou uma decisão inesperada em um determinado contexto, e onde exatamente ocorreu o erro”. Problemas assim não podem ser resolvidos com um depurador tradicional.

As soluções existentes geralmente seguem dois caminhos:

  • Um é plataformas de monitoramento na nuvem, enviando traces para serviços de terceiros para análise via dashboards
  • O outro é encher o código com lógica de logging personalizada

O primeiro não é amigável para desenvolvedores preocupados com privacidade de dados, o segundo é trabalhoso e requer manutenção de uma infraestrutura de logging toda vez que o framework é atualizado. Além disso, ambos têm um problema comum: eles dizem “o que aconteceu”, mas não ajudam a “consertar”.

O Workshop escolheu o terceiro caminho: execução totalmente local, sem enviar qualquer dado para servidores externos, open source, gratuito, permitindo que a IA participe diretamente do ciclo de depuração.

Como funciona o Workshop

Ao iniciar, o Workshop executa uma interface visual localmente, expondo um servidor MCP (Model Context Protocol). MCP é uma “padronização de comunicação que permite às ferramentas de IA chamarem capacidades externas” — é a ponte que Claude Code e outras ferramentas de codificação IA usam para acessar dados externos.

Ao integrar o SDK suportado, cada nó de execução do agente — cada saída de token, cada chamada de ferramenta, cada ramificação de decisão — aparece em tempo real via streaming em localhost:5899, sem necessidade de polling ou atualização manual.

Simplificando: é como abrir uma janela de monitoramento no seu computador, onde você assiste ao vivo o que o agente de IA está fazendo.

A principal inovação do Workshop é incorporar assistentes de design como Claude Code no ciclo de depuração. Como o Workshop expõe o servidor MCP, Claude Code pode ler diretamente o trace, gerar testes de avaliação baseados nesses traces, executar os testes, observar as falhas, modificar o código do agente e reexecutar — até que todos os testes passem.

Raindrop chama esse ciclo de “auto-correção com avaliação”. Todo o processo é fechado localmente: Claude Code lê o trace, escreve avaliações, observa falhas, ajusta o código, reexecuta, tudo sem intervenção manual do desenvolvedor em cada passo.

O Workshop também suporta uma função de Replay: puxar traces de ambientes online para o local, reexecutar com o código real, realizando testes de regressão. Isso é especialmente útil para casos onde o erro ocorre em produção, mas não pode ser reproduzido localmente; basta usar o trace real para rodar, economizando tempo na reconstrução do cenário.

CODEX-1,17%
TOKEN-0,39%
ANTHROPIC-2,13%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado