Raindrop Workshop 用 Codex 帮你的 AI Agent 自动找 bug 并修复（免费开源）

2026-05-15 02:45:58

AI 代理开发者工具公司 Raindrop 本周开源本地调试器 Workshop（v0.1.6），让开发者可即时追踪 Agent 每个 token 输出和工具调用，并通过 MCP 让 Claude Code 自动读取、撰写测试与修复。
（前情提要：Claude 写程序疯狂犯错装傻？改造 Andrej Karpathy 的12 条规则帮你把错误率从 41% 砍到 3％）
（背景补充：Anthropic 推出「Claude for Small Business」：瞄准中小企业 AI 自动化工作）

你的 AI Agent 刚跑出一个奇怪的结果。它选了一个你没有预期的工具，输出了一段语义含糊的回应。你开启日志，看到的是一堆 API 调用和 token 数字，但没有任何线索告诉你哪个决策走错了。

Raindrop 在 5 月 14 日发布了一个开源工具，试图让这个场景不再发生：一个完全本地端、完全免费的 AI Agent 调试程序 Workshop。让开发者可以即时追踪 Agent 每一个 token 输出和工具调用，然后把排错这件事本身交给 Claude Code 或 Codex 来做。

AI Agent 的排错问题为什么特别难？

传统软件排错有断点、有完整的调用堆栈、有确定性的执行路径。AI Agent 的排错不一样。它的行为是概率性的，同样的输入在不同执行下可能走出完全不同的路；它的决策是在多层 LLM 调用之间分散形成的，单靠终端输出几乎看不出任何逻辑。

问题的本质是：你不是在找「哪一行代码写错了」，而是在找「Agent 在某个特定的上下文组合下做出了一个非预期的判断，是在哪一步出了问题」。这种问题，靠传统调试器是找不到答案的。

现有解法通常只有两条路：

一是云端监控平台，把 trace 送到第三方服务用仪表板分析
二是在代码里塞满自定义 logging 逻辑

前者对有资料隐私顾虑的开发者不友善，后者费时费力，每次框架升级都要维护一套新的 logging 基础设施。而且两者都有一个共同问题：它们告诉你「发生了什么」，但不帮你「修好它」。

Workshop 选择了第三条路：完全本地端执行，不传送任何资料到外部服务器，开源，免费，让 AI 直接参与排错循环。

Workshop 的工作方式

启动后，Workshop 在本地执行一个可视化界面，并对外暴露一个 MCP（Model Context Protocol）Server。MCP 翻译过来就是「让 AI 工具能够调用外部能力的标准通讯协议」——它是 Claude Code 等 AI 编码工具读取外部资料的桥梁。

一旦接入支持的 SDK，Agent 的每个执行节点——每个 token 输出、每个工具调用、每个决策分支——都以串流方式即时出现在 localhost:5899，不需要 polling，不需要手动刷新。

用直白的话说，就是在你的电脑本地开一个监控窗口，让你像看直播一样，即时看到 AI Agent 在做什么。

Workshop 最关键的设计，是把 Claude Code 等设计助手引入排错循环。由于 Workshop 暴露了 MCP Server，Claude Code 可以直接读取 trace 内容，根据这些 trace 撰写 eval 测试，把测试执行起来，观察失败的断言，回头修改 Agent 的程序码，再重新执行——直到所有测试通过。

Raindrop 称这个循环为「自我修复 eval 循环」。整个过程在本地闭环，Claude Code 读 trace、写 eval、看失败、改程序、重跑，不需要开发者手动介入每一个步骤。

Workshop 还支持 Replay 功能：把线上环境的 trace 拉回本地，对着真实代码重新执行，做回归测试。这对「生产环境出错但本地重现不了」的情况特别有用，直接拿真实 trace 跑，省去构造复现场景的时间。