10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
Raindrop Workshop 用 Codex 帮你的 AI Agent 自动找 bug 并修复(免费开源)
AI 代理开发者工具公司 Raindrop 本周开源本地调试器 Workshop(v0.1.6),让开发者可即时追踪 Agent 每个 token 输出和工具调用,并通过 MCP 让 Claude Code 自动读取、撰写测试与修复。
(前情提要:Claude 写程序疯狂犯错装傻?改造 Andrej Karpathy 的12 条规则帮你把错误率从 41% 砍到 3%)
(背景补充:Anthropic 推出「Claude for Small Business」:瞄准中小企业 AI 自动化工作)
你的 AI Agent 刚跑出一个奇怪的结果。它选了一个你没有预期的工具,输出了一段语义含糊的回应。你开启日志,看到的是一堆 API 调用和 token 数字,但没有任何线索告诉你哪个决策走错了。
Raindrop 在 5 月 14 日发布了一个开源工具,试图让这个场景不再发生:一个完全本地端、完全免费的 AI Agent 调试程序 Workshop。让开发者可以即时追踪 Agent 每一个 token 输出和工具调用,然后把排错这件事本身交给 Claude Code 或 Codex 来做。
AI Agent 的排错问题为什么特别难?
传统软件排错有断点、有完整的调用堆栈、有确定性的执行路径。AI Agent 的排错不一样。它的行为是概率性的,同样的输入在不同执行下可能走出完全不同的路;它的决策是在多层 LLM 调用之间分散形成的,单靠终端输出几乎看不出任何逻辑。
问题的本质是:你不是在找「哪一行代码写错了」,而是在找「Agent 在某个特定的上下文组合下做出了一个非预期的判断,是在哪一步出了问题」。这种问题,靠传统调试器是找不到答案的。
现有解法通常只有两条路:
前者对有资料隐私顾虑的开发者不友善,后者费时费力,每次框架升级都要维护一套新的 logging 基础设施。而且两者都有一个共同问题:它们告诉你「发生了什么」,但不帮你「修好它」。
Workshop 选择了第三条路:完全本地端执行,不传送任何资料到外部服务器,开源,免费,让 AI 直接参与排错循环。
Workshop 的工作方式
启动后,Workshop 在本地执行一个可视化界面,并对外暴露一个 MCP(Model Context Protocol)Server。MCP 翻译过来就是「让 AI 工具能够调用外部能力的标准通讯协议」——它是 Claude Code 等 AI 编码工具读取外部资料的桥梁。
一旦接入支持的 SDK,Agent 的每个执行节点——每个 token 输出、每个工具调用、每个决策分支——都以串流方式即时出现在 localhost:5899,不需要 polling,不需要手动刷新。
用直白的话说,就是在你的电脑本地开一个监控窗口,让你像看直播一样,即时看到 AI Agent 在做什么。
Workshop 最关键的设计,是把 Claude Code 等设计助手引入排错循环。由于 Workshop 暴露了 MCP Server,Claude Code 可以直接读取 trace 内容,根据这些 trace 撰写 eval 测试,把测试执行起来,观察失败的断言,回头修改 Agent 的程序码,再重新执行——直到所有测试通过。
Raindrop 称这个循环为「自我修复 eval 循环」。整个过程在本地闭环,Claude Code 读 trace、写 eval、看失败、改程序、重跑,不需要开发者手动介入每一个步骤。
Workshop 还支持 Replay 功能:把线上环境的 trace 拉回本地,对着真实代码重新执行,做回归测试。这对「生产环境出错但本地重现不了」的情况特别有用,直接拿真实 trace 跑,省去构造复现场景的时间。