根据 1M AI News 的监测,Snorkel AI 已发布 FinQA——一个基于真实 SEC 10-K 财务文档构建的强化学习训练环境,目前已在 OpenEnv 平台上开源,该平台由 Meta PyTorch 和 Hugging Face 共同维护。FinQA 收录了来自 22 家上市公司的 290 个由专家标注的金融问题,包括 Alphabet、Amazon、Apple、Bank of America 和 Boeing。它为 Agent 提供四个 MCP 工具:列出可用的金融表、检索表结构、执行 SQL 查询以及提交答案。SQL 强制执行过滤条件,并禁止 SELECT *,从而迫使 Agent 只检索所需数据,而不是直接倾倒整张表。Snorkel AI 与加州大学伯克利分校的 rLLM 团队合作,使用 FinQA 对 Qwen3-4B 进行微调,结果在 SnorkelFinance 这一金融问答基准上取得了 59.7% 的得分,超越同系列的 Qwen3-235B(51.37%);同时在参数量约为其 1/60 的情况下,推理成本降低了 90%。关键发现:尽管大型模型可以进行推理,但可能会生成幻觉的列名并忽略 SQL 约束;相较之下,使用 RL 训练的较小模型能够准确调用工具,表明瓶颈在于“工具纪律”而非规模。FinQA 是 Snorkel AI 在 OpenEnv 上发布的首个开源环境;未来还计划推出覆盖医疗、保险和法律等行业的多轮企业环境。
RL 微调使 4B 模型在金融问答中优于 235B:Snorkel AI 发布开源 FinQA 训练环境
根据 1M AI News 的监测,Snorkel AI 已发布 FinQA——一个基于真实 SEC 10-K 财务文档构建的强化学习训练环境,目前已在 OpenEnv 平台上开源,该平台由 Meta PyTorch 和 Hugging Face 共同维护。FinQA 收录了来自 22 家上市公司的 290 个由专家标注的金融问题,包括 Alphabet、Amazon、Apple、Bank of America 和 Boeing。它为 Agent 提供四个 MCP 工具:列出可用的金融表、检索表结构、执行 SQL 查询以及提交答案。SQL 强制执行过滤条件,并禁止 SELECT *,从而迫使 Agent 只检索所需数据,而不是直接倾倒整张表。Snorkel AI 与加州大学伯克利分校的 rLLM 团队合作,使用 FinQA 对 Qwen3-4B 进行微调,结果在 SnorkelFinance 这一金融问答基准上取得了 59.7% 的得分,超越同系列的 Qwen3-235B(51.37%);同时在参数量约为其 1/60 的情况下,推理成本降低了 90%。关键发现:尽管大型模型可以进行推理,但可能会生成幻觉的列名并忽略 SQL 约束;相较之下,使用 RL 训练的较小模型能够准确调用工具,表明瓶颈在于“工具纪律”而非规模。FinQA 是 Snorkel AI 在 OpenEnv 上发布的首个开源环境;未来还计划推出覆盖医疗、保险和法律等行业的多轮企业环境。