RL 微调使 4B 模型在金融问答中优于 235B：Snorkel AI 发布开源 FinQA 训练环境

空投黑洞 · 2026-03-31T11:21:48+00:00

Snorkel AI 已推出 FinQA，这是一个使用真实 SEC 文件来回答金融问题的开源强化学习环境。它通过 SQL 约束提升模型性能，同时表明经过适当工具使用的小型模型优于大型模型。未来计划包括更多多轮环境。

空投黑洞

2026-03-31 11:21:48

摘要生成中

根据 1M AI News 的监测，Snorkel AI 已发布 FinQA——一个基于真实 SEC 10-K 财务文档构建的强化学习训练环境，目前已在 OpenEnv 平台上开源，该平台由 Meta PyTorch 和 Hugging Face 共同维护。FinQA 收录了来自 22 家上市公司的 290 个由专家标注的金融问题，包括 Alphabet、Amazon、Apple、Bank of America 和 Boeing。它为 Agent 提供四个 MCP 工具：列出可用的金融表、检索表结构、执行 SQL 查询以及提交答案。SQL 强制执行过滤条件，并禁止 SELECT *，从而迫使 Agent 只检索所需数据，而不是直接倾倒整张表。Snorkel AI 与加州大学伯克利分校的 rLLM 团队合作，使用 FinQA 对 Qwen3-4B 进行微调，结果在 SnorkelFinance 这一金融问答基准上取得了 59.7% 的得分，超越同系列的 Qwen3-235B（51.37%）；同时在参数量约为其 1/60 的情况下，推理成本降低了 90%。关键发现：尽管大型模型可以进行推理，但可能会生成幻觉的列名并忽略 SQL 约束；相较之下，使用 RL 训练的较小模型能够准确调用工具，表明瓶颈在于“工具纪律”而非规模。FinQA 是 Snorkel AI 在 OpenEnv 上发布的首个开源环境；未来还计划推出覆盖医疗、保险和法律等行业的多轮企业环境。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

2人点赞了这条动态

赞赏
2
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
四月行情预测
30.49万热度
#
加密市场普遍上涨
4.77万热度
#
金银同步走强
33.05万热度
#
ClaudeCode50万行源代码泄漏
80.27万热度
#
特朗普释放停战信号
5.07万热度

热门 Gate Fun
查看更多

1
漫威粉丝币
漫威粉丝币
市值:$2286.2持有人数:1
0.00%
2
8T
8 Trend
市值:$2430.64持有人数:2
1.03%
3
mb
macbook
市值:$2279.83持有人数:2
0.00%
4
TBKB
特不靠谱
市值:$2333.18持有人数:2
0.00%
5
ch
chill
市值:$2244.82持有人数:1
0.00%

RL 微调使 4B 模型在金融问答中优于 235B：Snorkel AI 发布开源 FinQA 训练环境

热门话题

四月行情预测

加密市场普遍上涨

金银同步走强

ClaudeCode50万行源代码泄漏

特朗普释放停战信号

热门 Gate Fun

漫威粉丝币

漫威粉丝币

8T

8 Trend

mb

macbook

TBKB

特不靠谱

ch

chill

置顶