TERMS-Bench移除了黑箱裁判，直接评估模型在出价、让步与违规上的真实能力。常规测试中，Claude Opus 4.6与GLM 5.1靠高出价取胜，但在最高难度因频繁谈崩而亏钱；Gemma 4 31B与Gemini 3.1 Pro反超，Claude与GLM下滑。Bankroll模式将连续交易转化为现金流与破产风险，是关键。GLM 5.1、Claude Opus 4.6与Google双雄存活率高，现金达380–443美元；Grok 4.20与GPT-4o-mini则易破产。

MarsBit News

2026-05-18 06:45:30

摘要生成中

据动察 Beating 监测，斯坦福 Erica Zhang 等人发布了经济谈判测试集 TERMS-Bench。它移除了黑箱的「大模型裁判」，让评测方能直接看清模型到底输在出价、让步还是违规。在常规测试中，Claude Opus 4.6 和智谱 GLM 5.1 拿下前两名。论文发现，它们采用了「高出价、死不让步」的强硬策略，在利润丰厚的顺风局能把对手榨干。但在利润空间极窄的最高难度局，强硬策略会因为频繁谈崩而吃亏。榜单在这里直接翻车：懂得适度让步保订单的 Gemma 4 31B（开放权重模型）和 Gemini 3.1 Pro 反超冲到前两名；而此前的领跑者 Claude 掉到第 5，GLM 掉到第 9。除了测试极限难度，该基准最具冲击力的是测试生存能力的 Bankroll（资金池）模式。单次谈判被拉长成连续采购：每个 Agent 拿 100 美元本金连谈 50 期，每期固定扣运营费，亏完就破产。在这里，微小的谈判失误都会复利成破产危机。结果显示，前述的 GLM 5.1、Claude Opus 4.6 以及谷歌双雄虽然策略不同，但控盘能力断层领先，全部实现了 100% 存活，最终现金均达到了 380 到 443 美元。相比之下，Grok 4.20 和 GPT-4o-mini 则无法顶住现金流损耗，破产率分别达到 25% 和 50%。 TERMS-Bench 的关键不在成交率，而在把谈判错误换算成现金亏损和破产风险。模型能不能说服对手，只是第一层；在连续交易里能不能守住利润和现金流，才真正拉开差距。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
TradFi交易分享挑战
8.4万热度
#
加密市场下跌15万人爆仓
5017.21万热度
#
Polymarket每日热点
98.44万热度
#
ZEC/HYPE/FLR走强
383.05万热度
#
Gate4月透明度报告
10.74万热度

谷歌双雄高难局反超，TERMS-Bench把AI谈判做成破产压力测试

热门话题

TradFi交易分享挑战

加密市场下跌15万人爆仓

Polymarket每日热点

ZEC/HYPE/FLR走强

Gate4月透明度报告

置顶