📢 Gate 广场 TradFi 交易分享挑战上线!
晒单瓜分 $30,000 奖池,新人首帖 100% 中奖!
📌 参与方式:
带 #TradFi交易分享挑战 发帖,满足以下任一即可:
🔹 带今日指定 TradFi 币种标签发帖交流。
🔹 完成单笔大于 $10U 的 TradFi CFD 交易并挂载交易卡片。
🏷️ 今日指定标签:USDJPY、AUDUSD、US30、TSLA、JPN225
🎁 宠粉福利:
1️⃣ 卡片分享奖: 抽 50 人,每人送 $100 仓位体验券!
2️⃣ 发帖榜单奖: 冲排行榜,赢 WCTC 限定 T 恤!
3️⃣ 新粉见面礼: 新人首次发帖,100% 领 $10 体验券!
详情:https://www.gate.com/announcements/article/51221
谷歌双雄高难局反超,TERMS-Bench把AI谈判做成破产压力测试
据动察 Beating 监测,斯坦福 Erica Zhang 等人发布了经济谈判测试集 TERMS-Bench。它移除了黑箱的「大模型裁判」,让评测方能直接看清模型到底输在出价、让步还是违规。 在常规测试中,Claude Opus 4.6 和智谱 GLM 5.1 拿下前两名。论文发现,它们采用了「高出价、死不让步」的强硬策略,在利润丰厚的顺风局能把对手榨干。 但在利润空间极窄的最高难度局,强硬策略会因为频繁谈崩而吃亏。榜单在这里直接翻车:懂得适度让步保订单的 Gemma 4 31B(开放权重模型)和 Gemini 3.1 Pro 反超冲到前两名;而此前的领跑者 Claude 掉到第 5,GLM 掉到第 9。 除了测试极限难度,该基准最具冲击力的是测试生存能力的 Bankroll(资金池)模式。单次谈判被拉长成连续采购:每个 Agent 拿 100 美元本金连谈 50 期,每期固定扣运营费,亏完就破产。在这里,微小的谈判失误都会复利成破产危机。 结果显示,前述的 GLM 5.1、Claude Opus 4.6 以及谷歌双雄虽然策略不同,但控盘能力断层领先,全部实现了 100% 存活,最终现金均达到了 380 到 443 美元。相比之下,Grok 4.20 和 GPT-4o-mini 则无法顶住现金流损耗,破产率分别达到 25% 和 50%。 TERMS-Bench 的关键不在成交率,而在把谈判错误换算成现金亏损和破产风险。模型能不能说服对手,只是第一层;在连续交易里能不能守住利润和现金流,才真正拉开差距。