支付方式为

USD

支持 Visa、Mastercard、SEPA 等多种支付方式

灵活买卖币，0 手续费

加密货币支付卡，全球支付无忧

法币投资获得资金增值

基础交易

自由交易数字货币

借币交易，放大收益

闪兑与定投

大小额通兑、0 费率、无滑点

自动调仓无惧强平，自带杠杆放大收益

提前交易，先发制人

进阶交易

使用 Gate 钱包进行链上交易

链上掘金，智选新币

交易机器人

智能策略，自动交易

跟随专家实现收益增长

一份保证金，跨平台共用

数百种永续合约市场

一站交易全球传统资产

欧式 T 型报价，丰富的到期日和行权价

实现最大化资金效率

从零开始掌握合约交易技巧

参与活动赢取奖励

使用模拟资金，无风险体验真实交易

美股差价合约衍生品

直通美股真实股票，投资热门股票与 ETF

参与真实港股市场，交易优质港股资产

交易真实韩股股票，投资热门标的

高杠杆，7×24h 连续交易

锚定真实股票资产发行

打新自由，直通全球股票发行市场

铸造 GUSD，享国债 RWA 可靠收益

买卖热门股票，解锁丰厚空投

打新

参与活动赚糖果，赢超值空投奖励

一键质押，赚取潜力新币

持有 GT，免费领取海量空投

打新自由，直通全球股票发行市场

交易链上资产，享空投福利

合约交易得积分，空投奖励待领取

理财产品

闲置代币，随时赚取收益

定期定额，让理财变得更简单

低买高卖，波动获益

通过灵活质押资产获取收益

抵押资产，即时借币

一站式借贷入口

VIP 专享理财

尊享理财定制，助力财富增值

掌控未来财富主动权

顶尖量化，稳健护航

链上精选，质押赚币

到期前不强平，安心持币享杠杆收益

无需锁仓，随时交易提现

分享动态，发现价值

每日行情分析直播

随时随地与币友实时交流

一站式获取最新行业资讯

更多

推广

参与活动，赢取丰厚奖励

邀友入驻，共享高额收益

专属返佣，轻松赚取高收益

扩大影响力，享海量空投

平台动态，实时更新

行业深度分析

超高费率折扣

提供一站式资产管理解决方案

提供企业级数字资产解决方案

开发者中心（API）

连接至 Gate 交易所的生态系统

OTC 银行转账

提供多种法币自营出入金渠道

经纪商计划

丰厚的 API 返佣机制

AI

您的对话式 AI 全能伙伴

在社交 App 中直接使用 Gate AI

Gate 蓝龙虾，开箱即用

Gate for AI Agent

AI 基础设施，Gate MCP、Skills 与 CLI

Gate Skills Hub

从办公到交易，一站式技能库让 AI 更好用

其他

常见问题解答与帮助指南

学习加密货币投资知识

与冠军携手同行

Gate 承诺 100% 储备金

守护您的资产安全

BinEval框架用是非题自动给AI打分，解决裁判模型虚报满分和不透明痛点

2026-06-29 09:40:55

摘要生成中

币界网消息，BinEval框架通过是非题自动给AI打分，旨在解决裁判模型虚报满分和不透明的问题。Capital One的研究团队提出该框架，将复杂评分标准拆解为「是或否」单选题，确保评估模型逐一回答，最后用答对题目的比例计算得分。在三个主流数据集的测试中，使用Claude Sonnet 4等大模型的BinEval打分质量匹配或超越了Unieval等主流评估工具，特别擅长识别表面通顺但事实错误的回答。以涉及飞机拦截的摘要评估为例，旧的AI裁判因只看表面，给了5.0的满分，而BinEval通过七道是非题识别出四处事实错误，给出了1.57分，接近人类的2.0分。实验表明，反馈优化能让格式与句子结构的遵守率提升17个百分点，但对于限制字数等数学计算的硬实力，优化工具仍无能为力。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

3人点赞了这条动态

赞赏
3
7
1
分享

评论

请输入评论内容

请输入评论内容

悬浮茶杯

· 43 分钟前

反馈优化对格式有效对字数无效，说明模型还是不懂「必须少于X字」这种硬边界，需要显式约束。

回复0

退潮贝壳账本

· 1小时前

BinEval的透明性是最大的护城河，黑盒打分时代该过去了。

回复0

L2 Night Courier

· 4小时前

17%格式提升不错，但字数约束搞不定——感觉还是硬性规则好做，软性理解难搞。

回复0

钱包权限管理员

· 5小时前

是非题设计确实聪明，把主观打分变成可审计的客观题，虚报空间直接压缩。

回复0

Depeg Daydream

· 5小时前

多数据集接近或超越Unieval，这迁移能力有点东西，不是过拟合的玩具。

回复0

ForkingDrama

· 5小时前

1.57 vs 5.0 这个落差太真实了，表面流畅的幻觉文本终于能被揪出来。

回复0

马赛克蝴蝶结

· 5小时前

七道题拆解评估，比笼统的1-5分刻度精细多了，人类标注2.0说明方向对。

回复0

热门话题
查看更多
#
TradFiCFD黄金大师赛
221.16万热度
#
Saylor暗示增持BTC
850.46万热度
#
预测世界杯巴西vs日本
52.88万热度
#
Solana生态ANSEM暴涨
2201.1万热度
#
USD1链上质押享年化7.66%
101.39万热度

置顶