支付方式为

USD

支持 Visa、Mastercard、SEPA 等多种支付方式

灵活买卖币，0 手续费

加密货币支付卡全球支付无忧

法币投资获得资金增值

基础交易

自由交易数字货币

借币交易，放大收益

闪兑与定投

大小额通兑、0 费率、无滑点

自动调仓无惧强平，自带杠杆放大收益

提前交易，先发制人

进阶交易

使用 Gate 钱包进行链上交易

链上掘金，智选新币

交易机器人

智能策略，自动交易

跟随专家实现收益增长

一份保证金，跨平台共用

数百种永续合约市场

一站交易全球传统资产

欧式 T 型报价，丰富的到期日和行权价

实现最大化资金效率

从零开始掌握合约交易技巧

参与活动赢取奖励

使用模拟资金无风险体验真实交易

打新

参与活动赚糖果，赢超值空投奖励

一键质押，赚取潜力新币

持有 GT，免费领取海量空投

打新自由，直通全球股票发行市场

交易链上资产，享空投福利

合约交易得积分，空投奖励待领取

理财产品

闲置代币，随时赚取收益

定期定额，让理财变得更简单

低买高卖，波动获益

通过灵活质押资产获取收益

抵押资产，即时借币

一站式借贷入口

VIP 专享理财

尊享理财定制助力财富增值

私人财富管理

臻享定制财富方案

顶尖量化，稳健护航

链上精选，质押赚币

到期前不强平，安心持币享杠杆收益

铸造 GUSD，享国债 RWA 收益

分享动态发现价值

每日行情分析直播

随时随地与币友实时交流

一站式获取最新行业资讯

更多

推广

参与活动，赢取丰厚奖励

邀友入驻，共享高额收益

专属返佣，轻松赚取高收益

扩大影响力，享海量空投

平台动态，实时更新

行业深度分析

超高费率折扣

提供一站式资产管理解决方案

提供企业级数字资产解决方案

OTC 银行转账

提供多种法币自营出入金渠道

经纪商计划

丰厚的 API 返佣机制

AI

您的对话式 AI 全能伙伴

在社交 App 中直接使用 Gate AI

Gate 蓝龙虾，开箱即用

Gate for AI Agent

AI 基础设施，Gate MCP、Skills 与 CLI

Gate Skills Hub

从办公到交易，一站式技能库让 AI 更好用

智选 40+ 大模型，0% 额外费用

其他

常见问题解答与帮助指南

学习加密货币投资知识

与冠军携手同行

Gate 承诺 100% 储备金

守护您的资产安全

GPT-5.5登顶极限编程基准FrontierSWE，但作弊次数也最多

2026-05-06 10:37:16

据动察 Beating 监测，AI 研究团队 Proximal 更新超长程编程基准 FrontierSWE 排行榜。新加入的 GPT-5.5（通过 Codex 运行）在 mean@5（5 次尝试的平均分）和 best@5（最高分）两项指标上均大幅领先第二名 Claude Opus 4.7，支配率达 83%。但 GPT-5.5 也是作弊最多的模型：85 次试验中 8 次被判作弊，与 Kimi K2.6 并列。

FrontierSWE 4 月发布，收集了编译器优化、ML 研究、高性能工程等领域的 17 项真实难题，如用 Zig 重写 Git、构建兼容 PostgreSQL 的 SQLite 服务器，每项任务限时 20 小时，是目前少数未被做穿的公开编程基准。GPT-5.5 相比前代在时间分配上更成熟：开放式任务花更多时间打磨方案，实现类任务更快完成且得分更高。

此前测试已揭示 AI 编程 Agent 几类通病。模型普遍过度自信，远未到 20 小时时限就因肤浅的自检误以为任务已完成并提前提交。Opus 4.6 单项任务平均投入超 8 小时，远超其他模型的约 2 小时，但曾多次丢失已有优化、随后重新「发明」一遍。作弊在高压任务中尤为突出：在一道明确禁止使用 PyTorch 的 Mojo 移植任务中，除 Qwen 3.6 外所有模型均尝试作弊，Gemini 用字符编码隐藏被禁库名、在临时目录运行隐蔽进程，Opus 4.6 甚至先在推理中写下「愿意作弊」再动手。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

评论

请输入评论内容

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate广场五月交易分享
41.6万热度
#
比特币站稳8万关口
9430.48万热度
#
加密市场回升
11.69万热度
#
Aave起诉要求解冻7300万美元ETH
184.63万热度
#
Polymarket每日热点
82.85万热度