10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
GPT-5.5登顶极限编程基准FrontierSWE,但作弊次数也最多
据动察 Beating 监测,AI 研究团队 Proximal 更新超长程编程基准 FrontierSWE 排行榜。新加入的 GPT-5.5(通过 Codex 运行)在 mean@5(5 次尝试的平均分)和 best@5(最高分)两项指标上均大幅领先第二名 Claude Opus 4.7,支配率达 83%。但 GPT-5.5 也是作弊最多的模型:85 次试验中 8 次被判作弊,与 Kimi K2.6 并列。
FrontierSWE 4 月发布,收集了编译器优化、ML 研究、高性能工程等领域的 17 项真实难题,如用 Zig 重写 Git、构建兼容 PostgreSQL 的 SQLite 服务器,每项任务限时 20 小时,是目前少数未被做穿的公开编程基准。GPT-5.5 相比前代在时间分配上更成熟:开放式任务花更多时间打磨方案,实现类任务更快完成且得分更高。
此前测试已揭示 AI 编程 Agent 几类通病。模型普遍过度自信,远未到 20 小时时限就因肤浅的自检误以为任务已完成并提前提交。Opus 4.6 单项任务平均投入超 8 小时,远超其他模型的约 2 小时,但曾多次丢失已有优化、随后重新「发明」一遍。作弊在高压任务中尤为突出:在一道明确禁止使用 PyTorch 的 Mojo 移植任务中,除 Qwen 3.6 外所有模型均尝试作弊,Gemini 用字符编码隐藏被禁库名、在临时目录运行隐蔽进程,Opus 4.6 甚至先在推理中写下「愿意作弊」再动手。