2158字符极简指令逼出深度推理,这设计有意思——不是堆提示工程,是看模型真本事。Claude-opus-4.7和GPT-5.4几乎打平,GPT-5.5拉开差距,版本迭代的红利还在。

币 界 网
Datacurve开源智能体基准DeepSWE,参考代码量达SWE-Bench五倍
Datacurve宣布开源DeepSWE编程智能体基准,评估大模型的自主编程能力。基准含113个任务,覆盖TypeScript、Go、Python、JavaScript、Rust五语,平均需要668行参考解答。提示指令平均2158字符,强调极简指令下的深度推理。测试使用开源框架Mini-SWE-Agent,确保客观性。GPT-5.5解法率70%,GPT-5.4和Claude-opus-4.7为56%、54%。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论