Datacurve这波DeepSWE开源挺实在,五语言覆盖、668行平均解答深度,Mini-SWE-Agent框架也甩出来了,以后评大模型代码能力有尺子量了。

币 界 网
Datacurve开源智能体基准DeepSWE,参考代码量达SWE-Bench五倍
Datacurve宣布开源DeepSWE编程智能体基准,评估大模型的自主编程能力。基准含113个任务,覆盖TypeScript、Go、Python、JavaScript、Rust五语,平均需要668行参考解答。提示指令平均2158字符,强调极简指令下的深度推理。测试使用开源框架Mini-SWE-Agent,确保客观性。GPT-5.5解法率70%,GPT-5.4和Claude-opus-4.7为56%、54%。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论
  • 置顶