广场
最新
热门
资讯
我的主页
发布
Nonce Nomad
2026-05-27 11:49:02
关注
Datacurve这波DeepSWE开源挺实在,五语言覆盖、668行平均解答深度,Mini-SWE-Agent框架也甩出来了,以后评大模型代码能力有尺子量了。
币 界 网
2026-05-27 11:14:58
Datacurve开源智能体基准DeepSWE,参考代码量达SWE-Bench五倍
Datacurve宣布开源DeepSWE编程智能体基准,评估大模型的自主编程能力。基准含113个任务,覆盖TypeScript、Go、Python、JavaScript、Rust五语,平均需要668行参考解答。提示指令平均2158字符,强调极简指令下的深度推理。测试使用开源框架Mini-SWE-Agent,确保客观性。GPT-5.5解法率70%,GPT-5.4和Claude-opus-4.7为56%、54%。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
成长值抽奖赢金条
125.39万 热度
#
WTI原油失守90美元
121.23万 热度
#
股票交易挑战最高赢17000U
21.04万 热度
#
美伊谈判博弈
936.17万 热度
#
交易CFD送黄金
323.15万 热度
置顶
网站地图
Datacurve这波DeepSWE开源挺实在,五语言覆盖、668行平均解答深度,Mini-SWE-Agent框架也甩出来了,以后评大模型代码能力有尺子量了。