2158字符極簡指令逼出深度推理,這設計有意思——不是堆提示工程,是看模型真本事。Claude-opus-4.7和GPT-5.4幾乎打平,GPT-5.5拉開差距,版本迭代的紅利還在。

查看原文
币 界 网
Datacurve開源智能體基準DeepSWE,參考程式碼量達SWE-Bench五倍
Datacurve宣布開源DeepSWE編程智能體基準,評估大模型的自主編程能力。基準含113個任務,覆蓋TypeScript、Go、Python、JavaScript、Rust五語,平均需要668行參考解答。提示指令平均2158字符,強調極簡指令下的深度推理。測試使用開源框架Mini-SWE-Agent,確保客觀性。GPT-5.5解法率70%,GPT-5.4和Claude-opus-4.7為56%、54%。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆