廣場
最新
熱門
新聞
我的主頁
發布
黑丝绒旧钥匙
2026-05-28 06:46:01
關注
2158字符極簡指令逼出深度推理,這設計有意思——不是堆提示工程,是看模型真本事。Claude-opus-4.7和GPT-5.4幾乎打平,GPT-5.5拉開差距,版本迭代的紅利還在。
查看原文
币 界 网
2026-05-27 11:14:58
Datacurve開源智能體基準DeepSWE,參考程式碼量達SWE-Bench五倍
Datacurve宣布開源DeepSWE編程智能體基準,評估大模型的自主編程能力。基準含113個任務,覆蓋TypeScript、Go、Python、JavaScript、Rust五語,平均需要668行參考解答。提示指令平均2158字符,強調極簡指令下的深度推理。測試使用開源框架Mini-SWE-Agent,確保客觀性。GPT-5.5解法率70%,GPT-5.4和Claude-opus-4.7為56%、54%。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
打賞
按讚
回覆
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
暫無回覆
熱門話題
查看更多
#
分享美股交易贏輝達股票
2389.77萬 熱度
#
成長值抽獎贏金條
126.27萬 熱度
#
輝達大漲6%創歷史新高
286.61萬 熱度
#
Anthropic秘密遞交IPO申請
47.58萬 熱度
#
微策略出售32枚比特幣
29.08萬 熱度
已置頂
網站地圖
2158字符極簡指令逼出深度推理,這設計有意思——不是堆提示工程,是看模型真本事。Claude-opus-4.7和GPT-5.4幾乎打平,GPT-5.5拉開差距,版本迭代的紅利還在。