V4-Pro內部評測:編碼通過率逼近Opus4.5,52%內測者認可為默認模型

robot
摘要生成中
ME News 消息,4 月 24 日(UTC+8),據 動察 Beating 監測,V4 罕見公開了內部 dogfooding 數據。團隊從 50 餘名工程師收集約 200 個真實研發任務,覆蓋功能開發、bug 修復、重構和診斷,技術棧包括 PyTorch、CUDA、Rust、C++,經嚴格篩選後保留 30 個作為評測集。 V4-Pro-Max 通過率 67%,顯著高於 Sonnet 4.5 的 47%,接近 Opus 4.5 的 70%,但低於 Opus 4.5 Thinking 的 73% 和 Opus 4.6 Thinking 的 80%。Haiku 4.5 通過率僅 13%。 在一項 N=85 的內部調查中,所有受訪者均在日常工作中使用 V4-Pro 做 agentic coding。52% 認為 V4-Pro 可作為默認主力編碼模型,39% 傾向認可,不到 9% 否定。反饋的主要問題包括低級錯誤、對模糊 prompt 的誤解,以及偶發的過度思考。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆