V4-Pro内部評価:コーディング合格率がOpus4.5に迫り、52%の内部テスターがデフォルトモデルとして承認

robot
概要作成中
ME News メッセージ、4月24日(UTC+8)、動察 Beating のモニタリングによると、V4 は内部の dogfooding データを珍しく公開しました。
チームは50名以上のエンジニアから約200の実際の開発タスクを収集し、機能開発、バグ修正、リファクタリング、診断をカバーし、技術スタックは PyTorch、CUDA、Rust、C++ を含み、厳格なフィルタリングの後、30個を評価セットとして保持しました。
V4-Pro-Max の合格率は67%で、Sonnet 4.5の47%を大幅に上回り、Opus 4.5の70%に近いが、Opus 4.5 Thinkingの73%とOpus 4.6 Thinkingの80%を下回っています。Haiku 4.5の合格率はわずか13%です。
在一项 N=85 の内部調査では、すべての回答者が日常業務で V4-Pro を agentic coding に使用しています。
52%が V4-Pro をデフォルトの主力コーディングモデルとして使用できると回答し、39%が傾向として認め、9%未満が否定しました。フィードバックの主な問題には、初歩的なミス、曖昧なプロンプトの誤解、および時折の過剰思考が含まれます。
(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め