ME News ニュース、4月24日（UTC+8）、動察 Beating のモニタリングによると、V4 テクニカルレポートは DeepSeek-V4-Pro-Max（最高推論強度モード）とクローズドソースフラッグシップモデルとの比較を公開しました。
比較対象は Opus 4.6 Max、GPT-5.4 xHigh、Gemini 3.1 Pro High、およびオープンソースの Kimi K2.6 と GLM-5.1 で、最近リリースされた Opus 4.7 と GPT-5.5 は含まれていません。
コーディング面では、V4-Pro-Max は Codeforces で 3206 点を獲得し、GPT-5.4 の 3168 点、Gemini 3.1 Pro の 3052 点を上回り、このベンチマーク記録を更新しました。
LiveCodeBench 93.5 も全体で最高得点でした。
SWE Verified 80.6 で、Opus 4.6 の 80.8 に 0.2 ポイント及ばなかっただけです。
長文コンテキストに関しては、2つの1MベンチマークでV4-Pro-Maxはともに2位でした：CorpusQA 1Mで62.0点、Opus 4.6の71.7には及ばないもののGemini 3.1 Proの53.8をリード；MRCR 1Mで83.5点、Opus 4.6が92.9で約10ポイントリードしています。
エージェントタスクに関しては、MCPAtlas Public 73.6 で Opus 4.6 の 73.8 にわずかに及ばず。Terminal-Bench 2.0 では 67.9 点で、GPT-5.4 の 75.1 および Gemini 3.1 Pro の 68.5 を下回りました。
知識と推論の面では V4-Pro-Max は依然として明確な差があります：GPQA Diamond 90.1（Gemini 94.3）、SimpleQA-Verified 57.9（Gemini 75.6）、HLE 37.7（Gemini 44.4）。オープンソースモデルとして、V4-Pro-Max は複数のコーディングおよび長文コンテキストベンチマークで初めてクローズドソースフラッグシップに追いつき、あるいは超えましたが、知識集約型の評価では依然として Gemini 3.1 Pro に遅れを取っています。
注意すべきは、上記の比較には最近リリースされた GPT-5.5 と Opus 4.7 が含まれておらず、V4 と最新世代のクローズドソースモデルとの差は第三者評価による検証が必要であることです。
（出典：BlockBeats）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

コメントを追加

コメントなし

人気の話題
もっと見る
#
GateCompletesDividendDistribution
534.41K 人気度
#
CirclePlunges17%
4.16M 人気度
#
IsraelStrikesIranBTCPlunges
67.51K 人気度
#
PredictWorldCupShare20000U
163.49K 人気度
#
GateCardPointsSystemLaunched
120.19K 人気度

ピン留め

サイトマップ

V4-Pro Codeforces3206がGPT-5.4を抑えてトップに立ったが、長いコンテキストと知識は依然としてOpusとGeminiに劣る。

人気の話題

GateCompletesDividendDistribution

CirclePlunges17%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

GateCardPointsSystemLaunched

ピン留め