広場
最新
注目
ニュース
プロフィール
ポスト
V4-Pro Codeforces3206がGPT-5.4を抑えてトップに立ったが、長いコンテキストと知識は依然としてOpusとGeminiに劣る。
MeNews
2026-07-02 06:40:26
フォロー
ME News ニュース、4月24日(UTC+8)、動察 Beating のモニタリングによると、V4 テクニカルレポートは DeepSeek-V4-Pro-Max(最高推論強度モード)とクローズドソースフラッグシップモデルとの比較を公開しました。
比較対象は Opus 4.6 Max、GPT-5.4 xHigh、Gemini 3.1 Pro High、およびオープンソースの Kimi K2.6 と GLM-5.1 で、最近リリースされた Opus 4.7 と GPT-5.5 は含まれていません。
コーディング面では、V4-Pro-Max は Codeforces で 3206 点を獲得し、GPT-5.4 の 3168 点、Gemini 3.1 Pro の 3052 点を上回り、このベンチマーク記録を更新しました。
LiveCodeBench 93.5 も全体で最高得点でした。
SWE Verified 80.6 で、Opus 4.6 の 80.8 に 0.2 ポイント及ばなかっただけです。
長文コンテキストに関しては、2つの1MベンチマークでV4-Pro-Maxはともに2位でした:CorpusQA 1Mで62.0点、Opus 4.6の71.7には及ばないもののGemini 3.1 Proの53.8をリード;MRCR 1Mで83.5点、Opus 4.6が92.9で約10ポイントリードしています。
エージェントタスクに関しては、MCPAtlas Public 73.6 で Opus 4.6 の 73.8 にわずかに及ばず。Terminal-Bench 2.0 では 67.9 点で、GPT-5.4 の 75.1 および Gemini 3.1 Pro の 68.5 を下回りました。
知識と推論の面では V4-Pro-Max は依然として明確な差があります:GPQA Diamond 90.1(Gemini 94.3)、SimpleQA-Verified 57.9(Gemini 75.6)、HLE 37.7(Gemini 44.4)。オープンソースモデルとして、V4-Pro-Max は複数のコーディングおよび長文コンテキストベンチマークで初めてクローズドソースフラッグシップに追いつき、あるいは超えましたが、知識集約型の評価では依然として Gemini 3.1 Pro に遅れを取っています。
注意すべきは、上記の比較には最近リリースされた GPT-5.5 と Opus 4.7 が含まれておらず、V4 と最新世代のクローズドソースモデルとの差は第三者評価による検証が必要であることです。
(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
コメントを追加
コメントを追加
コメント
コメントなし
人気の話題
もっと見る
#
GateCompletesDividendDistribution
534.41K 人気度
#
CirclePlunges17%
4.16M 人気度
#
IsraelStrikesIranBTCPlunges
67.51K 人気度
#
PredictWorldCupShare20000U
163.49K 人気度
#
GateCardPointsSystemLaunched
120.19K 人気度
ピン留め
サイトマップ
V4-Pro Codeforces3206がGPT-5.4を抑えてトップに立ったが、長いコンテキストと知識は依然としてOpusとGeminiに劣る。
比較対象は Opus 4.6 Max、GPT-5.4 xHigh、Gemini 3.1 Pro High、およびオープンソースの Kimi K2.6 と GLM-5.1 で、最近リリースされた Opus 4.7 と GPT-5.5 は含まれていません。
コーディング面では、V4-Pro-Max は Codeforces で 3206 点を獲得し、GPT-5.4 の 3168 点、Gemini 3.1 Pro の 3052 点を上回り、このベンチマーク記録を更新しました。
LiveCodeBench 93.5 も全体で最高得点でした。
SWE Verified 80.6 で、Opus 4.6 の 80.8 に 0.2 ポイント及ばなかっただけです。
長文コンテキストに関しては、2つの1MベンチマークでV4-Pro-Maxはともに2位でした:CorpusQA 1Mで62.0点、Opus 4.6の71.7には及ばないもののGemini 3.1 Proの53.8をリード;MRCR 1Mで83.5点、Opus 4.6が92.9で約10ポイントリードしています。
エージェントタスクに関しては、MCPAtlas Public 73.6 で Opus 4.6 の 73.8 にわずかに及ばず。Terminal-Bench 2.0 では 67.9 点で、GPT-5.4 の 75.1 および Gemini 3.1 Pro の 68.5 を下回りました。
知識と推論の面では V4-Pro-Max は依然として明確な差があります:GPQA Diamond 90.1(Gemini 94.3)、SimpleQA-Verified 57.9(Gemini 75.6)、HLE 37.7(Gemini 44.4)。オープンソースモデルとして、V4-Pro-Max は複数のコーディングおよび長文コンテキストベンチマークで初めてクローズドソースフラッグシップに追いつき、あるいは超えましたが、知識集約型の評価では依然として Gemini 3.1 Pro に遅れを取っています。
注意すべきは、上記の比較には最近リリースされた GPT-5.5 と Opus 4.7 が含まれておらず、V4 と最新世代のクローズドソースモデルとの差は第三者評価による検証が必要であることです。
(出典:BlockBeats)