動察 Beating 監測によると、V4 技術レポートが公開され、DeepSeek-V4-Pro-Max(最高推論力モード)とクローズドソースのフラッグシップモデルの比較が行われた。比較対象は Opus 4.6 Max、GPT-5.4 xHigh、Gemini 3.1 Pro High、そしてオープンソースの Kimi K2.6 と GLM-5.1 であり、最近リリースされた Opus 4.7 と GPT-5.5 は含まれていない。 エンコード面では、V4-Pro-Max は Codeforces で 3206 点を獲得し、GPT-5.4 の 3168 や Gemini 3.1 Pro の 3052 を上回り、この基準記録を更新した。LiveCodeBench では 93.5 も全体最高点である。SWE Verified は 80.6 であり、Opus 4.6 の 80.8 にわずか 0.2 ポイント差で次点となった。 長いコンテキストの面では、2つの 1M 基準で V4-Pro-Max はともに2位にランク付けされた。CorpusQA 1M の得点は 62.0 で、Opus 4.6 の 71.7 には及ばないが、Gemini 3.1 Pro の 53.8 よりは上回っている。MRCR 1M の得点は 83.5 で、Opus 4.6 の 92.9 に近く、約 10 ポイント差である。 エージェントタスクの面では、MCPAtlas Public は 73.6 で、Opus 4.6 の 73.8 にわずかに及ばない。Terminal-Bench 2.0 のスコアは 67.9 で、GPT-5.4 の 75.1 や Gemini 3.1 Pro の 68.5 より低い。 知識と推論の面では、V4-Pro-Max は依然として明らかな差がある。GPQA Diamond は 90.1(Gemini 94.3)、SimpleQA-Verified は 57.9(Gemini 75.6)、HLE は 37.7(Gemini 44.4)である。オープンソースモデルとして、V4-Pro-Max は多くのエンコードと長いコンテキストの基準で初めてクローズドソースのフラッグシップに追いつき、あるいは超えることもあるが、知識集約型の評価では Gemini 3.1 Pro に遅れをとっている。 注意すべきは、上記の比較には最近リリースされた GPT-5.5 と Opus 4.7 は含まれておらず、V4 と最新世代のクローズドソースモデルとの差は第三者による評価で検証される必要がある。
V4-Pro Codeforces3206圧倒GPT-5.4登頂,但長上下文和知識仍輸Opus與Gemini
動察 Beating 監測によると、V4 技術レポートが公開され、DeepSeek-V4-Pro-Max(最高推論力モード)とクローズドソースのフラッグシップモデルの比較が行われた。比較対象は Opus 4.6 Max、GPT-5.4 xHigh、Gemini 3.1 Pro High、そしてオープンソースの Kimi K2.6 と GLM-5.1 であり、最近リリースされた Opus 4.7 と GPT-5.5 は含まれていない。
エンコード面では、V4-Pro-Max は Codeforces で 3206 点を獲得し、GPT-5.4 の 3168 や Gemini 3.1 Pro の 3052 を上回り、この基準記録を更新した。LiveCodeBench では 93.5 も全体最高点である。SWE Verified は 80.6 であり、Opus 4.6 の 80.8 にわずか 0.2 ポイント差で次点となった。
長いコンテキストの面では、2つの 1M 基準で V4-Pro-Max はともに2位にランク付けされた。CorpusQA 1M の得点は 62.0 で、Opus 4.6 の 71.7 には及ばないが、Gemini 3.1 Pro の 53.8 よりは上回っている。MRCR 1M の得点は 83.5 で、Opus 4.6 の 92.9 に近く、約 10 ポイント差である。
エージェントタスクの面では、MCPAtlas Public は 73.6 で、Opus 4.6 の 73.8 にわずかに及ばない。Terminal-Bench 2.0 のスコアは 67.9 で、GPT-5.4 の 75.1 や Gemini 3.1 Pro の 68.5 より低い。
知識と推論の面では、V4-Pro-Max は依然として明らかな差がある。GPQA Diamond は 90.1(Gemini 94.3)、SimpleQA-Verified は 57.9(Gemini 75.6)、HLE は 37.7(Gemini 44.4)である。オープンソースモデルとして、V4-Pro-Max は多くのエンコードと長いコンテキストの基準で初めてクローズドソースのフラッグシップに追いつき、あるいは超えることもあるが、知識集約型の評価では Gemini 3.1 Pro に遅れをとっている。
注意すべきは、上記の比較には最近リリースされた GPT-5.5 と Opus 4.7 は含まれておらず、V4 と最新世代のクローズドソースモデルとの差は第三者による評価で検証される必要がある。