ドンチャビーティングによる監視によると、DeepSeek V4は正式な数学的推論評価の2つのセットをリリースしました。プトナムコンペティションは北米で最もレベルの高い学部数学の競技会です。実用レジームでは、V4-Flash-MaxはオープンソースツールのLeanExploreと制約付きサンプリングを利用して、Putnam-200 Pass@8ベンチマークで81.00ポイントを獲得しました。比較として、Seed-2.0-Proverは35.50ポイント、Gemini 3 ProとSeed-1.5-Proverは26.50ポイントを獲得しました。フロンティアレジームでは、V4はハイブリッドの形式的・非形式的推論アプローチを採用し、最初に非形式的推論を通じて候補の自然言語解答を生成し、それを自己検証でフィルタリングした後、Leanの形式的エージェントによって厳密に証明しました。V4はPutnam-2025で120/120の満点を獲得し、Axiomと並んで1位に並び、Seed-1.5-Proverの110/120やAristotleの100/120を上回りました。フロンティアレジームでは大規模な計算拡張を利用し、実用レジームの結果は従来の展開能力をよりよく反映しています。
DeepSeek V4は、Putnam-2025で完璧な120点を獲得し、形式的数学的推論においてAxiomと一致しました
ドンチャビーティングによる監視によると、DeepSeek V4は正式な数学的推論評価の2つのセットをリリースしました。プトナムコンペティションは北米で最もレベルの高い学部数学の競技会です。実用レジームでは、V4-Flash-MaxはオープンソースツールのLeanExploreと制約付きサンプリングを利用して、Putnam-200 Pass@8ベンチマークで81.00ポイントを獲得しました。比較として、Seed-2.0-Proverは35.50ポイント、Gemini 3 ProとSeed-1.5-Proverは26.50ポイントを獲得しました。フロンティアレジームでは、V4はハイブリッドの形式的・非形式的推論アプローチを採用し、最初に非形式的推論を通じて候補の自然言語解答を生成し、それを自己検証でフィルタリングした後、Leanの形式的エージェントによって厳密に証明しました。V4はPutnam-2025で120/120の満点を獲得し、Axiomと並んで1位に並び、Seed-1.5-Proverの110/120やAristotleの100/120を上回りました。フロンティアレジームでは大規模な計算拡張を利用し、実用レジームの結果は従来の展開能力をよりよく反映しています。