DeepSeek-V4ついに登場。4月24日、新シリーズモデルDeepSeek-V4のプレビュー版が正式リリースされ、同時にオープンソース化された。DeepSeek-V4は全く新しい注意力メカニズムを開発し、トークン次元で圧縮を行い、DSA疎な注意力(DeepSeek Sparse Attention)と組み合わせることで、世界をリードする長いコンテキスト能力を実現し、従来の方法と比べて計算とメモリの要求を大幅に削減した。侮るなかれ、DeepSeek-V4は計算とメモリの要求を大きく低減している。**妙投は、これがNVIDIAのGPUの優位性を直接弱めると考えている。**注目すべきは、DeepSeek-V4は国内チップメーカーへの最適化も優先している点だ。言い換えれば、NVIDIAの護城河を過大評価せず、またDeepSeekが巻き起こすこのアーキテクチャ革命を過小評価しないことだ。重要なのは「誰が誰に取って代わるか」ではなく、AI産業チェーンの利益配分、展開ルート、投資ロジックが変わりつつある可能性だ。“鎖”をつけて踊る--------過去2年間、AI大規模モデルは主に訓練に焦点を当て、計算能力を競い合ってきた。**ある程度、AI基盤大規模モデルの競争は、GPU計算インフラの競争そのものだと言える。**より多くの高性能GPUを購入できる者、より大きなクラスターを構築できる者が、より強力な基盤モデルを作り出すチャンスを得る。しかし、米国の輸出規制により、英偉達のH100/H200などの最先端チップの中国向け販売は禁止されている。さらに、TSMCの先端製造プロセスも米国の制約を受けており、国内GPUメーカーと英偉達のGPUには依然として差がある。「国内GPUメーカーは皆、‘鎖’をつけて英偉達と競争している」と、あるGPU企業関係者は妙投に語った。**面白いことに、こうした逆風の中で、米中の大規模モデルの差は徐々に縮まり、ほぼ並びつつある。**2023年末、米中のトップモデルの性能差は20%〜30%の範囲内で推移していた。4月14日、スタンフォード大学HAI研究所は2026年度の《AI指数レポート》を発表し、長さ423ページの業界権威ある報告書は、米中の大規模モデルの性能差が2.7%に縮小し、技術的にほぼ追いついたことを示した。**妙投は、もし米中のAI大規模モデルの性能差を結果とみなすなら、NVIDIAのGPUは決定的な要因ではないと考える。**一因は、国内チップの台頭と中国の電力インフラの整備にある。黄仁勋は最近のインタビューで、「AIは本質的に並列計算の問題だ。中国はより多くのチップを積み重ねることで、単一チップの製造プロセスの差を埋めることができる。中国には多くのエネルギー資源があり、意欲があれば、より多くのチップを組み合わせることも可能だ。たとえ製造プロセスが数ナノメートル遅れていても」と述べた。実際、多くの国内GPUメーカーは万台クラスターを実現しており、単一GPUの計算能力不足を補っている。例えば:摩尔の「夸娥」万台クラスター、沐曦の「曦源一号」SADA万台クラスターなどだ。もう一方では、DeepSeekを代表とする大規模モデル企業の台頭もある。DeepSeekはソフトウェア面で先見的な設計を行い、国内ハードウェアに積極的に適応・支援し、国内チップの道を切り開いている。例えば:DeepSeek-V3はFP8の大規模モデル訓練での有用性を検証し、追加コストを増やすことなくモデル訓練規模を拡大し、訓練品質も維持した。例えるなら、かつては複雑なAI計算タスクを完了するために、巨大で精密、かつ高価なドイツ製工作機械(英偉達の高精度GPUを象徴)数台が必要だった。しかし今や、DeepSeekはタスクの加工工程(データフォーマットの変更)を変えることで、数十台の小型・シンプル・安価な国内工作機械(国内GPUの計算ユニット)からなるラインで効率的に完了できる。それでも、英偉達GPUは海外の大規模モデルの訓練において依然優位だ。しかし、産業の進化を見ると、大規模モデルの訓練は第一段階に過ぎない。モデル完成後、商用化の速度と産業浸透の深さを決めるのは推論だ。特に、OpenclawやHermesを代表とするエージェントの爆発的普及後だ。英偉達は訓練では勝ったが、推論は始まったばかり---------------訓練と推論は異なるモードだ。Clawタイプのエージェントの爆発は、長いコンテキスト記憶能力が核心的な引き金だ。以前のAIは会話だけで、すぐに忘れる、魚の記憶のようだった。しかしClawはすべてを記憶し、継続して働き、使えば使うほど理解が深まる。記憶が「おもちゃ」から「ツール」へと変わる。コンテキストが長くなるほど、エージェントの記憶が深くなるほど、ツール呼び出しが頻繁になるほど、GPUのメモリ(KVキャッシュ)が逼迫し、大規模モデルの推論品質が低下する。**したがって、推論爆発の最初のボトルネックは、計算能力不足ではなく、「記憶」と「計算」が同じメモリ空間を奪い合うことにある。****国内GPUにとって、ピークTFLOPSの計算能力は最大のボトルネックではなく、メモリ容量だ。英偉達GPUはメモリ技術で他社より1〜2世代先行している。**英偉達の主流データセンターGPU(A100、H100など)は、単体のメモリ容量が通常80GBだが、最新のRubin GPUは8つの36GB HBM4メモリチップ(合計288GB)を搭載し、メモリ帯域幅は13TB/sに向上している。一方、国内チップは先端製造プロセスの制約により、メモリ容量と帯域幅が低く、依然として突破口を必要としている。例えば:昇腾910Bのメモリ容量は64GBだ。**以前の梁文锋の論文によると、今回のDeepSeek-V4は独特のEngramアーキテクチャを採用しており、これはまさにメモリ容量のボトルネックを解決するものだ。**DeepSeek-V4のアプローチは、モデル内の「暗記」的な静的知識を抽出し、大きなメモリ表に格納することだ。推論時には、CPUが「辞書を検索」(知識の取り出し)を担当し、GPUは「論理を考える」(計算推論)だけを行う。この二つは完全に並列実行される。GPUが次の単語の論理計算をしている間に、CPUは次の単語に必要な知識を準備している。遅延はこの並列アーキテクチャによって完全に隠され、AIの単位時間あたりの出力効率は指数関数的に向上し、GPUのメモリはKVキャッシュに逼迫されなくなる。例えば:80GBのメモリが必要な長いコンテキスト推論タスクも、Engramアーキテクチャでは8GBで済む可能性がある。**これにより、国内GPUはメモリ制約下でも同じタスクをこなせるようになり、英偉達の誇るHBMメモリの希少性は崩壊しつつある。同時に、CPUも爆発的に進化するだろう。**さらに注目すべきは、DeepSeek-V4のリリースが間近に迫っており、今回は業界の慣例に従わず、英偉達の早期テスト権を与えず、Huaweiや寒武紀に先行適応の機会を全て残したことだ。目的はCUDAエコシステムからHuaweiのCANNフレームワークへの移行だ。英偉達のCUDAエコシステムは短期的に置き換えられないが、すでに亀裂が入り始めている。これにより、DeepSeekはオープンソースエコシステムや国内自主エコシステムにおいても、強力な地位を築き続ける。報道によると、クラウドサービスの展開に対応するため、阿里巴巴、字节跳动、Tencentなどの大手IT企業はHuaweiの新世代AIチップを数十万個事前注文している。予測されるのは、今回のDeepSeek-V4のリリースがAI投資に新たな期待をもたらすことだ。新たな投資期待------投資の観点から、妙投はDeepSeek-V4が二つの主要分野に直接好影響を与えると考えている:国内計算能力とAIアプリケーション。**1. 国内計算能力**もしDeepSeek-V4が完全に国内計算能力で訓練されたと確認されれば、これは国内チップ史上の「DeepSeekの瞬間」だ。H100がなくても、世界トップクラスの大規模モデルを動かせることを証明する。この変化は非常に大きく、Googleが自社開発のTPUチップでGeminiを訓練したのと同じくらいのインパクトだ。知っての通り、Googleはバフェットのバークシャーの主要保有銘柄になっている。これまで、市場の国内計算能力への期待は、「自主・可控」の大きなストーリーにとどまっていたが、V4は「使いやすくて必要不可欠」なビジネスロジックに推移させる。この恩恵を最も受けるのは、国内GPUメーカーだ。華為、寒武紀はすでに明言している。その他の国内GPUメーカーもDeepSeek大規模モデルへの適応を進めるだろう。確実性の観点からは、華為、寒武紀を代表とする国内チップ、国内サーバー、関連サプライヤーの恩恵が最も高い。2026年を見据えると、寒武紀、壁仞科技、天数智芯などの上場AI企業は、収益が前年比約120%増の約257億人民元に達するとWindは予測している。また、弾力性の観点からは、沐曦股份は2026年に黒字化し、寒武紀に続くもう一つの黒字GPUメーカーとなる見込みで、商業的な閉ループを実現する。**したがって、国内計算能力はAI投資の今後の重点となる。****2. AIアプリケーション**国内計算能力に適応した推論需要に加え、DeepSeek-V4は革新的なアーキテクチャ(mHCとEngram技術)を通じて、訓練と推論のコストをさらに削減し、中国のAIバリューチェーンのイノベーションサイクルを加速させる可能性がある。同時に、DeepSeekは世界の大規模言語モデルやAIアプリ企業の商用化を加速させ、資本支出の重圧を緩和することも期待される。Engramアーキテクチャの導入により、GPUのメモリ需要は90%削減され、推論のハードウェアコストも大きく圧縮される。これはエッジAI推論などの端末展開にとって大きな追い風だ。さらに、今年1月以降、A株のAI応用セクターは低迷しており、その核心は「大規模モデルがソフトウェアを飲み込む」恐怖にある。AI応用はすでに「殺しのロジック」段階に入っている。しかし、DeepSeekV4のリリースはこのムードを改善する可能性がある。国内A株の応用企業にとって、大規模モデルはむしろ安価なインフラの一種となり、コスト最適化に寄与する。妙投は、コアデータと密接に結びついたAI応用企業やクラウドサービス企業も、限界的な改善を迎える可能性が高いと考えている。小結--英偉達は依然として、大規模モデル訓練の最強インフラだという点に疑いはない。短期的には、高級訓練GPU、CUDAエコシステム、クラスター能力における優位性は、依然として代替が難しい。しかし、英偉達の優位性は徐々にDeepSeekの「曲線的救済」方式によって崩されつつある。DeepSeek-V4は、国内チップへの最適化と革新を先行させることで、AI推論は最も高価なGPUに頼る必要はなく、システムレベルの最適化、ソフト・ハードの協調、ローカル展開によって新たな道を切り開きつつあることを証明しつつある。そして、国内計算能力も一歩前進できる。英偉達を過大評価せず、DeepSeekと国内計算能力も過小評価しないことだ。
英伟达を過大評価しないでください DeepSeekを過小評価しないでください
DeepSeek-V4ついに登場。
4月24日、新シリーズモデルDeepSeek-V4のプレビュー版が正式リリースされ、同時にオープンソース化された。
DeepSeek-V4は全く新しい注意力メカニズムを開発し、トークン次元で圧縮を行い、DSA疎な注意力(DeepSeek Sparse Attention)と組み合わせることで、世界をリードする長いコンテキスト能力を実現し、従来の方法と比べて計算とメモリの要求を大幅に削減した。
侮るなかれ、DeepSeek-V4は計算とメモリの要求を大きく低減している。
**妙投は、これがNVIDIAのGPUの優位性を直接弱めると考えている。**注目すべきは、DeepSeek-V4は国内チップメーカーへの最適化も優先している点だ。
言い換えれば、NVIDIAの護城河を過大評価せず、またDeepSeekが巻き起こすこのアーキテクチャ革命を過小評価しないことだ。重要なのは「誰が誰に取って代わるか」ではなく、AI産業チェーンの利益配分、展開ルート、投資ロジックが変わりつつある可能性だ。
“鎖”をつけて踊る
過去2年間、AI大規模モデルは主に訓練に焦点を当て、計算能力を競い合ってきた。
**ある程度、AI基盤大規模モデルの競争は、GPU計算インフラの競争そのものだと言える。**より多くの高性能GPUを購入できる者、より大きなクラスターを構築できる者が、より強力な基盤モデルを作り出すチャンスを得る。
しかし、米国の輸出規制により、英偉達のH100/H200などの最先端チップの中国向け販売は禁止されている。さらに、TSMCの先端製造プロセスも米国の制約を受けており、国内GPUメーカーと英偉達のGPUには依然として差がある。
「国内GPUメーカーは皆、‘鎖’をつけて英偉達と競争している」と、あるGPU企業関係者は妙投に語った。
面白いことに、こうした逆風の中で、米中の大規模モデルの差は徐々に縮まり、ほぼ並びつつある。
2023年末、米中のトップモデルの性能差は20%〜30%の範囲内で推移していた。4月14日、スタンフォード大学HAI研究所は2026年度の《AI指数レポート》を発表し、長さ423ページの業界権威ある報告書は、米中の大規模モデルの性能差が2.7%に縮小し、技術的にほぼ追いついたことを示した。
妙投は、もし米中のAI大規模モデルの性能差を結果とみなすなら、NVIDIAのGPUは決定的な要因ではないと考える。
一因は、国内チップの台頭と中国の電力インフラの整備にある。
黄仁勋は最近のインタビューで、「AIは本質的に並列計算の問題だ。中国はより多くのチップを積み重ねることで、単一チップの製造プロセスの差を埋めることができる。中国には多くのエネルギー資源があり、意欲があれば、より多くのチップを組み合わせることも可能だ。たとえ製造プロセスが数ナノメートル遅れていても」と述べた。
実際、多くの国内GPUメーカーは万台クラスターを実現しており、単一GPUの計算能力不足を補っている。例えば:摩尔の「夸娥」万台クラスター、沐曦の「曦源一号」SADA万台クラスターなどだ。
もう一方では、DeepSeekを代表とする大規模モデル企業の台頭もある。
DeepSeekはソフトウェア面で先見的な設計を行い、国内ハードウェアに積極的に適応・支援し、国内チップの道を切り開いている。
例えば:DeepSeek-V3はFP8の大規模モデル訓練での有用性を検証し、追加コストを増やすことなくモデル訓練規模を拡大し、訓練品質も維持した。
例えるなら、かつては複雑なAI計算タスクを完了するために、巨大で精密、かつ高価なドイツ製工作機械(英偉達の高精度GPUを象徴)数台が必要だった。しかし今や、DeepSeekはタスクの加工工程(データフォーマットの変更)を変えることで、数十台の小型・シンプル・安価な国内工作機械(国内GPUの計算ユニット)からなるラインで効率的に完了できる。
それでも、英偉達GPUは海外の大規模モデルの訓練において依然優位だ。
しかし、産業の進化を見ると、大規模モデルの訓練は第一段階に過ぎない。モデル完成後、商用化の速度と産業浸透の深さを決めるのは推論だ。特に、OpenclawやHermesを代表とするエージェントの爆発的普及後だ。
英偉達は訓練では勝ったが、推論は始まったばかり
訓練と推論は異なるモードだ。
Clawタイプのエージェントの爆発は、長いコンテキスト記憶能力が核心的な引き金だ。
以前のAIは会話だけで、すぐに忘れる、魚の記憶のようだった。しかしClawはすべてを記憶し、継続して働き、使えば使うほど理解が深まる。記憶が「おもちゃ」から「ツール」へと変わる。
コンテキストが長くなるほど、エージェントの記憶が深くなるほど、ツール呼び出しが頻繁になるほど、GPUのメモリ(KVキャッシュ)が逼迫し、大規模モデルの推論品質が低下する。
したがって、推論爆発の最初のボトルネックは、計算能力不足ではなく、「記憶」と「計算」が同じメモリ空間を奪い合うことにある。
国内GPUにとって、ピークTFLOPSの計算能力は最大のボトルネックではなく、メモリ容量だ。英偉達GPUはメモリ技術で他社より1〜2世代先行している。
英偉達の主流データセンターGPU(A100、H100など)は、単体のメモリ容量が通常80GBだが、最新のRubin GPUは8つの36GB HBM4メモリチップ(合計288GB)を搭載し、メモリ帯域幅は13TB/sに向上している。
一方、国内チップは先端製造プロセスの制約により、メモリ容量と帯域幅が低く、依然として突破口を必要としている。例えば:昇腾910Bのメモリ容量は64GBだ。
以前の梁文锋の論文によると、今回のDeepSeek-V4は独特のEngramアーキテクチャを採用しており、これはまさにメモリ容量のボトルネックを解決するものだ。
DeepSeek-V4のアプローチは、モデル内の「暗記」的な静的知識を抽出し、大きなメモリ表に格納することだ。推論時には、CPUが「辞書を検索」(知識の取り出し)を担当し、GPUは「論理を考える」(計算推論)だけを行う。
この二つは完全に並列実行される。GPUが次の単語の論理計算をしている間に、CPUは次の単語に必要な知識を準備している。遅延はこの並列アーキテクチャによって完全に隠され、AIの単位時間あたりの出力効率は指数関数的に向上し、GPUのメモリはKVキャッシュに逼迫されなくなる。
例えば:80GBのメモリが必要な長いコンテキスト推論タスクも、Engramアーキテクチャでは8GBで済む可能性がある。
これにより、国内GPUはメモリ制約下でも同じタスクをこなせるようになり、英偉達の誇るHBMメモリの希少性は崩壊しつつある。同時に、CPUも爆発的に進化するだろう。
さらに注目すべきは、DeepSeek-V4のリリースが間近に迫っており、今回は業界の慣例に従わず、英偉達の早期テスト権を与えず、Huaweiや寒武紀に先行適応の機会を全て残したことだ。目的はCUDAエコシステムからHuaweiのCANNフレームワークへの移行だ。
英偉達のCUDAエコシステムは短期的に置き換えられないが、すでに亀裂が入り始めている。これにより、DeepSeekはオープンソースエコシステムや国内自主エコシステムにおいても、強力な地位を築き続ける。
報道によると、クラウドサービスの展開に対応するため、阿里巴巴、字节跳动、Tencentなどの大手IT企業はHuaweiの新世代AIチップを数十万個事前注文している。
予測されるのは、今回のDeepSeek-V4のリリースがAI投資に新たな期待をもたらすことだ。
新たな投資期待
投資の観点から、妙投はDeepSeek-V4が二つの主要分野に直接好影響を与えると考えている:国内計算能力とAIアプリケーション。
1. 国内計算能力
もしDeepSeek-V4が完全に国内計算能力で訓練されたと確認されれば、これは国内チップ史上の「DeepSeekの瞬間」だ。H100がなくても、世界トップクラスの大規模モデルを動かせることを証明する。
この変化は非常に大きく、Googleが自社開発のTPUチップでGeminiを訓練したのと同じくらいのインパクトだ。知っての通り、Googleはバフェットのバークシャーの主要保有銘柄になっている。
これまで、市場の国内計算能力への期待は、「自主・可控」の大きなストーリーにとどまっていたが、V4は「使いやすくて必要不可欠」なビジネスロジックに推移させる。
この恩恵を最も受けるのは、国内GPUメーカーだ。華為、寒武紀はすでに明言している。その他の国内GPUメーカーもDeepSeek大規模モデルへの適応を進めるだろう。確実性の観点からは、華為、寒武紀を代表とする国内チップ、国内サーバー、関連サプライヤーの恩恵が最も高い。
2026年を見据えると、寒武紀、壁仞科技、天数智芯などの上場AI企業は、収益が前年比約120%増の約257億人民元に達するとWindは予測している。
また、弾力性の観点からは、沐曦股份は2026年に黒字化し、寒武紀に続くもう一つの黒字GPUメーカーとなる見込みで、商業的な閉ループを実現する。
したがって、国内計算能力はAI投資の今後の重点となる。
2. AIアプリケーション
国内計算能力に適応した推論需要に加え、DeepSeek-V4は革新的なアーキテクチャ(mHCとEngram技術)を通じて、訓練と推論のコストをさらに削減し、中国のAIバリューチェーンのイノベーションサイクルを加速させる可能性がある。
同時に、DeepSeekは世界の大規模言語モデルやAIアプリ企業の商用化を加速させ、資本支出の重圧を緩和することも期待される。
Engramアーキテクチャの導入により、GPUのメモリ需要は90%削減され、推論のハードウェアコストも大きく圧縮される。これはエッジAI推論などの端末展開にとって大きな追い風だ。
さらに、今年1月以降、A株のAI応用セクターは低迷しており、その核心は「大規模モデルがソフトウェアを飲み込む」恐怖にある。AI応用はすでに「殺しのロジック」段階に入っている。
しかし、DeepSeekV4のリリースはこのムードを改善する可能性がある。国内A株の応用企業にとって、大規模モデルはむしろ安価なインフラの一種となり、コスト最適化に寄与する。
妙投は、コアデータと密接に結びついたAI応用企業やクラウドサービス企業も、限界的な改善を迎える可能性が高いと考えている。
小結
英偉達は依然として、大規模モデル訓練の最強インフラだという点に疑いはない。短期的には、高級訓練GPU、CUDAエコシステム、クラスター能力における優位性は、依然として代替が難しい。
しかし、英偉達の優位性は徐々にDeepSeekの「曲線的救済」方式によって崩されつつある。
DeepSeek-V4は、国内チップへの最適化と革新を先行させることで、AI推論は最も高価なGPUに頼る必要はなく、システムレベルの最適化、ソフト・ハードの協調、ローカル展開によって新たな道を切り開きつつあることを証明しつつある。そして、国内計算能力も一歩前進できる。
英偉達を過大評価せず、DeepSeekと国内計算能力も過小評価しないことだ。