なし文|周鑫雨 王毓婵編集|杨轩DeepSeek V4の技術レポートの解読は、ここ数日のAI業界で最も熱狂的な集団活動の一つだ。V4は本当に強いのか?エンジニアリング最適化の観点からは、間違いなく答えはイエスだ。過去、皆は「スケーリング法則の暴力美学」—より多くの高品質計算資源や大規模パラメータでモデル性能を向上させることを信奉してきた。しかしV4は全く異なる道を歩み、「モデル訓練の自制美学」を定義している。それは、狂ったように計算資源やパラメータを積み重ねるのではなく、一連の組み合わせ最適化と再構築を通じて実現される:注意力メカニズム(モデルに「重点を掴む」ことを学習させる、長文を読むときに重要な文に自動的に注目するような仕組み)MoEアーキテクチャ(混合専門家モデル、異なるタイプの問題を担当する「専門家」を複数持ち、必要に応じて少数の専門家だけを活性化させることで時間と労力を節約)後訓練(モデルの基礎を作った後、特定分野に絞った補習や強化を行う)推論システムエンジニアリング(実運用時の各段階の効率を最適化)こうした取り組みの成果は、V4-Proが百万トークン(約数十万字)の長いコンテキストを処理する際に必要な計算資源を、前世代のV3.2の27%にまで圧縮したことだ。同時に、対話のコンテキストを一時的に保存するKVキャッシュ(モデルが会話中に「メモ」を取るための草稿紙のようなもの)は、元の10%に圧縮された。しかし、エンジニアリングはあくまでエンジニアリングであり、ランキングはランキングだ。モデルの評価においては、単なるパラメータの紙面上の数値だけにとどまらず、実運用・開発・投資の現場でV4の価値を議論したい。そこで、私たちは開発者、アプリ起業家、投資家計10名近くを招き、約3日間の体験とテストを行った。まず直感に反する結論:DeepSeekがアプリケーション層に与える影響は、モデル層よりも大きいかもしれない。極致のエンジニアリング最適化に感嘆しつつ、DeepSeek自身がV4技術レポートで認めているように、「発展の軌跡は最先端のクローズドソースモデルより約3〜6ヶ月遅れている」—今のV4の成果は、まるで悪魔と取引をしたかのようだ。推論やエージェント(AIの「知能体」)の能力を長所として伸ばす一方で、その代償として一部の正確性を犠牲にしている。クローズドモデルのメーカーは、今のところ一息ついて良いだろう。安定性や正確性を重視するビジネスの世界にとって、V4は直接的に実用化できるモデルではない。Pine AIの最高科学者・李博杰や、あるトップクラスのコーディングエージェント起業者・Chillinも、私たちに率直に語った。ツール呼び出しの安定性と幻覚率(誤情報生成の可能性)は、ハーネス(AIに「リード」や「シートベルト」をつけて行動を規範し、エラーリスクを低減させる仕組み)のレベルで補う必要があり、V4の実用化には「足場」が不可欠だ。しかし、知性の「脳」の進化方向は、しばしば下流のアプリケーションエコシステムに影響を与える。AIアプリ起業は、技術と資本の両面でより厳しい試練に直面するだろう。「基盤モデルの性能はまだ急速に進化している」—この業界の共通認識は、アプリケーションもいつモデルに覆されるかわからない砂粒のようなものだということだ。ある二重通貨ファンドの投資家は、多くの「昨日の花」例を挙げている:「Workflow、Coding……」AIアプリ企業「涌跃智能」の創業者兼CEO・陈炜鹏は、次のようにまとめる:未来のAIアプリの壁は、モデル、エージェント、製品シナリオ、データフィードバックを信頼できる、低コストでスケール可能な生産システムに組織化することだ。ハイライト:長文やプログラミングだけじゃない、高性能かつ低コスト前書き:コアの強み—コードとエージェント能力いくつかの重要なコード・ソフトウェアエンジニアリング評価において、V4-Proは現行のオープンソースモデルの最高水準を示し、トップクローズドモデルにほぼ匹敵している。主要なデータを整理すると:AI図像生成🧑🏫PingCAP共同創業者兼CTO・黄東旭私はHermesワークフローをDeepSeek V4に移行中だ。もともとClaude OpusやGPT5.4をエージェントに使っていたが、最近気づいたのは、日常業務の多くは特に高いコーディング能力を必要としないということだ。日常の事務作業は、主に:(a)メール整理;(b)文章作成;(c)カレンダー管理;(d)内容要約;(e)ウェブ閲覧。今や完全にDeepSeek V4に切り替えた。効果は想像以上で、おそらく中国語に最適化されており、全体的な言語能力はOpusやGPTよりも中国語ネイティブの使い勝手に合っている。第一の結論は:もし今、より高価なモデルを日常のアシスタントエージェントとして使っているなら、DeepSeek V4 Proに切り替えるのは比較的安心できる。その能力はClaude Sonnet 4.5〜4.6程度だが、価格はトップモデルの四分の一以下だ。今では、エージェントのコストにほとんど気を配らなくて良くなった。DeepSeek V4の論文では1Mのコンテキストを強調しているが、これはあまり強みではないと感じる。なぜなら、今の主流のSOTAモデルは少なくとも1Mのコンテキストを持っており、追いついたにすぎないからだ。本当に重要なのは:1. コストが非常に低いこと;2. オープンソースのモデルであること。これにより、AnthropicやOpenAIが供給停止しても、以前のワークフローが使えなくなる心配は少なくなる。実際、そういう事態は以前にも経験済みだ。DeepSeek V4に切り替えることで、安全性は高まる。次に、プログラミング能力について。テスト期間が短いため、複雑な大規模システムの開発にはまだ使っていない。しかし、数千行規模のコードや、小規模アプリ、外部サードパーティシステム呼び出しを伴うシナリオ(例:SupabaseやTiDB Cloudにアクセスし、ドキュメントを読んで未知のツールを接続)では、現時点で大きな問題はほとんど感じられない。数千〜1万行の範囲では、V4のワンショット(例と指示を一度に与え、追加調整しない)成功率はかなり高い。したがって、簡単なウェブサイトや小規模アプリを作るだけなら、DeepSeekのプログラミング能力は前世代より格段に向上していると感じる。私のHarnessフレームワークはあまり複雑な人為的調整を必要としないため、モデル自身の協調能力(例:Slock.aiを利用)に頼っている。要点は二つ:1. 他のモデルを使うエージェントと協調できること;2. 簡単・具体的なタスクをこなせること。したがって、もしGPT5.5のような強力なモデルが前提となり、それをDeepSeek V4 Proに指示して実行させるなら、ハーネスエンジニアリングのコストは大きく削減できると考える。🧑🏫零一万物技術・製品センター副総裁・赵斌強DeepSeek V4は「最も万能」ではないが、「最も信頼できる」—堅実なオープンソースの約束、完全な技術レポート、極低推論コスト、全技術スタックの国産化により、企業向け(ToB)シナリオにおいてコストパフォーマンス最優の基盤モデル選択肢となる。DeepSeek V4の最も驚かされた点は二つだ。第一に、モデルアーキテクチャの基底革新。100万トークンのコンテキストウィンドウでも高品質な推論能力を維持しているのは、ハイブリッド注意力メカニズムの革新によるものだ。これは、「粗読」では大局の意味を捉え、「精読」では詳細を理解する、というイメージだ。特に、コンテキスト圧縮の探索は非常に先進的であり、DeepSeekは技術レポートで詳細を惜しみなく公開している。この誠実さとオープンソース精神は、激しい競争の大規模モデル業界において非常に貴重だ。第二に、国産の計算資源全スタックへの適応。DeepSeekは華為の昇腾910B/950に対応し、量子化や疎化メカニズム、分野のエキスパート最適化などの作業を非常に丁寧に行っている。これにより、チップからソフトウェア、モデル訓練、推論まで、国産の全スタックソリューションが正しい方向に一歩踏み出した。英偉達エコシステムからの完全な脱却は難しいが、正しい方向性を見出している。これほどの難度と意義は、いくら強調してもしすぎることはない。🧑🏫李博杰・Pine AI最高科学者最も驚いたのは、DeepSeekがMoE、CSA+HCA混合注意力、mHC、Muon、FP4QATといった一連のアーキテクチャ革新を、現在最大のオープンソース規模である1.6兆パラメータ(1.6万億)で実現したことだ。これは、理論上非常に先進的だが、小規模実験では失敗しやすい技術群を、巨大エンジンに成功裏に組み込み、安定して動かしている例だ。私たち自身も20以上のアーキテクチャ革新を試したが、結論はほぼ「70億パラメータ規模では可能だが、規模が大きくなると崩壊や逆効果に陥る」というものだった。他社のモデルアーキテクチャ革新も、多くはこの壁に阻まれている。最大規模で複数の革新を協調させることができるのは、DeepSeekの底層訓練技術の蓄積が深い証拠だ。特に、「mHC」技術だけでも、27Bの実験で得られた信号を約3000倍に増幅したものを、約1.6倍に圧縮し、訓練の安定性と制御性を高めている。🧑🏫レノボグループ副総裁・レノボ・ベンチャーキャピタル最高投資責任者・シニアパートナー・宋春雨DeepSeekは、「AIのコストパフォーマンス」が戦略的な構造的優位になり得ることを証明した。27%、メモリ使用量はわずか10%。総パラメータは1.6兆だが、1回の推論で活性化するのは49Bパラメータだけで、効率は非常に高い。この構造的コスト削減に、V4-FlashのAPI(1百万トークンあたり1元の低価格戦略)を組み合わせることで、「一般人向け超長コンテキスト」がAIアプリの新たな基準となった。🧑🏫涌跃智能創業者兼CEO・陈炜鹏DeepSeek V4が最も私を興奮させるのは、単一の能力の向上だけではなく、国内大規模モデルが「追いかけるだけ」から「エージェント時代のシステム競争に参加」する段階に入ったことを示している点だ。これまでは、モデルが回答や推論、コーディングをできるかどうかが関心事だったが、今や重要なのは、モデルが複雑なタスクを安定して完遂できるか、低コスト・高効率で実運用システムに接続できるかだ。残念ながら、実用化にはまだ「足場」が不足している。前書き:相対的な劣勢—事実性知識と極端な推論の難しさDeepSeek公式や各評価プラットフォームは、V4-Proのいくつかの明らかな弱点を指摘している。より直感的に理解できるよう、主要な弱点を表にまとめた。AI図像生成🧑🏫Pine AI最高科学者・李博杰私が主に使うのはコード系とエージェントタスクだ。この種の仕事では、V4-Proのツール呼び出し能力と一般的な世界知識は、最先端モデルの次のレベル(大体Claude 4.6やSonnetレベル)に追いついている;しかし、ツール呼び出しの安定性と幻覚率は依然として大きな課題だ—この二つはエージェントハーネスのレベルで補う必要があり(例:検証を強化、失敗時の自動リトライ、外部知識ベースでモデルを「地に足をつけさせる」、ツール使用の規範を明確に定める)、さもないと長いタスクチェーンでは誤りが拡大し続ける。ハーネス層のこれら二つの欠点を補えば、全体の推論コストは最先端モデルの数分の一に抑えられる。これが真のレバレッジだ。もう一つは、V4-Flashの垂直微調整(特定分野に特化した微調整)だ。垂直微調整とは、汎用モデルに対して特定領域の専門データを追加し、その分野のエキスパートに仕立てることだ。1.6兆パラメータの超大規模モデルの後訓練(SFT/RL)はコストが高すぎて、多くの企業には負担できない。一般的には2000億〜3000億パラメータのモデルが後訓練の主流だ。私たちも千問235B(2350億パラメータ)で後訓練を試みたが、同じ規模のV4-Flashには劣る結果だった。Flashは、前世代の万億規模のオープンソースモデルを追い越し、600B超のDeepSeek V3.2や旧Kimiを超える性能を持つ。微調整の基盤として最適だ。🧑🏫Codingエージェント起業者・Chillin私たちの内部評価では、コーディングシナリオにおいて、DeepSeek V4はClaudeの1年以上前の水準にあると結論付けている。問題点は二つ、パラメータ規模とデータだ。DeepSeekとAnthropicには依然として大きな差がある。実用化には、特別な足場(SWE-AgentやOpenHandsなど)が必要だ。これらは開発者が追加設定を行う必要がある。🧑🏫涌跃智能創業者兼CEO・陈炜鹏実際の使用例(主にコーディングシナリオ)から見ると、DeepSeek V4は複雑な長期タスクの安定性と完遂率において、海外のトップクローズドモデルにはまだ及ばない。国内の主要モデル間の性能差は縮小しつつある。これは、エージェント時代において、モデルが長いコンテキストを理解し、複雑なフレームワークに適応し、長期タスクを安定して完了させる能力が、同じく重要になってきたことを示している。差を広げるのは、モデルそのものだけでなく、モデル・後訓練・エージェントフレームワーク・評価体系・エンジニアリングの総合システムだ。🧑🏫レノボグループ副総裁・レノボ・ベンチャーキャピタル最高投資責任者・シニアパートナー・宋春雨V4のリリースには、原生のマルチモーダル(文字・画像・音声などを同時処理できるモデル)は含まれていない。これは現市場環境ではやや残念だ。しかし、国内の国産計算資源戦略を全面的に支持する方針と合わせると、これは最もコアな計算資源基盤の課題に集中するための段階的な選択と考えられる。🧑🏫零一万物技術・製品センター副総裁・赵斌強「期待外れ」とは少し言い過ぎかもしれない。しかし、ToC(個人向け)視点から見ると、製品化の磨き込みはまだ十分ではない—Flash版は創作やプログラミングなど複雑なタスクにはやや力不足だし、Pro版もトップクラスのクローズドモデルに近い性能だが、初期の計算資源要件が高く、敷居がある。影響:AIは単純に安くなるわけではない🧑🏫涌跃智能創業者兼CEO・陈炜鹏一つの重要なトレンドは、AIは単純に安くなるわけではないということだ。世界の最先端モデルの呼び出しコストはむしろ上昇している。なぜなら、より高い複雑さ、長いコンテキスト、高付加価値のタスクを担っているからだ。実際に安くなるのは、中規模モデルやオープンソースモデル、自部署展開可能なモデルだ。したがって、今後のアプリ企業は、「最も強力なモデルはどれか」だけを問わず、「どのタスクに最適なモデルを使うか」「コストパフォーマンスの高いモデルをどう調整・選択するか」のシステムを構築する必要がある。DeepSeek V4の意義は、モデル供給層をさらに豊かにしたことにある。企業にとっては、単なる海外モデルの代替ではなく、多モデルの柔軟な編成や自部署展開、コスト最適化を可能にする。未来のAIアプリの壁は、単にモデルを呼び出すだけではなく、モデル・エージェント・製品シナリオ・データフィードバックを組織化した、信頼性が高く低コストでスケール可能な生産システムの構築にある。この流れは、Loopitにとっても非常に重要だ。私たちのAIインタラクティブコンテンツは、モデル能力が創作の上限を決め、コストと速度が規模化を左右する。異なるレベルのモデルが十分に使える状態になり、効果的に編成できるなら、一般ユーザーの多くのアイデアもリアルタイムで生成・交流・拡散できる。DeepSeek V4の進展は、その加速に寄与する。🧑🏫Pine AI最高科学者・李博杰垂直微調整市場では、千問やLlamaなどの200〜300B規模の基盤モデルがV4-Flashに置き換えられている。この規模の後訓練を行うチームは再評価を行い、同規模のモデルを超える性能を持ち、Day-0の推論フレームワーク(SGLang/vLLM/TileLang)に完全対応したものが、半年以内に国内のオープンソース垂直モデルの標準となる見込みだ。華為昇腾950 SuperNodeの推論エコシステムも本格始動し、英偉達のチップのプレミアム価格に挑戦している。これは、「国産チップ+国産トップオープンソースモデル」の最初の完全動作例だ(NVIDIAやAMDはV4の早期適応を得ていない)。下半期に950の大規模出荷が進めば、エージェントの長いコンテキストシナリオにおいて純国産推論の波が来る。この結果、英偉達の中国市場における評価とプレミアムは再評価される—販売量の崩壊ではなく、価格交渉力の低下だ。複雑な長期タスクをこなすエージェントの総合コストは大きく下がる。V4-Proの入力(キャッシュミス)1.74ドル/出力3.48ドル+1Mコンテキストの高効率KV+MegaMoEは、単一トークンあたりのコストを最先端モデルの1/6〜1/7に圧縮した。今後、エージェントハーネス層でV4のツール呼び出しの安定性と幻覚率を補完(検証器、外部接地、厳格なSchema、一致性投票)すれば、コストの壁に阻まれていた多段階研究や長期コードエージェント、深層探索型アプリケーションも、今年後半にはデモから実運用へと進むだろう。エージェントの経済性の転換点はこの波の中にある。また、クローズドの最先端メーカーは値下げしないだろう—彼らの製品は依然として圧倒的に優れており、V4は価格競争の圧力にはならない。🧑🏫零一万物技術・製品センター副総裁・赵斌強ToB向けAIアプリの核心は、「効果を保証しつつ、全ライフサイクルのコストを制御すること」だ。DeepSeek V4は、その競争力のある解決策を提供している。Flashはシンプルなタスクをカバーし、Proは高難度のシナリオをカバー。全体のコストは、主流のクローズドソース方案より大きく削減され、零一万物の提案のコストパフォーマンスを大きく向上させる。さらに、DeepSeekのオープンソースは堅実で揺るぎない—突然クローズド化して投資を水の泡にすることはない。この堅実なオープン姿勢は、企業の技術選定において貴重な確実性をもたらす。零一万物はすでにDeepSeek V4を基盤とした製品評価と能力検証を全面的に開始しており、運用調整やスマートオフィス、投資管理などの企業コアシナリオでの性能を評価中だ。基準を満たせば、既存モデルの置き換えも検討し、より多くの業界顧客に国産トップモデルを提供していく。V4のリリース後、私の予測は、業界に次の三つの変化をもたらすことだ。1. 国産の全技術スタック解決策が軌道に乗り、国産化が「夢」から「現実」へDeepSeekの華為昇腾対応は、国内AI産業の「チップ+フレームワーク+モデル+応用」全技術スタックの国産化に向けた実質的な一歩だ。これは、規制やコンプライアンスの要件を持つ政府・企業顧客にとっては必須だ。ToB市場の国産化は加速する。2. オープンソース大規模モデルがクローズドモデルの値下げを促し、AIアプリの収益源を多様化DeepSeekは、トップクラスのクローズドモデルより遥かに低価格で、ほぼ同等の性能を実現している。その示範効果は、オープンソースモデルの総合性能向上を促す。これにより、AnthropicやOpenAIなどのクローズドモデルの高価格戦略は圧力を受ける。業界の利益中心は、基盤モデルから深層業界応用へと移行し、AIの長期的発展にとってプラスだ。3. オープンソースモデル=企業の実運用ではない。Harness能力が新たな分水嶺オープンソースは基盤の敷居を下げるが、実運用の高さはHarness次第だ。高品質なオープンソースから安定した企業向け製品へと移行させるには、幻覚除去、指示遵守、誤り検証、専門性注入などのエンジニアリング能力が必要だ。業界ごとにニーズは異なる。共通のHarnessは存在しない。これこそが零一万物の核心的強みだ。自動評価・自動フィードバック・自動改善・専門性注入を通じて、各業界に最適なHarness体系を迅速に構築し、モデルをビジネスに本格導入させる。🧑🏫レノボグループ副総裁・レノボ・ベンチャーキャピタル最高投資責任者・シニアパートナー・宋春雨第一に、百万規模のコンテキストがアプリケーション層の「標準」になり、エージェントの爆発的普及を促す。V4は超長コンテキスト能力を普及させ、インフラとして浸透させる。第二に、業界の競争は「モデルの巻き合い」から「アプリとデータの巻き合い」へ。トップクラスのオープンソースモデルの性能がクローズドに迫り、コストも大きく下がった今、モデルそのものはもはや稀少な壁ではなくなる。今後の投資と競争の焦点は、「これらの基盤モデルをどう活用し、医療・金融・法律などの高付加価値分野でデータとアプリの閉ループを築き、ビジネスの護城河を作るか」に移る。第三に、国産計算資源産業チェーンに巨大な投資機会が到来。V4の成功は、国内の大規模モデルも「宝石の冠の一つ」を獲得できることを証明した。これにより、チップ設計、サーバー、クラウドサービスまで、産業全体の投資熱が高まる。私たちの見立てでは、「今年の国産計算資源は、去年の海外計算資源に匹敵する」となるだろう。その産業動向と資本市場の反映は、非常に強力だ。資源は、「早期商用化・産業適用・製品の差別化」が可能なプロジェクトに集中させ、底層のアーキテクチャと計算資源インフラには長期投資を続ける。🧑🏫二重通貨ファンド投資家私の今年の願いは、基盤モデルポートフォリオの上場だ。DeepSeekが資金調達を始めれば、第一市場(特に国資系)から大量資金を吸収するだろう。残る未上場の基盤モデル企業にとっては、継続的な資金調達は持続不可能だ。また、悲観的な見方もある。今年はアプリ層の資金調達は難しいだろう。基盤モデルの能力は急速に進化しており、多くのアプリはモデルに覆される運命にある。昨年のコーディングやワークフローの熱狂も、今年はほとんど話題にならなくなった。🧑🏫コーディングエージェント起業者・Chillinオープンソースは良いことだが、DeepSeek V4は交流と最適化を促進する一方で、その時間的遅れが気になる。V4はモデルメーカーに、規模とデータの問題に正面から向き合うことを促すが、これらは非常に難しい課題だ。資本の量の問題でもある。また、Scaling Lawの限界も示している。エンジニアリングによる性能向上には限界があり、より根本的な解を探す必要がある。道は長く遠い。ボーナス:DeepSeek V4の実用ガイド何に向いている?プログラミング・コード学習:初心者や個人スクリプト作成者にとって、DeepSeek V4は最も優れた選択肢の一つだ。コンテキスト理解や高品質なコード生成、デバッグに非常に優れる。中国語・中日韓(CJK)コンテンツ作成:文章執筆、校正、翻訳などで、V4は中国語、日本語、韓国語の環境下で非常に高い性能を発揮。超長文の読解と分析:V4は最大100万トークンのコンテキストウィンドウを標準搭載。書籍や長大なレポート、コードベースを一度に入力し、要約や重要情報抽出に役立てられる。向いていないこと?客観的事実の検索・検証:V4は「推論モデル」であり、「百科事典」ではない。歴史や特定の実体情報の記憶テストは弱く、幻覚も出やすい。特に、V4-Flashは事実質問の得点が34.1%にとどまる。検索エンジンとして使わず、事実の検証には検索機能付きの他のAIや自分で確認を。画像やドキュメントのレイアウト処理:DeepSeek V4は純粋なテキストモデルであり、画像入力・出力はサポートしない(No Vision)。図表や画像の解析には、GPT-5.4 Miniなどのマルチモーダルモデルを使う。英語だけの高度なクリエイティブ執筆:英語で書くことはできるが、出力が硬くなることも。自然で流暢、創造的な英語コンテンツを求めるなら、他の西洋主流モデルを推奨。その他の注意点:明示的な思考連鎖(CoT)を持つPro版を使う場合、難題には「多くのステップを考えさせる」や「Think Max」モードを有効にし、推論を深めると、より正確な答えが得られる。たまに冗長になることも許容し、短く答えてほしい場合は、「一言で答えて」や「できるだけ簡潔に」と指示を。
急がずにAll-in DeepSeek V4を始めてください、まずはこの10人の従事者の本音を見てみましょう
なし
文|周鑫雨 王毓婵
編集|杨轩
DeepSeek V4の技術レポートの解読は、ここ数日のAI業界で最も熱狂的な集団活動の一つだ。
V4は本当に強いのか?エンジニアリング最適化の観点からは、間違いなく答えはイエスだ。過去、皆は「スケーリング法則の暴力美学」—より多くの高品質計算資源や大規模パラメータでモデル性能を向上させることを信奉してきた。しかしV4は全く異なる道を歩み、「モデル訓練の自制美学」を定義している。
それは、狂ったように計算資源やパラメータを積み重ねるのではなく、一連の組み合わせ最適化と再構築を通じて実現される:
注意力メカニズム(モデルに「重点を掴む」ことを学習させる、長文を読むときに重要な文に自動的に注目するような仕組み)
MoEアーキテクチャ(混合専門家モデル、異なるタイプの問題を担当する「専門家」を複数持ち、必要に応じて少数の専門家だけを活性化させることで時間と労力を節約)
後訓練(モデルの基礎を作った後、特定分野に絞った補習や強化を行う)
推論システムエンジニアリング(実運用時の各段階の効率を最適化)
こうした取り組みの成果は、V4-Proが百万トークン(約数十万字)の長いコンテキストを処理する際に必要な計算資源を、前世代のV3.2の27%にまで圧縮したことだ。同時に、対話のコンテキストを一時的に保存するKVキャッシュ(モデルが会話中に「メモ」を取るための草稿紙のようなもの)は、元の10%に圧縮された。
しかし、エンジニアリングはあくまでエンジニアリングであり、ランキングはランキングだ。
モデルの評価においては、単なるパラメータの紙面上の数値だけにとどまらず、実運用・開発・投資の現場でV4の価値を議論したい。そこで、私たちは開発者、アプリ起業家、投資家計10名近くを招き、約3日間の体験とテストを行った。
まず直感に反する結論:DeepSeekがアプリケーション層に与える影響は、モデル層よりも大きいかもしれない。
極致のエンジニアリング最適化に感嘆しつつ、DeepSeek自身がV4技術レポートで認めているように、「発展の軌跡は最先端のクローズドソースモデルより約3〜6ヶ月遅れている」—今のV4の成果は、まるで悪魔と取引をしたかのようだ。推論やエージェント(AIの「知能体」)の能力を長所として伸ばす一方で、その代償として一部の正確性を犠牲にしている。
クローズドモデルのメーカーは、今のところ一息ついて良いだろう。安定性や正確性を重視するビジネスの世界にとって、V4は直接的に実用化できるモデルではない。
Pine AIの最高科学者・李博杰や、あるトップクラスのコーディングエージェント起業者・Chillinも、私たちに率直に語った。ツール呼び出しの安定性と幻覚率(誤情報生成の可能性)は、ハーネス(AIに「リード」や「シートベルト」をつけて行動を規範し、エラーリスクを低減させる仕組み)のレベルで補う必要があり、V4の実用化には「足場」が不可欠だ。
しかし、知性の「脳」の進化方向は、しばしば下流のアプリケーションエコシステムに影響を与える。AIアプリ起業は、技術と資本の両面でより厳しい試練に直面するだろう。
「基盤モデルの性能はまだ急速に進化している」—この業界の共通認識は、アプリケーションもいつモデルに覆されるかわからない砂粒のようなものだということだ。ある二重通貨ファンドの投資家は、多くの「昨日の花」例を挙げている:「Workflow、Coding……」
AIアプリ企業「涌跃智能」の創業者兼CEO・陈炜鹏は、次のようにまとめる:未来のAIアプリの壁は、モデル、エージェント、製品シナリオ、データフィードバックを信頼できる、低コストでスケール可能な生産システムに組織化することだ。
ハイライト:長文やプログラミングだけじゃない、高性能かつ低コスト
前書き:コアの強み—コードとエージェント能力
いくつかの重要なコード・ソフトウェアエンジニアリング評価において、V4-Proは現行のオープンソースモデルの最高水準を示し、トップクローズドモデルにほぼ匹敵している。主要なデータを整理すると:
AI図像生成
🧑🏫PingCAP共同創業者兼CTO・黄東旭
私はHermesワークフローをDeepSeek V4に移行中だ。もともとClaude OpusやGPT5.4をエージェントに使っていたが、最近気づいたのは、日常業務の多くは特に高いコーディング能力を必要としないということだ。
日常の事務作業は、主に:(a)メール整理;(b)文章作成;©カレンダー管理;(d)内容要約;(e)ウェブ閲覧。
今や完全にDeepSeek V4に切り替えた。効果は想像以上で、おそらく中国語に最適化されており、全体的な言語能力はOpusやGPTよりも中国語ネイティブの使い勝手に合っている。
第一の結論は:もし今、より高価なモデルを日常のアシスタントエージェントとして使っているなら、DeepSeek V4 Proに切り替えるのは比較的安心できる。
その能力はClaude Sonnet 4.5〜4.6程度だが、価格はトップモデルの四分の一以下だ。今では、エージェントのコストにほとんど気を配らなくて良くなった。
DeepSeek V4の論文では1Mのコンテキストを強調しているが、これはあまり強みではないと感じる。なぜなら、今の主流のSOTAモデルは少なくとも1Mのコンテキストを持っており、追いついたにすぎないからだ。
本当に重要なのは:
コストが非常に低いこと;
オープンソースのモデルであること。
これにより、AnthropicやOpenAIが供給停止しても、以前のワークフローが使えなくなる心配は少なくなる。実際、そういう事態は以前にも経験済みだ。DeepSeek V4に切り替えることで、安全性は高まる。
次に、プログラミング能力について。テスト期間が短いため、複雑な大規模システムの開発にはまだ使っていない。
しかし、数千行規模のコードや、小規模アプリ、外部サードパーティシステム呼び出しを伴うシナリオ(例:SupabaseやTiDB Cloudにアクセスし、ドキュメントを読んで未知のツールを接続)では、現時点で大きな問題はほとんど感じられない。
数千〜1万行の範囲では、V4のワンショット(例と指示を一度に与え、追加調整しない)成功率はかなり高い。
したがって、簡単なウェブサイトや小規模アプリを作るだけなら、DeepSeekのプログラミング能力は前世代より格段に向上していると感じる。
私のHarnessフレームワークはあまり複雑な人為的調整を必要としないため、モデル自身の協調能力(例:Slock.aiを利用)に頼っている。
要点は二つ:
他のモデルを使うエージェントと協調できること;
簡単・具体的なタスクをこなせること。
したがって、もしGPT5.5のような強力なモデルが前提となり、それをDeepSeek V4 Proに指示して実行させるなら、ハーネスエンジニアリングのコストは大きく削減できると考える。
🧑🏫零一万物技術・製品センター副総裁・赵斌強
DeepSeek V4は「最も万能」ではないが、「最も信頼できる」—堅実なオープンソースの約束、完全な技術レポート、極低推論コスト、全技術スタックの国産化により、企業向け(ToB)シナリオにおいてコストパフォーマンス最優の基盤モデル選択肢となる。
DeepSeek V4の最も驚かされた点は二つだ。
第一に、モデルアーキテクチャの基底革新。100万トークンのコンテキストウィンドウでも高品質な推論能力を維持しているのは、ハイブリッド注意力メカニズムの革新によるものだ。これは、「粗読」では大局の意味を捉え、「精読」では詳細を理解する、というイメージだ。
特に、コンテキスト圧縮の探索は非常に先進的であり、DeepSeekは技術レポートで詳細を惜しみなく公開している。この誠実さとオープンソース精神は、激しい競争の大規模モデル業界において非常に貴重だ。
第二に、国産の計算資源全スタックへの適応。DeepSeekは華為の昇腾910B/950に対応し、量子化や疎化メカニズム、分野のエキスパート最適化などの作業を非常に丁寧に行っている。
これにより、チップからソフトウェア、モデル訓練、推論まで、国産の全スタックソリューションが正しい方向に一歩踏み出した。英偉達エコシステムからの完全な脱却は難しいが、正しい方向性を見出している。これほどの難度と意義は、いくら強調してもしすぎることはない。
🧑🏫李博杰・Pine AI最高科学者
最も驚いたのは、DeepSeekがMoE、CSA+HCA混合注意力、mHC、Muon、FP4QATといった一連のアーキテクチャ革新を、現在最大のオープンソース規模である1.6兆パラメータ(1.6万億)で実現したことだ。
これは、理論上非常に先進的だが、小規模実験では失敗しやすい技術群を、巨大エンジンに成功裏に組み込み、安定して動かしている例だ。私たち自身も20以上のアーキテクチャ革新を試したが、結論はほぼ「70億パラメータ規模では可能だが、規模が大きくなると崩壊や逆効果に陥る」というものだった。
他社のモデルアーキテクチャ革新も、多くはこの壁に阻まれている。最大規模で複数の革新を協調させることができるのは、DeepSeekの底層訓練技術の蓄積が深い証拠だ。特に、「mHC」技術だけでも、27Bの実験で得られた信号を約3000倍に増幅したものを、約1.6倍に圧縮し、訓練の安定性と制御性を高めている。
🧑🏫レノボグループ副総裁・レノボ・ベンチャーキャピタル最高投資責任者・シニアパートナー・宋春雨
DeepSeekは、「AIのコストパフォーマンス」が戦略的な構造的優位になり得ることを証明した。
27%、メモリ使用量はわずか10%。総パラメータは1.6兆だが、1回の推論で活性化するのは49Bパラメータだけで、効率は非常に高い。
この構造的コスト削減に、V4-FlashのAPI(1百万トークンあたり1元の低価格戦略)を組み合わせることで、「一般人向け超長コンテキスト」がAIアプリの新たな基準となった。
🧑🏫涌跃智能創業者兼CEO・陈炜鹏
DeepSeek V4が最も私を興奮させるのは、単一の能力の向上だけではなく、国内大規模モデルが「追いかけるだけ」から「エージェント時代のシステム競争に参加」する段階に入ったことを示している点だ。
これまでは、モデルが回答や推論、コーディングをできるかどうかが関心事だったが、今や重要なのは、モデルが複雑なタスクを安定して完遂できるか、低コスト・高効率で実運用システムに接続できるかだ。
残念ながら、実用化にはまだ「足場」が不足している。
前書き:相対的な劣勢—事実性知識と極端な推論の難しさ
DeepSeek公式や各評価プラットフォームは、V4-Proのいくつかの明らかな弱点を指摘している。より直感的に理解できるよう、主要な弱点を表にまとめた。
AI図像生成
🧑🏫Pine AI最高科学者・李博杰
私が主に使うのはコード系とエージェントタスクだ。この種の仕事では、
V4-Proのツール呼び出し能力と一般的な世界知識は、最先端モデルの次のレベル(大体Claude 4.6やSonnetレベル)に追いついている;
しかし、ツール呼び出しの安定性と幻覚率は依然として大きな課題だ—この二つはエージェントハーネスのレベルで補う必要があり(例:検証を強化、失敗時の自動リトライ、外部知識ベースでモデルを「地に足をつけさせる」、ツール使用の規範を明確に定める)、さもないと長いタスクチェーンでは誤りが拡大し続ける。
ハーネス層のこれら二つの欠点を補えば、全体の推論コストは最先端モデルの数分の一に抑えられる。これが真のレバレッジだ。
もう一つは、V4-Flashの垂直微調整(特定分野に特化した微調整)だ。垂直微調整とは、汎用モデルに対して特定領域の専門データを追加し、その分野のエキスパートに仕立てることだ。
1.6兆パラメータの超大規模モデルの後訓練(SFT/RL)はコストが高すぎて、多くの企業には負担できない。一般的には2000億〜3000億パラメータのモデルが後訓練の主流だ。私たちも千問235B(2350億パラメータ)で後訓練を試みたが、同じ規模のV4-Flashには劣る結果だった。
Flashは、前世代の万億規模のオープンソースモデルを追い越し、600B超のDeepSeek V3.2や旧Kimiを超える性能を持つ。微調整の基盤として最適だ。
🧑🏫Codingエージェント起業者・Chillin
私たちの内部評価では、コーディングシナリオにおいて、DeepSeek V4はClaudeの1年以上前の水準にあると結論付けている。
問題点は二つ、パラメータ規模とデータだ。DeepSeekとAnthropicには依然として大きな差がある。
実用化には、特別な足場(SWE-AgentやOpenHandsなど)が必要だ。これらは開発者が追加設定を行う必要がある。
🧑🏫涌跃智能創業者兼CEO・陈炜鹏
実際の使用例(主にコーディングシナリオ)から見ると、DeepSeek V4は複雑な長期タスクの安定性と完遂率において、海外のトップクローズドモデルにはまだ及ばない。
国内の主要モデル間の性能差は縮小しつつある。これは、エージェント時代において、モデルが長いコンテキストを理解し、複雑なフレームワークに適応し、長期タスクを安定して完了させる能力が、同じく重要になってきたことを示している。
差を広げるのは、モデルそのものだけでなく、モデル・後訓練・エージェントフレームワーク・評価体系・エンジニアリングの総合システムだ。
🧑🏫レノボグループ副総裁・レノボ・ベンチャーキャピタル最高投資責任者・シニアパートナー・宋春雨
V4のリリースには、原生のマルチモーダル(文字・画像・音声などを同時処理できるモデル)は含まれていない。これは現市場環境ではやや残念だ。
しかし、国内の国産計算資源戦略を全面的に支持する方針と合わせると、これは最もコアな計算資源基盤の課題に集中するための段階的な選択と考えられる。
🧑🏫零一万物技術・製品センター副総裁・赵斌強
「期待外れ」とは少し言い過ぎかもしれない。
しかし、ToC(個人向け)視点から見ると、製品化の磨き込みはまだ十分ではない—Flash版は創作やプログラミングなど複雑なタスクにはやや力不足だし、Pro版もトップクラスのクローズドモデルに近い性能だが、初期の計算資源要件が高く、敷居がある。
影響:AIは単純に安くなるわけではない
🧑🏫涌跃智能創業者兼CEO・陈炜鹏
一つの重要なトレンドは、AIは単純に安くなるわけではないということだ。
世界の最先端モデルの呼び出しコストはむしろ上昇している。なぜなら、より高い複雑さ、長いコンテキスト、高付加価値のタスクを担っているからだ。実際に安くなるのは、中規模モデルやオープンソースモデル、自部署展開可能なモデルだ。
したがって、今後のアプリ企業は、「最も強力なモデルはどれか」だけを問わず、「どのタスクに最適なモデルを使うか」「コストパフォーマンスの高いモデルをどう調整・選択するか」のシステムを構築する必要がある。
DeepSeek V4の意義は、モデル供給層をさらに豊かにしたことにある。
企業にとっては、単なる海外モデルの代替ではなく、多モデルの柔軟な編成や自部署展開、コスト最適化を可能にする。
未来のAIアプリの壁は、単にモデルを呼び出すだけではなく、モデル・エージェント・製品シナリオ・データフィードバックを組織化した、信頼性が高く低コストでスケール可能な生産システムの構築にある。
この流れは、Loopitにとっても非常に重要だ。私たちのAIインタラクティブコンテンツは、モデル能力が創作の上限を決め、コストと速度が規模化を左右する。
異なるレベルのモデルが十分に使える状態になり、効果的に編成できるなら、一般ユーザーの多くのアイデアもリアルタイムで生成・交流・拡散できる。DeepSeek V4の進展は、その加速に寄与する。
🧑🏫Pine AI最高科学者・李博杰
垂直微調整市場では、千問やLlamaなどの200〜300B規模の基盤モデルがV4-Flashに置き換えられている。
この規模の後訓練を行うチームは再評価を行い、同規模のモデルを超える性能を持ち、Day-0の推論フレームワーク(SGLang/vLLM/TileLang)に完全対応したものが、半年以内に国内のオープンソース垂直モデルの標準となる見込みだ。
華為昇腾950 SuperNodeの推論エコシステムも本格始動し、英偉達のチップのプレミアム価格に挑戦している。
これは、「国産チップ+国産トップオープンソースモデル」の最初の完全動作例だ(NVIDIAやAMDはV4の早期適応を得ていない)。下半期に950の大規模出荷が進めば、エージェントの長いコンテキストシナリオにおいて純国産推論の波が来る。
この結果、英偉達の中国市場における評価とプレミアムは再評価される—販売量の崩壊ではなく、価格交渉力の低下だ。
複雑な長期タスクをこなすエージェントの総合コストは大きく下がる。
V4-Proの入力(キャッシュミス)1.74ドル/出力3.48ドル+1Mコンテキストの高効率KV+MegaMoEは、単一トークンあたりのコストを最先端モデルの1/6〜1/7に圧縮した。
今後、エージェントハーネス層でV4のツール呼び出しの安定性と幻覚率を補完(検証器、外部接地、厳格なSchema、一致性投票)すれば、コストの壁に阻まれていた多段階研究や長期コードエージェント、深層探索型アプリケーションも、今年後半にはデモから実運用へと進むだろう。エージェントの経済性の転換点はこの波の中にある。
また、クローズドの最先端メーカーは値下げしないだろう—彼らの製品は依然として圧倒的に優れており、V4は価格競争の圧力にはならない。
🧑🏫零一万物技術・製品センター副総裁・赵斌強
ToB向けAIアプリの核心は、「効果を保証しつつ、全ライフサイクルのコストを制御すること」だ。DeepSeek V4は、その競争力のある解決策を提供している。
Flashはシンプルなタスクをカバーし、Proは高難度のシナリオをカバー。全体のコストは、主流のクローズドソース方案より大きく削減され、零一万物の提案のコストパフォーマンスを大きく向上させる。
さらに、DeepSeekのオープンソースは堅実で揺るぎない—突然クローズド化して投資を水の泡にすることはない。この堅実なオープン姿勢は、企業の技術選定において貴重な確実性をもたらす。
零一万物はすでにDeepSeek V4を基盤とした製品評価と能力検証を全面的に開始しており、運用調整やスマートオフィス、投資管理などの企業コアシナリオでの性能を評価中だ。基準を満たせば、既存モデルの置き換えも検討し、より多くの業界顧客に国産トップモデルを提供していく。
V4のリリース後、私の予測は、業界に次の三つの変化をもたらすことだ。
DeepSeekの華為昇腾対応は、国内AI産業の「チップ+フレームワーク+モデル+応用」全技術スタックの国産化に向けた実質的な一歩だ。
これは、規制やコンプライアンスの要件を持つ政府・企業顧客にとっては必須だ。ToB市場の国産化は加速する。
DeepSeekは、トップクラスのクローズドモデルより遥かに低価格で、ほぼ同等の性能を実現している。その示範効果は、オープンソースモデルの総合性能向上を促す。
これにより、AnthropicやOpenAIなどのクローズドモデルの高価格戦略は圧力を受ける。業界の利益中心は、基盤モデルから深層業界応用へと移行し、AIの長期的発展にとってプラスだ。
オープンソースは基盤の敷居を下げるが、実運用の高さはHarness次第だ。高品質なオープンソースから安定した企業向け製品へと移行させるには、幻覚除去、指示遵守、誤り検証、専門性注入などのエンジニアリング能力が必要だ。
業界ごとにニーズは異なる。共通のHarnessは存在しない。これこそが零一万物の核心的強みだ。自動評価・自動フィードバック・自動改善・専門性注入を通じて、各業界に最適なHarness体系を迅速に構築し、モデルをビジネスに本格導入させる。
🧑🏫レノボグループ副総裁・レノボ・ベンチャーキャピタル最高投資責任者・シニアパートナー・宋春雨
第一に、百万規模のコンテキストがアプリケーション層の「標準」になり、エージェントの爆発的普及を促す。V4は超長コンテキスト能力を普及させ、インフラとして浸透させる。
第二に、業界の競争は「モデルの巻き合い」から「アプリとデータの巻き合い」へ。トップクラスのオープンソースモデルの性能がクローズドに迫り、コストも大きく下がった今、モデルそのものはもはや稀少な壁ではなくなる。今後の投資と競争の焦点は、「これらの基盤モデルをどう活用し、医療・金融・法律などの高付加価値分野でデータとアプリの閉ループを築き、ビジネスの護城河を作るか」に移る。
第三に、国産計算資源産業チェーンに巨大な投資機会が到来。V4の成功は、国内の大規模モデルも「宝石の冠の一つ」を獲得できることを証明した。これにより、チップ設計、サーバー、クラウドサービスまで、産業全体の投資熱が高まる。
私たちの見立てでは、「今年の国産計算資源は、去年の海外計算資源に匹敵する」となるだろう。その産業動向と資本市場の反映は、非常に強力だ。
資源は、「早期商用化・産業適用・製品の差別化」が可能なプロジェクトに集中させ、底層のアーキテクチャと計算資源インフラには長期投資を続ける。
🧑🏫二重通貨ファンド投資家
私の今年の願いは、基盤モデルポートフォリオの上場だ。
DeepSeekが資金調達を始めれば、第一市場(特に国資系)から大量資金を吸収するだろう。残る未上場の基盤モデル企業にとっては、継続的な資金調達は持続不可能だ。
また、悲観的な見方もある。今年はアプリ層の資金調達は難しいだろう。
基盤モデルの能力は急速に進化しており、多くのアプリはモデルに覆される運命にある。昨年のコーディングやワークフローの熱狂も、今年はほとんど話題にならなくなった。
🧑🏫コーディングエージェント起業者・Chillin
オープンソースは良いことだが、DeepSeek V4は交流と最適化を促進する一方で、その時間的遅れが気になる。
V4はモデルメーカーに、規模とデータの問題に正面から向き合うことを促すが、これらは非常に難しい課題だ。資本の量の問題でもある。
また、Scaling Lawの限界も示している。エンジニアリングによる性能向上には限界があり、より根本的な解を探す必要がある。道は長く遠い。
ボーナス:DeepSeek V4の実用ガイド
何に向いている?
プログラミング・コード学習:初心者や個人スクリプト作成者にとって、DeepSeek V4は最も優れた選択肢の一つだ。コンテキスト理解や高品質なコード生成、デバッグに非常に優れる。
中国語・中日韓(CJK)コンテンツ作成:文章執筆、校正、翻訳などで、V4は中国語、日本語、韓国語の環境下で非常に高い性能を発揮。
超長文の読解と分析:V4は最大100万トークンのコンテキストウィンドウを標準搭載。書籍や長大なレポート、コードベースを一度に入力し、要約や重要情報抽出に役立てられる。
向いていないこと?
客観的事実の検索・検証:V4は「推論モデル」であり、「百科事典」ではない。歴史や特定の実体情報の記憶テストは弱く、幻覚も出やすい。特に、V4-Flashは事実質問の得点が34.1%にとどまる。検索エンジンとして使わず、事実の検証には検索機能付きの他のAIや自分で確認を。
画像やドキュメントのレイアウト処理:DeepSeek V4は純粋なテキストモデルであり、画像入力・出力はサポートしない(No Vision)。図表や画像の解析には、GPT-5.4 Miniなどのマルチモーダルモデルを使う。
英語だけの高度なクリエイティブ執筆:英語で書くことはできるが、出力が硬くなることも。自然で流暢、創造的な英語コンテンツを求めるなら、他の西洋主流モデルを推奨。
その他の注意点:
明示的な思考連鎖(CoT)を持つPro版を使う場合、難題には「多くのステップを考えさせる」や「Think Max」モードを有効にし、推論を深めると、より正確な答えが得られる。
たまに冗長になることも許容し、短く答えてほしい場合は、「一言で答えて」や「できるだけ簡潔に」と指示を。