画像の出典:无界AIによって生成された
DeepSeekが頻繁に返信する「サーバーがビジー状態です、しばらくしてからもう一度お試しください」というメッセージは、各地のユーザーをイライラさせています。
以前一般大衆にはあまり知られていなかったDeepSeekは、2024年12月26日にGPT 4oに対抗する言語モデルV3を発表して名を馳せました。1月20日にはDeepSeekがOpenAI o1に対抗する言語モデルR1を発表し、その後、「深い考え」モードで生成された答えの品質が高いこと、そしてそのイノベーションによってモデルトレーニングの初期コストが急激に低下する可能性を示唆する前向きなサインが明らかになったことで、同社とアプリケーションは完全に注目を浴びました。その後、DeepSeek R1は常に混雑を経験しており、そのネットワーク検索機能は断続的に麻痺し、深い考えモードでは頻繁に「サーバーがビジー状態」というメッセージが表示されるため、多くのユーザーが大きな問題を感じています。
数日前、DeepSeekはサーバーの中断を経験し始めました。1月27日の正午、DeepSeekの公式ウェブサイトは何度も「deepseekウェブサイト/APIは利用できません」と表示されました。当日、DeepSeekは週末にiPhoneのダウンロード数が最も多いアプリとなり、米国のダウンロードランキングでChatGPTを超えました。
2月5日、DeepSeekのモバイル版は26日間で日中アクティブユーザー数が4000万人を突破し、ChatGPTのモバイル版は5495万人で、DeepSeekはChatGPTの74.3%を占めます。急速な成長曲線をたどるDeepSeekの間、サーバーが混雑しているという不満が相次いでおり、世界中のユーザーが数回質問するだけでダウンしてしまう不便に直面しています。DeepSeekの代替アクセスも登場し始め、各大手のクラウドサービスプロバイダーや半導体メーカー、インフラストラクチャ企業が続々と参入しており、個人向けの展開ガイドもあちこちで見かけます。しかし、人々のイライラは緩和されず、ほとんどの主要企業がDeepSeekの展開を支援しているにもかかわらず、ユーザーは依然としてサービスの不安定さに不満を持っています。
これは背後で何が起こっているのか?
ChatGPTの人々は1つのことに慣れており、開けないDeepSeekに我慢できません
「DeepSeekサーバーがビジー状態である」という不満は、以前は主にChatGPTを使用していたAIトップアプリがほとんどカクつかなかったためです。
OpenAIサービスが開始されて以来、ChatGPTはいくつかのP0レベル(最も深刻な障害レベル)の障害を経験しましたが、全体として、それは比較的信頼性があり、イノベーションと安定性の間でバランスを見出し、徐々に従来のクラウドサービスの重要な構成要素となっています。
ChatGPTの大規模なダウンタイムはそれほど多くありません
ChatGPTの推論プロセスは比較的安定しており、エンコードとデコードの2つのステップが含まれています。エンコード段階では、入力テキストをベクトルに変換し、そのベクトルには入力テキストの意味情報が含まれています。デコード段階では、ChatGPTは以前に生成されたテキストをコンテキストとして使用し、Transformerモデルを介して次の単語やフレーズを生成します。必要な完全な文が生成されるまで、デコード段階では、大規模モデル自体がデコーダー構造に属し、1つのトークン(大規模モデルがテキストを処理する際の最小単位)ごとに出力が行われます。ChatGPTに質問するたびに、推論プロセスが1回起動します。
例えば、ChatGPTに「今日の気分はどうですか」と尋ねると、ChatGPTはこのフレーズをコード化し、各レイヤーの注意表現を生成し、以前のすべてのトークンの注意表現に基づいて最初の出力トークン「私」を予測します。その後、デコードを行い、「私」を「今日の気分はどうですか?」に結合し、「今日の気分はどうですか?私」となります。新しい注意表現が得られ、次のトークン「の」を予測します。そして、最初のステップ、2番目のステップを繰り返し、最終的に「今日の気分はどうですか?私の気分はとても良いです。」となります。
コンテナの配置ツールKubernetesはChatGPTの“裏方指揮官”であり、サーバーリソースのスケジューリングと割り当てを担当しています。ユーザーの殺到がKubernetesのコントロールプレーンの耐えられる限界を完全に超えると、ChatGPTシステム全体がダウンする可能性があります。
ChatGPTの総崩壊回数は多くはありませんが、その背後には強力なリソースが支えとして機能しており、安定した運用を維持するために強力な計算能力がある。これは人々が見落としている部分です。
一般的に、推論処理のデータ規模は通常小さいため、トレーニングと比較して計算能力の要件が高くないことが一般的です。業界関係者による推定では、通常の大規模モデルの推論プロセスでは、モデルのパラメータウェイトのメインメモリ使用率が80%以上を占めるとのことです。実際の状況は、ChatGPTに組み込まれている複数のデフォルトモデルは、DeepSeek-R1の671Bよりも小さいサイズであり、ChatGPTはDeepSeekよりもはるかに多くのGPU計算能力を持っているため、自然とDS-R1よりも安定したパフォーマンスを発揮します。
DeepSeek-V3とR1はどちらも671Bのモデルであり、モデルの起動プロセスは推論のプロセスであり、推論時の計算力の備蓄はユーザー数に対応する必要があります。たとえば、1億のユーザー数がある場合、1億のユーザー数のグラフィックスカードが必要です。これは巨大であり、トレーニング時の計算力の備蓄とは独立しており、関連していません。各情報から見ると、DSのグラフィックスカードと計算力の備蓄が明らかに不足しており、そのために頻繁にカクつきが発生しています。
ChatGPTのシルキーな体験に慣れているユーザーにとって、この比較は適応が難しく、特に彼らのR1への関心が高まっている今。
2、カード、カード、やはりカード
そして、注意深く比較すると、OpenAIとDeepSeekが遭遇した状況は非常に異なります。
前者はマイクロソフトを背景にし、OpenAIの独占プラットフォームとして、Microsoft AzureクラウドサービスにChatGPT、Dalle-E 2画像生成器、GitHub Copilot自動コーディングツールが搭載されました。その後、この組み合わせはクラウド+AIのクラシックなパラダイムとなり、業界標準として急速に普及しました。一方、後者は新興企業であり、ほとんどの場合、自社データセンターに依存しており、Googleと同様に、第三者のクラウドコンピューティングプロバイダーに依存していません。Silicon Starは、公開情報を調査した結果、DeepSeekはいかなるレベルでもクラウドプロバイダーやチップメーカーとの提携を開始していないことを発見しました(春節期間中、クラウドプロバイダーがDeepSeekモデルを実行することを発表しましたが、彼らは実質的な提携を行っていません)。
そしてDeepSeekは前例のないユーザー増加に直面しており、これはChatGPTよりも熱烈な状況に対する準備時間が少ないことを意味します。
DeepSeekの優れた性能は、ハードウェアとシステムのレベルでの総合最適化から得られています。DeepSeekの親会社である幻方量化は、2019年に2億ドルを投じてFirefly-1スーパーコンピュータクラスタを構築し、2022年までには何千ものA100グラフィックカードを静かに蓄積しました。より効率的な並列トレーニングを実現するために、DeepSeekはHAI LLMトレーニングフレームワークを独自に開発しました。業界では、Fireflyクラスタが何千もの高性能GPU(例:NVIDIA A100/H100または国産チップ)を採用しており、強力な並列計算能力を提供していると考えられています。現在、FireflyクラスタはDeepSeek-R1、DeepSeek-MoEなどのモデルトレーニングをサポートしており、これらのモデルは数学やコードなどの複雑なタスクにおいて、GPT-4に匹敵するレベルの性能を発揮しています。
ファイアフライクラスターは、DeepSeekが新しいアーキテクチャと手法を探索する旅を表しており、このような革新的な技術によってDSはトレーニングコストを削減し、西洋の最先端モデルのわずか数分の1の計算能力で、トップクラスのAIモデルと同等のR1をトレーニングすることができると外部から見なされています。SemiAnalysisによると、DeepSeekは実際に膨大な計算能力を有しており、6万枚のNVIDIA GPUカード、その中には1万枚のA100、1万枚のH100、1万枚の「特別版」H800、および3万枚の「特別版」H20が含まれています。
これは、R1のカードの供給が比較的十分であることを意味するようです。しかし、実際には、推論モデルであるR1は、OpenAIのO3に対応しており、このような推論モデルにはより多くの計算リソースが応答段階に展開される必要がありますが、DSはトレーニングコスト側でリソースを節約し、推論コスト側で急増するリソースをどちらが優先されるか、現時点では明確ではありません。
特筆すべきは、DeepSeek-V3とDeepSeek-R1の両方が大規模言語モデルであるということですが、それらの動作方法には違いがあります。DeepSeek-V3は命令モデルであり、ChatGPTのようなものであり、ヒントを受け取り、それに対応するテキストを生成して返信します。しかし、DeepSeek-R1は推論モデルであり、ユーザーがR1に質問すると、まず大量の推論プロセスを行い、その後に最終的な回答を生成します。R1が生成するトークンの中には、まず多くの思考連鎖プロセスが現れ、モデルは回答を生成する前に問題を説明し、問題を分解し、これらの推論プロセスはすべてトークンの形で迅速に生成されます。
ゲートウェイマネージャーのウェン・ティンチャン副社長によると、前述のDeepSeekの大規模な計算力準備とは、トレーニング段階を指します。トレーニング段階の計算力チームは計画し、予測可能であり、計算力不足が起こりにくいですが、推論計算力には不確実性があります。なぜなら、主にユーザーの規模と使用量に依存するためです。比較的柔軟性があります。推論計算力は一定の規則に従って成長しますが、DeepSeekが現象的な製品になるにつれて、短期間でユーザーの規模と使用量が爆発的に増加し、これが推論段階の計算力需要の爆発的な増加をもたらし、したがってスローダウンが発生します。
すぐに活発なモデル製品デザイナーや独立開発者である歸藏は、DeepSeekのカーデザインは遅れの主な原因だと認識しています。彼によれば、DSは現在、世界140の市場で最もダウンロード数が多いモバイルアプリとして、現在のカードにはどうしようもないと考えています。新しいカードを使ってもだめなのは、「新しいカードをクラウドで作るには時間が必要だから」です。
「NVIDIAのA100、H100などのチップの1時間あたりの運用コストは公正な市場価格です。 DeepSeekは、トークンの出力コストから見て、OpenAIと同様のモデルo1よりも90%以上安いです。これは皆さんの計算とほぼ一致しているため、モデルの構造MOE自体が最も重要な問題ではありませんが、DSが保有するGPUの数が彼らが提供できるトークン数の上限を決定します。より多くのGPUを推論サービスに使用することができるかもしれませんが、それらを事前トレーニング研究に使用する必要はありませんが、上限はそこにあります。」AIネイティブアプリケーションの開発者である陳云飞氏は同様の意見を持っています。
また、業界関係者はSilicon Starに対して、DeepSeekの遅延の本質は、プライベートクラウドがうまく機能していないことにあると指摘しています。
ハッキングもR1ラグの要因です。 1月30日、メディアはネットワークセキュリティ企業Qianxinから、オンラインサービス「DeepSeek」に対する攻撃の強度が急激にエスカレートし、攻撃指示が1月28日と比較して数百倍に増加したことを知りました。 Qianxin Xlab Labsは、この攻撃に関与した少なくとも2つのボットネットを確認しています。
しかし、このR1の自己サービスの遅延には、かなり明白な解決策があり、第三者がサービスを提供することです。これは、春節期間に目撃した最も活気のある光景であり、各メーカーがサービスを展開し、DeepSeekへの需要を受け入れています。
1月31日、NVIDIAは、NVIDIA NIMがDeepSeek-R1を使用できるようになったことを発表しました。以前、DeepSeekの影響を受けて、NVIDIAの時価総額は約6000億ドル減少しました。同日、Amazon Web Services(AWS)のユーザーは、人工知能プラットフォームであるAmazon BedrockとAmazon SageMaker AIにDeepSeekの最新R1ベースモデルを展開できるようになりました。その後、Perplexity、Cursorを含むAIアプリの新興企業も、大量にDeepSeekにアクセスしました。マイクロソフトは、AmazonやNVIDIAに先駆けて、最初にDeepSeek-R1をクラウドサービスAzureとGithubに展開しました。
2月1日大年初四から、華為雲、アリババクラウド、バイトダンスの火山エンジン、テンセントクラウドも加わり、彼らは一般的にDeepSeek全シリーズ、全サイズのモデル展開サービスを提供しています。その後にはビレンテクノロジー、ハンボ半導体、シェンテン、ムシーなどのAIチップメーカーが続き、彼らはDeepSeekのオリジナルまたはより小さな蒸留バージョンに適合していると主張しています。ソフトウェア企業側では、用友、金蝶などが一部の製品にDeepSeekモデルを組み込み、製品力を強化しており、最後にはレノボ、華為、Honorなどの端末メーカーがDeepSeekモデルを一部の製品に組み込み、エッジ側の個人アシスタントや車両インテリジェントコックピットとして使用しています。
DeepSeekはこれまでに、独自の価値によって包括的な友人のサークルを引き付け、国内外のクラウドベンダー、通信事業者、証券会社、国家レベルのプラットフォームおよび国家スーパーコンピューターインターネットプラットフォームを含んでいます。DeepSeek-R1が完全にオープンソースモデルであるため、参加したサービスプロバイダーはすべてDSモデルの恩恵を受けています。これはDSの知名度を大幅に高める一方、より頻繁なカクつき現象を引き起こしました。サービスプロバイダーとDS自体は、急増するユーザーからの困難に直面し、安定した使用の問題の鍵を見つけることができませんでした。
DeepSeek V3とR1の2つのモデルの元のバージョンは、それぞれ6710億のパラメータを持っているため、クラウドで実行するのに適しています。クラウドプロバイダー自体がより十分な計算リソースと推論能力を持っているため、彼らがDeepSeek関連の展開サービスを提供することは、企業の利用のハードルを下げるためです。DeepSeekモデルを展開した後、DSモデルのAPIを外部に提供します。DS自体が提供するAPIと比較して、これはDS公式よりも優れた使用体験を提供できると考えられています。
しかし、現実には、DeepSeek-R1モデル自体の実行体験の問題は、各サービスで解決されていません。外部から見ると、サービスプロバイダーにはカードが不足していないと考えられていますが、実際には、彼らが展開したR1に対する開発者の不安定なフィードバックの頻度は、R1自体と完全に同等です。これは、R1に推論を実行するために割り当てられるカードの量がそれほど多くないことによるところが大きいです。
"R1の人気は高いままであり、サービスプロバイダーは他のモデルへのアクセスも考慮する必要があります。R1に提供できるカードは非常に限られており、R1の人気が高いため、R1に参入すると比較的低価格で提供され、競争相手を排除することになります。"モデル製品デザイナー、独立開発者の归藏がシリコンスター人に説明しました。
モデルの展開最適化は、トレーニングの完了から実際のハードウェア展開に至るまで、さまざまな側面をカバーする広範な分野ですが、DeepSeekのカクつきの原因は、モデルが大きすぎることやオンライン展開の準備が不十分であるなど、より単純な可能性もあります。
人気のある大規模モデルがリリースされる前には、技術、エンジニアリング、ビジネスなど、さまざまな課題に直面することがあります。たとえば、トレーニングデータと本番環境データの整合性、データの遅延とリアルタイム性がモデルの推論効果に影響を与えること、オンライン推論の効率とリソース使用量が過剰であること、モデルの汎化能力の不足、およびサービスの安定性、APIとシステム統合などのエンジニアリング側面などが挙げられます。
多くのトップモデルがリリースされる前に、推論の最適化に重点を置いています。 これは、計算時間とメモリの問題があるためです。前者は推論に時間がかかりすぎてユーザーエクスペリエンスが悪化し、遅延要件を満たすことができない、つまり、カクつきなどの現象が発生するためです。 後者は、モデルのパラメータが多く、ビデオメモリを消費し、単一のGPUカードに収まらないことがあり、これもカクつきを引き起こす可能性があります。
ウェン・ティンツァンは、サービスプロバイダーがR1サービスを提供する際に直面している課題について、DSモデルの構造が特殊であるため、モデルが大きすぎるためにMOE(エキスパート混合構造、効率的な計算方法の1つ)アーキテクチャに挑戦していると説明しました。しかし、市場の熱は時間の枠組みがあるため、最適化に時間がかかるが、最適化した後に展開するのではなく、まず展開してから最適化すると述べています。
R1が安定して稼働するためには、現在の中心は推論側の蓄積と最適化能力にあります。 DeepSeekが行う必要があるのは、推論のコストを下げ、カードの出力、単一の出力トークンの数を減らす方法を見つけることです。
一方で、カードもDS自体の算力備蓄がおそらくSemiAnalysisが述べるほど巨大ではないことを示している。幻方基金会はカードを使い、DeepSeekトレーニングチームもカードを使う必要があり、ユーザーに提供できるカードはずっと少ない。現在の展開を考えると、短期間内にDeepSeekがお金を使ってサービスを借りる動機が必ずしもないかもしれない。それにより、無料でユーザーにより良い体験を提供することが可能になる。彼らはおそらく最初のC端ビジネスモデルが整理された後で、サービスのリースを検討することになるだろう。これは、カードの持続的な不足を意味することにもなる。
彼らはおそらく2つのステップが必要です:1)支払いメカニズムを導入し、無料ユーザーモデルの使用量を制限すること;2)クラウドサービスプロバイダーと提携し、他人のGPUリソースを利用すること。開発者の陈云飞が提案した暫定的な解決策は業界でかなり共通認識されています。
しかし、現時点では、DeepSeekは「サーバーが混雑しています」という問題に対してあまり急いでいないようです。AGIを追求する企業として、DeepSeekはこの殺到するユーザーの流れにあまり焦点を当てたくないようです。おそらくユーザーたちは将来しばらく「サーバーが混雑しています」の画面に慣れる必要があるでしょう。
33k 人気度
28k 人気度
34k 人気度
37k 人気度
DeepSeekの「サーバーがビジー状態です」は誰もがイライラさせますが、その背後には一体何があるのでしょうか?
画像の出典:无界AIによって生成された
DeepSeekが頻繁に返信する「サーバーがビジー状態です、しばらくしてからもう一度お試しください」というメッセージは、各地のユーザーをイライラさせています。
以前一般大衆にはあまり知られていなかったDeepSeekは、2024年12月26日にGPT 4oに対抗する言語モデルV3を発表して名を馳せました。1月20日にはDeepSeekがOpenAI o1に対抗する言語モデルR1を発表し、その後、「深い考え」モードで生成された答えの品質が高いこと、そしてそのイノベーションによってモデルトレーニングの初期コストが急激に低下する可能性を示唆する前向きなサインが明らかになったことで、同社とアプリケーションは完全に注目を浴びました。その後、DeepSeek R1は常に混雑を経験しており、そのネットワーク検索機能は断続的に麻痺し、深い考えモードでは頻繁に「サーバーがビジー状態」というメッセージが表示されるため、多くのユーザーが大きな問題を感じています。
数日前、DeepSeekはサーバーの中断を経験し始めました。1月27日の正午、DeepSeekの公式ウェブサイトは何度も「deepseekウェブサイト/APIは利用できません」と表示されました。当日、DeepSeekは週末にiPhoneのダウンロード数が最も多いアプリとなり、米国のダウンロードランキングでChatGPTを超えました。
2月5日、DeepSeekのモバイル版は26日間で日中アクティブユーザー数が4000万人を突破し、ChatGPTのモバイル版は5495万人で、DeepSeekはChatGPTの74.3%を占めます。急速な成長曲線をたどるDeepSeekの間、サーバーが混雑しているという不満が相次いでおり、世界中のユーザーが数回質問するだけでダウンしてしまう不便に直面しています。DeepSeekの代替アクセスも登場し始め、各大手のクラウドサービスプロバイダーや半導体メーカー、インフラストラクチャ企業が続々と参入しており、個人向けの展開ガイドもあちこちで見かけます。しかし、人々のイライラは緩和されず、ほとんどの主要企業がDeepSeekの展開を支援しているにもかかわらず、ユーザーは依然としてサービスの不安定さに不満を持っています。
これは背後で何が起こっているのか?
ChatGPTの人々は1つのことに慣れており、開けないDeepSeekに我慢できません
「DeepSeekサーバーがビジー状態である」という不満は、以前は主にChatGPTを使用していたAIトップアプリがほとんどカクつかなかったためです。
OpenAIサービスが開始されて以来、ChatGPTはいくつかのP0レベル(最も深刻な障害レベル)の障害を経験しましたが、全体として、それは比較的信頼性があり、イノベーションと安定性の間でバランスを見出し、徐々に従来のクラウドサービスの重要な構成要素となっています。
ChatGPTの大規模なダウンタイムはそれほど多くありません
ChatGPTの推論プロセスは比較的安定しており、エンコードとデコードの2つのステップが含まれています。エンコード段階では、入力テキストをベクトルに変換し、そのベクトルには入力テキストの意味情報が含まれています。デコード段階では、ChatGPTは以前に生成されたテキストをコンテキストとして使用し、Transformerモデルを介して次の単語やフレーズを生成します。必要な完全な文が生成されるまで、デコード段階では、大規模モデル自体がデコーダー構造に属し、1つのトークン(大規模モデルがテキストを処理する際の最小単位)ごとに出力が行われます。ChatGPTに質問するたびに、推論プロセスが1回起動します。
例えば、ChatGPTに「今日の気分はどうですか」と尋ねると、ChatGPTはこのフレーズをコード化し、各レイヤーの注意表現を生成し、以前のすべてのトークンの注意表現に基づいて最初の出力トークン「私」を予測します。その後、デコードを行い、「私」を「今日の気分はどうですか?」に結合し、「今日の気分はどうですか?私」となります。新しい注意表現が得られ、次のトークン「の」を予測します。そして、最初のステップ、2番目のステップを繰り返し、最終的に「今日の気分はどうですか?私の気分はとても良いです。」となります。
コンテナの配置ツールKubernetesはChatGPTの“裏方指揮官”であり、サーバーリソースのスケジューリングと割り当てを担当しています。ユーザーの殺到がKubernetesのコントロールプレーンの耐えられる限界を完全に超えると、ChatGPTシステム全体がダウンする可能性があります。
ChatGPTの総崩壊回数は多くはありませんが、その背後には強力なリソースが支えとして機能しており、安定した運用を維持するために強力な計算能力がある。これは人々が見落としている部分です。
一般的に、推論処理のデータ規模は通常小さいため、トレーニングと比較して計算能力の要件が高くないことが一般的です。業界関係者による推定では、通常の大規模モデルの推論プロセスでは、モデルのパラメータウェイトのメインメモリ使用率が80%以上を占めるとのことです。実際の状況は、ChatGPTに組み込まれている複数のデフォルトモデルは、DeepSeek-R1の671Bよりも小さいサイズであり、ChatGPTはDeepSeekよりもはるかに多くのGPU計算能力を持っているため、自然とDS-R1よりも安定したパフォーマンスを発揮します。
DeepSeek-V3とR1はどちらも671Bのモデルであり、モデルの起動プロセスは推論のプロセスであり、推論時の計算力の備蓄はユーザー数に対応する必要があります。たとえば、1億のユーザー数がある場合、1億のユーザー数のグラフィックスカードが必要です。これは巨大であり、トレーニング時の計算力の備蓄とは独立しており、関連していません。各情報から見ると、DSのグラフィックスカードと計算力の備蓄が明らかに不足しており、そのために頻繁にカクつきが発生しています。
ChatGPTのシルキーな体験に慣れているユーザーにとって、この比較は適応が難しく、特に彼らのR1への関心が高まっている今。
2、カード、カード、やはりカード
そして、注意深く比較すると、OpenAIとDeepSeekが遭遇した状況は非常に異なります。
前者はマイクロソフトを背景にし、OpenAIの独占プラットフォームとして、Microsoft AzureクラウドサービスにChatGPT、Dalle-E 2画像生成器、GitHub Copilot自動コーディングツールが搭載されました。その後、この組み合わせはクラウド+AIのクラシックなパラダイムとなり、業界標準として急速に普及しました。一方、後者は新興企業であり、ほとんどの場合、自社データセンターに依存しており、Googleと同様に、第三者のクラウドコンピューティングプロバイダーに依存していません。Silicon Starは、公開情報を調査した結果、DeepSeekはいかなるレベルでもクラウドプロバイダーやチップメーカーとの提携を開始していないことを発見しました(春節期間中、クラウドプロバイダーがDeepSeekモデルを実行することを発表しましたが、彼らは実質的な提携を行っていません)。
そしてDeepSeekは前例のないユーザー増加に直面しており、これはChatGPTよりも熱烈な状況に対する準備時間が少ないことを意味します。
DeepSeekの優れた性能は、ハードウェアとシステムのレベルでの総合最適化から得られています。DeepSeekの親会社である幻方量化は、2019年に2億ドルを投じてFirefly-1スーパーコンピュータクラスタを構築し、2022年までには何千ものA100グラフィックカードを静かに蓄積しました。より効率的な並列トレーニングを実現するために、DeepSeekはHAI LLMトレーニングフレームワークを独自に開発しました。業界では、Fireflyクラスタが何千もの高性能GPU(例:NVIDIA A100/H100または国産チップ)を採用しており、強力な並列計算能力を提供していると考えられています。現在、FireflyクラスタはDeepSeek-R1、DeepSeek-MoEなどのモデルトレーニングをサポートしており、これらのモデルは数学やコードなどの複雑なタスクにおいて、GPT-4に匹敵するレベルの性能を発揮しています。
ファイアフライクラスターは、DeepSeekが新しいアーキテクチャと手法を探索する旅を表しており、このような革新的な技術によってDSはトレーニングコストを削減し、西洋の最先端モデルのわずか数分の1の計算能力で、トップクラスのAIモデルと同等のR1をトレーニングすることができると外部から見なされています。SemiAnalysisによると、DeepSeekは実際に膨大な計算能力を有しており、6万枚のNVIDIA GPUカード、その中には1万枚のA100、1万枚のH100、1万枚の「特別版」H800、および3万枚の「特別版」H20が含まれています。
これは、R1のカードの供給が比較的十分であることを意味するようです。しかし、実際には、推論モデルであるR1は、OpenAIのO3に対応しており、このような推論モデルにはより多くの計算リソースが応答段階に展開される必要がありますが、DSはトレーニングコスト側でリソースを節約し、推論コスト側で急増するリソースをどちらが優先されるか、現時点では明確ではありません。
特筆すべきは、DeepSeek-V3とDeepSeek-R1の両方が大規模言語モデルであるということですが、それらの動作方法には違いがあります。DeepSeek-V3は命令モデルであり、ChatGPTのようなものであり、ヒントを受け取り、それに対応するテキストを生成して返信します。しかし、DeepSeek-R1は推論モデルであり、ユーザーがR1に質問すると、まず大量の推論プロセスを行い、その後に最終的な回答を生成します。R1が生成するトークンの中には、まず多くの思考連鎖プロセスが現れ、モデルは回答を生成する前に問題を説明し、問題を分解し、これらの推論プロセスはすべてトークンの形で迅速に生成されます。
ゲートウェイマネージャーのウェン・ティンチャン副社長によると、前述のDeepSeekの大規模な計算力準備とは、トレーニング段階を指します。トレーニング段階の計算力チームは計画し、予測可能であり、計算力不足が起こりにくいですが、推論計算力には不確実性があります。なぜなら、主にユーザーの規模と使用量に依存するためです。比較的柔軟性があります。推論計算力は一定の規則に従って成長しますが、DeepSeekが現象的な製品になるにつれて、短期間でユーザーの規模と使用量が爆発的に増加し、これが推論段階の計算力需要の爆発的な増加をもたらし、したがってスローダウンが発生します。
すぐに活発なモデル製品デザイナーや独立開発者である歸藏は、DeepSeekのカーデザインは遅れの主な原因だと認識しています。彼によれば、DSは現在、世界140の市場で最もダウンロード数が多いモバイルアプリとして、現在のカードにはどうしようもないと考えています。新しいカードを使ってもだめなのは、「新しいカードをクラウドで作るには時間が必要だから」です。
「NVIDIAのA100、H100などのチップの1時間あたりの運用コストは公正な市場価格です。 DeepSeekは、トークンの出力コストから見て、OpenAIと同様のモデルo1よりも90%以上安いです。これは皆さんの計算とほぼ一致しているため、モデルの構造MOE自体が最も重要な問題ではありませんが、DSが保有するGPUの数が彼らが提供できるトークン数の上限を決定します。より多くのGPUを推論サービスに使用することができるかもしれませんが、それらを事前トレーニング研究に使用する必要はありませんが、上限はそこにあります。」AIネイティブアプリケーションの開発者である陳云飞氏は同様の意見を持っています。
また、業界関係者はSilicon Starに対して、DeepSeekの遅延の本質は、プライベートクラウドがうまく機能していないことにあると指摘しています。
ハッキングもR1ラグの要因です。 1月30日、メディアはネットワークセキュリティ企業Qianxinから、オンラインサービス「DeepSeek」に対する攻撃の強度が急激にエスカレートし、攻撃指示が1月28日と比較して数百倍に増加したことを知りました。 Qianxin Xlab Labsは、この攻撃に関与した少なくとも2つのボットネットを確認しています。
しかし、このR1の自己サービスの遅延には、かなり明白な解決策があり、第三者がサービスを提供することです。これは、春節期間に目撃した最も活気のある光景であり、各メーカーがサービスを展開し、DeepSeekへの需要を受け入れています。
1月31日、NVIDIAは、NVIDIA NIMがDeepSeek-R1を使用できるようになったことを発表しました。以前、DeepSeekの影響を受けて、NVIDIAの時価総額は約6000億ドル減少しました。同日、Amazon Web Services(AWS)のユーザーは、人工知能プラットフォームであるAmazon BedrockとAmazon SageMaker AIにDeepSeekの最新R1ベースモデルを展開できるようになりました。その後、Perplexity、Cursorを含むAIアプリの新興企業も、大量にDeepSeekにアクセスしました。マイクロソフトは、AmazonやNVIDIAに先駆けて、最初にDeepSeek-R1をクラウドサービスAzureとGithubに展開しました。
2月1日大年初四から、華為雲、アリババクラウド、バイトダンスの火山エンジン、テンセントクラウドも加わり、彼らは一般的にDeepSeek全シリーズ、全サイズのモデル展開サービスを提供しています。その後にはビレンテクノロジー、ハンボ半導体、シェンテン、ムシーなどのAIチップメーカーが続き、彼らはDeepSeekのオリジナルまたはより小さな蒸留バージョンに適合していると主張しています。ソフトウェア企業側では、用友、金蝶などが一部の製品にDeepSeekモデルを組み込み、製品力を強化しており、最後にはレノボ、華為、Honorなどの端末メーカーがDeepSeekモデルを一部の製品に組み込み、エッジ側の個人アシスタントや車両インテリジェントコックピットとして使用しています。
DeepSeekはこれまでに、独自の価値によって包括的な友人のサークルを引き付け、国内外のクラウドベンダー、通信事業者、証券会社、国家レベルのプラットフォームおよび国家スーパーコンピューターインターネットプラットフォームを含んでいます。DeepSeek-R1が完全にオープンソースモデルであるため、参加したサービスプロバイダーはすべてDSモデルの恩恵を受けています。これはDSの知名度を大幅に高める一方、より頻繁なカクつき現象を引き起こしました。サービスプロバイダーとDS自体は、急増するユーザーからの困難に直面し、安定した使用の問題の鍵を見つけることができませんでした。
DeepSeek V3とR1の2つのモデルの元のバージョンは、それぞれ6710億のパラメータを持っているため、クラウドで実行するのに適しています。クラウドプロバイダー自体がより十分な計算リソースと推論能力を持っているため、彼らがDeepSeek関連の展開サービスを提供することは、企業の利用のハードルを下げるためです。DeepSeekモデルを展開した後、DSモデルのAPIを外部に提供します。DS自体が提供するAPIと比較して、これはDS公式よりも優れた使用体験を提供できると考えられています。
しかし、現実には、DeepSeek-R1モデル自体の実行体験の問題は、各サービスで解決されていません。外部から見ると、サービスプロバイダーにはカードが不足していないと考えられていますが、実際には、彼らが展開したR1に対する開発者の不安定なフィードバックの頻度は、R1自体と完全に同等です。これは、R1に推論を実行するために割り当てられるカードの量がそれほど多くないことによるところが大きいです。
"R1の人気は高いままであり、サービスプロバイダーは他のモデルへのアクセスも考慮する必要があります。R1に提供できるカードは非常に限られており、R1の人気が高いため、R1に参入すると比較的低価格で提供され、競争相手を排除することになります。"モデル製品デザイナー、独立開発者の归藏がシリコンスター人に説明しました。
モデルの展開最適化は、トレーニングの完了から実際のハードウェア展開に至るまで、さまざまな側面をカバーする広範な分野ですが、DeepSeekのカクつきの原因は、モデルが大きすぎることやオンライン展開の準備が不十分であるなど、より単純な可能性もあります。
人気のある大規模モデルがリリースされる前には、技術、エンジニアリング、ビジネスなど、さまざまな課題に直面することがあります。たとえば、トレーニングデータと本番環境データの整合性、データの遅延とリアルタイム性がモデルの推論効果に影響を与えること、オンライン推論の効率とリソース使用量が過剰であること、モデルの汎化能力の不足、およびサービスの安定性、APIとシステム統合などのエンジニアリング側面などが挙げられます。
多くのトップモデルがリリースされる前に、推論の最適化に重点を置いています。 これは、計算時間とメモリの問題があるためです。前者は推論に時間がかかりすぎてユーザーエクスペリエンスが悪化し、遅延要件を満たすことができない、つまり、カクつきなどの現象が発生するためです。 後者は、モデルのパラメータが多く、ビデオメモリを消費し、単一のGPUカードに収まらないことがあり、これもカクつきを引き起こす可能性があります。
ウェン・ティンツァンは、サービスプロバイダーがR1サービスを提供する際に直面している課題について、DSモデルの構造が特殊であるため、モデルが大きすぎるためにMOE(エキスパート混合構造、効率的な計算方法の1つ)アーキテクチャに挑戦していると説明しました。しかし、市場の熱は時間の枠組みがあるため、最適化に時間がかかるが、最適化した後に展開するのではなく、まず展開してから最適化すると述べています。
R1が安定して稼働するためには、現在の中心は推論側の蓄積と最適化能力にあります。 DeepSeekが行う必要があるのは、推論のコストを下げ、カードの出力、単一の出力トークンの数を減らす方法を見つけることです。
一方で、カードもDS自体の算力備蓄がおそらくSemiAnalysisが述べるほど巨大ではないことを示している。幻方基金会はカードを使い、DeepSeekトレーニングチームもカードを使う必要があり、ユーザーに提供できるカードはずっと少ない。現在の展開を考えると、短期間内にDeepSeekがお金を使ってサービスを借りる動機が必ずしもないかもしれない。それにより、無料でユーザーにより良い体験を提供することが可能になる。彼らはおそらく最初のC端ビジネスモデルが整理された後で、サービスのリースを検討することになるだろう。これは、カードの持続的な不足を意味することにもなる。
彼らはおそらく2つのステップが必要です:1)支払いメカニズムを導入し、無料ユーザーモデルの使用量を制限すること;2)クラウドサービスプロバイダーと提携し、他人のGPUリソースを利用すること。開発者の陈云飞が提案した暫定的な解決策は業界でかなり共通認識されています。
しかし、現時点では、DeepSeekは「サーバーが混雑しています」という問題に対してあまり急いでいないようです。AGIを追求する企業として、DeepSeekはこの殺到するユーザーの流れにあまり焦点を当てたくないようです。おそらくユーザーたちは将来しばらく「サーバーが混雑しています」の画面に慣れる必要があるでしょう。