Путь DeepSeek к триллионам долларов: использование открытого кода для стимулирования триллионной аппаратной экосистемы

Оригинальный заголовок: Стратегия DeepSeek на 10 триллионов долларов США
Автор оригинала: @bookwormengr
Перевод: Peggy, BlockBeats

Редакционная заметка: За последний год обсуждения вокруг DeepSeek в основном сосредоточены на производительности модели, стратегии открытого исходного кода и ценовой войне. Но если понять DeepSeek только через призму «продажа подписки», «есть ли мультимодальность» или «может ли он стать агентом для кодирования», можно недооценить то, что он действительно хочет изменить.

В этой статье выдвигается более радикальное предположение: цель DeepSeek — не краткосрочная монетизация через прикладной слой, а через серию инноваций в базовой архитектуре — перестроить структуру затрат на обучение и вывод ИИ, косвенно способствуя формированию новой аппаратной экосистемы. От MoE, MLA до DSA, CSA, mHC, Engram, а также Dual Path и TileLang — технический путь DeepSeek постоянно вращается вокруг одного ключевого вопроса: при ограничениях HBM, передовых технологических процессов, упаковки и экосистемы CUDA — как использовать меньше высокопроизводительных вычислительных ресурсов для создания более мощных моделей.

Самое важное в статье — не «может ли DeepSeek заработать миллиарды долларов через API или подписки», а то, связывает ли он возможности моделей, память и отечественную аппаратную экосистему. Сжатие KV Cache снижает зависимость от HBM, NAND и SSD могут хранить длительные кэши, LPDDR — для потоковой загрузки весов и хранения Engram, а TileLang пытается ослабить барьер CUDA. Если эти инновации продолжат распространяться, выгоду получат не только DeepSeek, но и производители хранения данных, ASIC, GPU, сетевых чипов и вся цепочка инфраструктуры ИИ.

Конечно, оценки «10 триллионов долларов индустриальной экосистемы» и «оценки в 1 триллион долларов» остаются предположительными. Но они дают важный путь для понимания DeepSeek: открытый исходный код не обязательно означает отказ от коммерциализации, а низкая цена — не только субсидия рынку. Для DeepSeek настоящая бизнес-цель — не только прикладной слой, а помощь в доступности аппаратного обеспечения и снижении стоимости поставки ИИ. Иными словами, он продает не только модель, а возможность следующего поколения инфраструктуры ИИ.

Ниже — оригинальный текст:

Вы когда-нибудь задумывались, как именно DeepSeek собирается зарабатывать деньги, и возможно — очень много?

Он не предлагает конкурирующие подписочные программы для программирования, как GLM, MoonShot или MiniMax; у него нет мультимодальных, аудио- или видеомоделей. Пока у него даже нет собственного хранилища, то есть внешней платформы для вызова моделей, интеграции инструментов и выполнения задач — хотя недавно они начали нанимать специалистов для создания этой системы.

Тем временем, DeepSeek, похоже, твердо стоит на стороне открытого исходного кода и даже охотно делится своими «секретами». Разве это не безумие? Разве это не пустая трата денег? Разве инвесторы, готовые вложить 10 миллиардов долларов, не бросают деньги в трубу?

Лично я считаю, что наоборот.

Далее я поделюсь наблюдениями, основанными на том, что DeepSeek уже сделал, и проанализирую его предполагаемую стратегию. Цель CEO DeepSeek, Лян Вэньфэна, может быть гораздо шире, чем просто конкуренция моделей. Он, возможно, нацелен на более крупную награду: у DeepSeek есть шанс достичь оценки в 1 триллион долларов и одновременно стимулировать создание новой индустрии объемом в 10 триллионов долларов.

Репортаж TechInAsia о последнем раунде финансирования DeepSeek

Переосмысление «геройского пути» DeepSeek

DeepSeek постоянно идет против течения. Он не выбирает постоянно выпускать чуть более мощные модели и торопиться превращать их в прямо монетизируемые приложения, например, подписки на программирование. 27 января 2025 года я написал широко распространенный твит о «геройском пути» DeepSeek. Теперь эта история стала еще интереснее.

Когда другие пытаются строить плотные модели, DeepSeek выбрал более сложную для обучения модель — экспертное смешивание (Mixture of Experts, MoE).

Они применили «первичные принципы», изобрели новый алгоритм GRPO, чтобы заменить тогдашний популярный, но дорогой в реализации алгоритм PPO для усиленного обучения.

Они обнаружили, что усиленное обучение на основе подтвержденных наград (Reinforcement Learning from Verified Rewards, RLVR) — ключ к повышению способности модели к выводу.

Также они предложили простую стратегию декодирования — «многотокенное предсказание» (Multi Token Prediction), которая делает сигналы обучения более плотными.

Они усовершенствовали «нулевую пузырьковую» (ZERO bubble) линию производства для более эффективного использования ограниченных GPU-ресурсов.

Они выпустили балансировщик нагрузки для экспертов, что облегчает развертывание MoE-моделей. Особенно — стратегия «широкого экспертного параллелизма» (Wide Expert Parallel), которая позволяет обслуживать модели с большими пакетами данных, значительно снижая стоимость вывода.

Они изобрели механизмы MLA, DSA, CSA, HCA, чтобы уменьшить потребность в KV Cache и сделать вычислительную нагрузку, растущую с длиной контекста, максимально постоянной.

Также они создали Engram — обмен памяти на вычислительную эффективность.

И еще — разработали mHC, позволяющий масштабировать модель, сохраняя стабильность обучения. Аналогичных решений много.

В «геройском пути» главный герой не сразу знает, куда идет его путешествие. Он учится по пути, постепенно открывая свою истинную миссию и преодолевая препятствия. Он сталкивается с сомнениями и недоброжелателями, но игнорирует их. У него есть недостатки, но он их преодолевает, достигая цели. Он сталкивается с, казалось бы, непроходимыми вызовами, находит союзников и учится мудро использовать ограниченные ресурсы. Именно это вызывает у зрителей желание болеть за героя. Именно это делает DeepSeek популярным, вызывая уважение и противостояние.

Как я подробно объясню далее, DeepSeek идет по этому пути давно и постепенно осознает свою конечную судьбу: его цель — не продавать подписки на программирование, а стимулировать создание масштабной — в 10 триллионов долларов — китайской аппаратной экосистемы ИИ и достигнуть оценки в 1 триллион долларов. В этом процессе он также создаст возможности для новых участников западной аппаратной индустрии.

Начнем с интересных расчетов KV Cache

Обратите внимание на свежий твит @SemiAnalysis_:

DeepSeek уже решил эту проблему лучше всех!

Давайте сделаем интересные вычисления по KV Cache. Не волнуйтесь, даже если математика не ваша сильная сторона, мы используем недавно выпущенный калькулятор KV Cache, чтобы оценить, сколько DeepSeek V4 Pro сможет сэкономить KV Cache по сравнению с последними моделями GLM и Qwen.

Я возьму длину контекста около 1 миллиона, предположу точность KV — 8 бит, индексатор — 16 бит. Можно попробовать самостоятельно: https://kvcache.ai/tools/kv-cache-calculator/

Попробуйте сами поэкспериментировать с калькулятором!

При длине контекста около 1 миллиона:

· DeepSeek V4 требует всего 5,48 ГБ HBM;
· GLM-5 — 60 ГБ HBM;
· Qwen3-235B-A22B — до 89 ГБ HBM.

Обратите внимание:

· DeepSeek — модель с 1,6 трлн параметров;
· GLM-5 — примерно 700 млрд параметров, уже использует MLA и DSA от DeepSeek, но еще без новейших механизмов сжатия внимания;
· Qwen3-235B-A22B — около 235 млрд параметров, использует GQA внимание.

DeepSeek уже вносит фундаментальный вклад в снижение памяти. Если такие инновации широко распространить, это значительно снизит затраты на работу агентов с длительным циклом и откроет новые сценарии применения.

Сравнение использования KV Cache при длине контекста 1 миллион и масштабах модели

«Безумие» — методология

Объем KV Cache настолько мал, потому что DeepSeek способен предоставлять длительный кэш по очень низкой цене — даже менее 3% стоимости кэширования Sonnet 4.6, и он может хранить кэш в течение нескольких часов.

Для задач с длительным циклом меньший размер KV Cache означает возможность более экономичного выгрузки его на SSD и повторной загрузки по мере необходимости. Это снижает зависимость от HBM. С точки зрения китайской индустрии ИИ, HBM — не только дефицитный ресурс, но и один из самых сложных в производстве видов памяти.

Кроме того, DeepSeek разработал технологии более быстрого загрузки KV Cache с SSD, что описано в его статье о Dual Path.

DeepSeek V4 достигает очень высокой степени сжатия KV Cache, и в будущем эта стадия, возможно, станет излишней.

Кто же получает прямую выгоду от сжатия KV Cache?

Кто крупно поставляет SSD? Не забудьте, что YMTC (Yangtze Memory Technologies) растет как гигант в области 3D NAND. NAND помогает DeepSeek избегать повторных расчетов KV. В свою очередь, DeepSeek создает огромный рынок для NAND и SSD — это выгодно не только YMTC, но и другим производителям.

Но речь идет не только о NAND и SSD.

LPDDR память тоже обладает большим потенциалом. Она может служить хранилищем для весов модели и потоково передавать их в HBM по мере необходимости, снижая нагрузку на HBM. Команда SGLang уже публиковала хорошую статью о таком подходе. Ниже — схема работы этого решения.

Хотя DeepSeek специально не разрабатывал для этого решения, его архитектура MoE, наличие множества экспертов и использование 4-битных весов делают его более реализуемым.

Эта схема показывает, как память может использоваться, и как веса модели могут потоково передаваться из LPDDR в HBM. Обязательно прочтите блог SGLang.

Если объединить это с очень компактным и без потерь KV Cache, потребность в HBM значительно снизится.

Кто в Китае производит LPDDR? Ответ — CXMT (Changxin Memory Technologies). Они чуть уступают в скорости, но по плотности — примерно на одну ступень ниже, разрыв небольшой.

Помимо достаточного количества NAND, в ближайшем будущем в Китае будет достаточно LPDDR для поддержки вычислительных мощностей. Это поможет снизить нагрузку на вычислительные ресурсы? Ответ — да. Продолжайте читать.

Интеллектуальное использование памяти также может снизить нагрузку на GPU / ASIC

Использование NAND для хранения KV Cache понятно: это позволяет хранить кэш дольше, снижая нагрузку на HBM, и избегать повторных расчетов KV Cache, что уменьшает вычислительную нагрузку GPU и ASIC.

А LPDDR может играть такую же роль? Помимо хранения весов для потоковой передачи в HBM по мере необходимости, она может дополнительно снизить вычислительную нагрузку?

Ответ — да.

LPDDR можно использовать для хранения большого количества содержимого, называемого Engram. В статье о Engram в DeepSeek указано, что MoE можно расширять за счет условных вычислений, но у трансформеров отсутствует встроенный механизм «поиска знаний». Поэтому трансформеры вынуждены имитировать поиск через неэффективные вычисления.

Для решения этой проблемы DeepSeek предложил модуль Engram. Он модернизировал классический N-граммный embedding, превратив его в хэш-таблицу O(1), создавая дополнительный разреженный путь — условную память (conditional memory).

Это позволяет экономить вычисления, но требует памяти для хранения таблицы embedding, которая сама может быть очень большой.

По сути, это классическая стратегия «внутренней памяти — за счет вычислений». Но ключевое понимание — с точки зрения стоимости чтения каждого бита данных, «память» гораздо дешевле — один поиск в LPDDR обходится значительно дешевле, чем полноценный проход через многоуровневый трансформер. В больших сценариях это очень выгодный обмен.

Вот так DeepSeek достигает экономии за счет жертвы части памяти в обмен на снижение вычислений.

Что важно учитывать при выборе

Из-за отсутствия таких же плотных транзисторов и EUV-технологий, китайские GPU и ASIC, скорее всего, долго будут уступать западным по FLOPs. В области передовой упаковки у них тоже есть существенный разрыв. Поэтому такие компромиссы — очень оправданны, особенно при условии массового производства NAND и LPDDR в Китае.

Обзор долгосрочной стратегии DeepSeek

Исходя из этих инноваций, цель DeepSeek — не краткосрочная прибыль в несколько миллиардов долларов. Многие его решения свидетельствуют о другом: пока нет мультимодальных моделей, голосовых или видеомоделей.

Он участвует в долгосрочной игре, масштаб которой может достигать 10 триллионов долларов — в создании альтернативной аппаратной экосистемы ИИ.

Это не только для того, чтобы китайские производители памяти стали ключевыми игроками на внутреннем и мировом рынках ИИ, но и для снижения затрат на обучение и обслуживание моделей ИИ. В результате многие производители GPU, ASIC и сетевых чипов смогут рассматривать их как реальные варианты.

Кроме того, эти инновации принесут пользу западной open-source экосистеме и новым производителям аппаратного обеспечения.

Все признаки уже есть. Давайте подробно вспомним, какие инновации DeepSeek предложил до сих пор:

  1. В DeepSeek V2 введены экспертное смешивание (MoE) и MLA

DeepSeek в V2 внедрил MoE и MLA. MoE уменьшает вычислительные затраты на обучение высокоинтеллектуальных моделей примерно на 40–50%; MLA — сокращает KV Cache на 90%.

Это делает очень эффективным выгрузку KV Cache на SSD.

Эти идеи впервые появились в статье DeepSeek V2, опубликованной в мае 2024 года. Позже они легли в основу обучения DeepSeek V3. Тогда DeepSeek использовал всего 2048 слабых GPU H800 для тренировки системы, близкой по производительности к закрытым моделям.

  1. DSA: введен в экспериментальной версии DeepSeek V3.2, чтобы снизить вычислительные расходы при длинных контекстах и уменьшить нагрузку на пропускную способность HBM.

Основная роль DSA — обеспечить, чтобы вычислительная нагрузка не росла с увеличением длины контекста. Посмотрите на график: при увеличении длины контекста время обработки DeepSeek V3.2 остается практически стабильным.

  1. mHC: предложен в декабре 2025 года в статье «mHC: Manifold-Constrained Hyper-Connections».

mHC — это крупномасштабное архитектурное новшество, которое переосмысливает поток информации между слоями трансформера.

Раньше, начиная с ResNet, модели использовали стандартные остаточные соединения — x + F(x). В mHC остаточный поток расширен в несколько параллельных каналов, и модель может обучаемо смешивать их. Важное — матрица смешивания ограничена двойным случайным матричным условием, с помощью проекции Sinkhorn-Knopp она ограничивается в Birkhoff-полидропе. Это гарантирует, что независимо от глубины модели, сигнал остается стабильным.

Это решает проблему нестабильности, характерную для гипер-соединений без ограничений. Изначально гипер-соединения были предложены ByteDance, но без ограничений они приводили к взрыву сигнала — в 270-миллиардных моделях он увеличивался в 3000 раз, что приводило к сбоям обучения.

Расчетные затраты mHC очень малы: всего около 6.7% от общего времени обучения, поскольку оно не меняет FLOPs внимания или FFN, а лишь меняет маршрутизацию выходов слоев.

Но эффект — заметен: при 270 млрд параметров, mHC повышает точность на задачах BIG-Bench Hard на 7.2 балла, на DROP — на 3.2, на математической задаче GSM8K — на 2.8, и на универсальной MMLU — на 1.4. Все это при одинаковом масштабе модели и примерно одинаковом бюджете вычислений.

По сути, mHC — это расширение топологии маршрутизации межслойных данных, которое обеспечивает более богатое и выразительное межслойное взаимодействие без существенного увеличения FLOPs, повышая эффективность параметра.

mHC — сложная архитектурная разработка, которая обеспечивает более стабильное обучение и более высокий уровень интеллекта на единицу параметра.

  1. CSA, HSA: введены в апреле 2026 года в V4.

Цели CSA и HSA — снизить потребность в KV Cache еще на 90% за счет сжатия KV Token, а также значительно уменьшить FLOPs, что одновременно снизит нагрузку на HBM и GPU/ASIC.

  1. Engram: введен в первом квартале 2026 года, по сути — использование памяти (LPDDR) для повышения вычислительной эффективности.

На диаграмме ниже видно, что при одинаковом бюджете параметров Engram дает заметный прирост производительности.

  1. Engram: введен в первом квартале 2026 года, по сути — использование памяти (LPDDR) для повышения вычислительной эффективности.

На той же диаграмме видно, что при одинаковом бюджете параметров, Engram значительно повышает производительность.

Это рекомендации DeepSeek для производителей аппаратного обеспечения, опубликованные в статье V4. Уверен, что в реальных обсуждениях их отзывы только расширятся.

Инвестиции в TileLang также движутся в том же направлении: DeepSeek не только решает собственные вычислительные узкие места, но и способствует развитию китайской аппаратной экосистемы, способной конкурировать с западной.

Благодаря TileLang разработчики могут писать один раз ядро (kernel) — низкоуровневый код для вычислений — и запускать его на разных платформах, при условии, что у них есть поддержка TileLang.

Я ожидаю, что другие китайские лаборатории ИИ тоже присоединятся. Это поможет китайским производителям аппаратуры косвенно бороться с так называемой «барьером CUDA». Также это раскроет потенциал западных решений, например AMD.

Стоит отметить, что многие китайские платформы ИИ уже поддерживают совместимость с CUDA или используют трансляционные слои. Например, Moer, Muxi, Biren и Tiannanshi — все через трансляцию обеспечивают высокую совместимость с CUDA. Теоретически, им не обязательно внедрять TileLang.

Масштабное обучение с усиленным RL и RSI

По мере увеличения источников вычислительной мощности для DeepSeek — появление новых аппаратных платформ — и снижения потребности модели в ресурсах, он сможет реализовать более амбициозные проекты обучения, особенно — с использованием усиленного обучения.

Усиленное обучение требует генерации огромных траекторий, то есть триллионов токенов. Этот процесс быстро становится очень дорогим. Еще более — для обучения модели с длиной контекста в миллион токенов потребуется генерировать такие же длинные траектории. Только на таких сверхдлинных траекториях можно поддерживать задачи с длительным циклом.

Кроме того, увеличение числа аппаратных платформ расширяет доступные ресурсы, что стимулирует автоматизацию исследований — RSI. RSI — это способность ИИ самостоятельно проектировать и проводить эксперименты. Этот подход требует большого количества проб и ошибок, и его стоимость быстро растет. Но RSI — ключ к исследованию полного пространства моделей. Перед достижением AGI и далее — к ASI — DeepSeek должен развивать RSI.

Деятельность DeepSeek сегодня — это то, за чем в будущем последуют все

Инновации DeepSeek в области экспертного смешивания, MLA, DSA уже начинают внедряться в другие лаборатории как в Китае, так и за рубежом.

Например, разработчики серии моделей GLM, компания ZAI, используют MLA и DSA. Kimi, или MoonShot, тоже применяет MLA и прямо заявляет, что его архитектура основана на DeepSeek. В свою очередь, DeepSeek использует оптимизатор Muon, который впервые был применен командой Kimi в масштабных тренировках.

Важно отметить:

MoE впервые предложен Google в 2017 году, ключевой автор — Ноам Шазеер. Вклад DeepSeek — в масштабное применение MoE и создание собственных техник.

Muon, или MomentUm Orthogonalized by Newton-Schulz — оптимизатор, предложенный исследователем Keller Jordan в конце 2024 года. Команда Kimi стала первой, кто применил его в масштабных тренировках.

Что же с вопросом о заработке?

Рассмотрим интересный пример — OpenAI.

OpenAI получила опционы и конвертируемые ценные бумаги на акции AMD и Cerebras по очень выгодной цене, связанные с достижением определенных этапов использования их мощностей. Для AMD и Cerebras это очень выгодная сделка, потому что, пообещав использовать их оборудование, они значительно повышают шансы на долгосрочный успех.

В объявлении AMD говорится:

«В рамках соглашения, для дальнейшей координации стратегических интересов, AMD выпустила OpenAI опционы на покупку до 160 миллионов обычных акций AMD, которые будут постепенно принадлежать по мере достижения определенных этапов. Первые акции — при завершении начальной установки мощностью 1 ГВт, последующие — при расширении до 6 ГВт. Условия также связаны с достижением определенных ценовых целей и технических и коммерческих этапов, необходимых для масштабных внедрений AMD.»

Я предполагаю, что DeepSeek также заключит подобные соглашения с несколькими китайскими производителями памяти, ASIC, CPU и сетевых технологий, и будет с ними тесно сотрудничать, чтобы их оборудование могло справляться с передовыми задачами ИИ.

Учитывая, что рыночная капитализация западных и азиатских компаний, включая союзников, уже превышает 10 триллионов долларов, такой «совместный капиталовложение через доли» даст DeepSeek шанс помочь Китаю создать такую же огромную индустрию и получить свою долю. В итоге — достичь оценки в 1 триллион долларов.

Это не только принесет DeepSeek гораздо больше денег, чем традиционные подписки, но и поможет реализовать его мечту — «чтобы AGI было доступно каждому». Лян Вэньфэн — поклонник Джима Саймонса и достаточно умный инвестор, чтобы не упустить такую возможность.

Если оглянуться назад и посмотреть на все, что DeepSeek уже сделал, единственное объяснение — самое логичное.

Это ключевые акции ИИ. В графике не показаны гиперскейлеры — крупные облачные провайдеры, а также многие другие связанные компании.

[Ссылка на оригинал]

Узнайте о вакансиях в BlockBeats

Присоединяйтесь к официальному сообществу BlockBeats:

Подписка в Telegram: https://t.me/theblockbeats

Группа в Telegram: https://t.me/BlockBeats_App

Официальный аккаунт в Twitter: https://twitter.com/BlockBeatsAsia

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 11
  • 1
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
SmallPosition,BigMouth
· 4ч назад
100 триллионов долларов? Эта цифра звучит как из научной фантастики
Посмотреть ОригиналОтветить0
ThereAreCatsInTheContract.
· 6ч назад
Поэтому DeepSeek — это следующая часть более крупной игры
Посмотреть ОригиналОтветить0
BlackGoldMechanicalHand
· 8ч назад
100 триллионов — это целевая оценка или масштаб индустрии? Немного запутался
Посмотреть ОригиналОтветить0
GateUser-26374bb4
· 8ч назад
В конечном итоге ценовая война сводится к тому, что победитель получает всю инфраструктуру
Посмотреть ОригиналОтветить0
PaperSculptureSquidward
· 8ч назад
Наконец-то кто-то вышел за рамки оценки моделей и начал смотреть на проблему
Посмотреть ОригиналОтветить0
GateUser-34d2b0ab
· 8ч назад
Если бы действительно удалось перестроить базовый уровень, сейчас эти приложения были бы фиктивными потребностями.
Посмотреть ОригиналОтветить0
SlippageSailor
· 8ч назад
Если это действительно так, то все, кто сейчас покупает токены, помогают ему тренировать войска.
Посмотреть ОригиналОтветить0
GlitchOrchard
· 8ч назад
Этот угол довольно интересен, раньше действительно сосредоточился только на уровне приложений.
Посмотреть ОригиналОтветить0
ThetaSideEye
· 8ч назад
Подождите весь текст, этот редакторский комментарий умеет заинтриговать.
Посмотреть ОригиналОтветить0
SushiSlippage
· 8ч назад
Peggy скомпилирована? Качество BlockBeats всегда на высоте
Посмотреть ОригиналОтветить0
Подробнее
  • Закреплено