Фьючерсы
Доступ к сотням фьючерсов
CFD
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Рекламные акции
Промоакции
Участвуйте и получайте награды
Реферал
20 USDT
Приглашайте друзей за бонусы
Партнерская программа
Эксклюзивные комиссионные
Gate Booster
Растите влияние и получайте аирдроп
Анонсы
Обновления в реальном времени
Блог Gate
Статьи о криптоиндустрии
VIP-услуги
Огромные скидки на комиссии
Управление активами
Универсальное решение для управления активами
Институциональный
Крипто-решения для бизнеса
Разработчикам (API)
Подключение к экосистеме приложений Gate
Внебиржевые банковские переводы
Ввод и вывод фиатных денег
Брокерская программа
Щедрые механизмы скидок API
AI
Gate AI
Ваш универсальный AI-ассистент для любых задач
Gate AI Bot
Используйте Gate AI прямо в вашем социальном приложении
GateClaw
Gate Синий Лобстер — готов к использованию
Gate for AI Agent
AI-инфраструктура: Gate MCP, Skills и CLI
Gate Skills Hub
Более 10 тыс навыков
От офиса до трейдинга: единая база навыков для эффективного использования ИИ
GateRouter
Умный выбор из более чем 40 моделей ИИ, без дополнительных затрат (0%)
Путь DeepSeek к триллионам долларов: использование открытого кода для стимулирования триллионной аппаратной экосистемы
Редакционная заметка: За последний год обсуждения вокруг DeepSeek в основном сосредоточены на производительности модели, стратегии открытого исходного кода и ценовой войне. Но если понять DeepSeek только через призму «продажа подписки», «есть ли мультимодальность» или «может ли он стать агентом для кодирования», можно недооценить то, что он действительно хочет изменить.
В этой статье выдвигается более радикальное предположение: цель DeepSeek — не краткосрочная монетизация через прикладной слой, а через серию инноваций в базовой архитектуре — перестроить структуру затрат на обучение и вывод ИИ, косвенно способствуя формированию новой аппаратной экосистемы. От MoE, MLA до DSA, CSA, mHC, Engram, а также Dual Path и TileLang — технический путь DeepSeek постоянно вращается вокруг одного ключевого вопроса: при ограничениях HBM, передовых технологических процессов, упаковки и экосистемы CUDA — как использовать меньше высокопроизводительных вычислительных ресурсов для создания более мощных моделей.
Самое важное в статье — не «может ли DeepSeek заработать миллиарды долларов через API или подписки», а то, связывает ли он возможности моделей, память и отечественную аппаратную экосистему. Сжатие KV Cache снижает зависимость от HBM, NAND и SSD могут хранить длительные кэши, LPDDR — для потоковой загрузки весов и хранения Engram, а TileLang пытается ослабить барьер CUDA. Если эти инновации продолжат распространяться, выгоду получат не только DeepSeek, но и производители хранения данных, ASIC, GPU, сетевых чипов и вся цепочка инфраструктуры ИИ.
Конечно, оценки «10 триллионов долларов индустриальной экосистемы» и «оценки в 1 триллион долларов» остаются предположительными. Но они дают важный путь для понимания DeepSeek: открытый исходный код не обязательно означает отказ от коммерциализации, а низкая цена — не только субсидия рынку. Для DeepSeek настоящая бизнес-цель — не только прикладной слой, а помощь в доступности аппаратного обеспечения и снижении стоимости поставки ИИ. Иными словами, он продает не только модель, а возможность следующего поколения инфраструктуры ИИ.
Ниже — оригинальный текст:
Вы когда-нибудь задумывались, как именно DeepSeek собирается зарабатывать деньги, и возможно — очень много?
Он не предлагает конкурирующие подписочные программы для программирования, как GLM, MoonShot или MiniMax; у него нет мультимодальных, аудио- или видеомоделей. Пока у него даже нет собственного хранилища, то есть внешней платформы для вызова моделей, интеграции инструментов и выполнения задач — хотя недавно они начали нанимать специалистов для создания этой системы.
Тем временем, DeepSeek, похоже, твердо стоит на стороне открытого исходного кода и даже охотно делится своими «секретами». Разве это не безумие? Разве это не пустая трата денег? Разве инвесторы, готовые вложить 10 миллиардов долларов, не бросают деньги в трубу?
Лично я считаю, что наоборот.
Далее я поделюсь наблюдениями, основанными на том, что DeepSeek уже сделал, и проанализирую его предполагаемую стратегию. Цель CEO DeepSeek, Лян Вэньфэна, может быть гораздо шире, чем просто конкуренция моделей. Он, возможно, нацелен на более крупную награду: у DeepSeek есть шанс достичь оценки в 1 триллион долларов и одновременно стимулировать создание новой индустрии объемом в 10 триллионов долларов.
Переосмысление «геройского пути» DeepSeek
DeepSeek постоянно идет против течения. Он не выбирает постоянно выпускать чуть более мощные модели и торопиться превращать их в прямо монетизируемые приложения, например, подписки на программирование. 27 января 2025 года я написал широко распространенный твит о «геройском пути» DeepSeek. Теперь эта история стала еще интереснее.
Когда другие пытаются строить плотные модели, DeepSeek выбрал более сложную для обучения модель — экспертное смешивание (Mixture of Experts, MoE).
Они применили «первичные принципы», изобрели новый алгоритм GRPO, чтобы заменить тогдашний популярный, но дорогой в реализации алгоритм PPO для усиленного обучения.
Они обнаружили, что усиленное обучение на основе подтвержденных наград (Reinforcement Learning from Verified Rewards, RLVR) — ключ к повышению способности модели к выводу.
Также они предложили простую стратегию декодирования — «многотокенное предсказание» (Multi Token Prediction), которая делает сигналы обучения более плотными.
Они усовершенствовали «нулевую пузырьковую» (ZERO bubble) линию производства для более эффективного использования ограниченных GPU-ресурсов.
Они выпустили балансировщик нагрузки для экспертов, что облегчает развертывание MoE-моделей. Особенно — стратегия «широкого экспертного параллелизма» (Wide Expert Parallel), которая позволяет обслуживать модели с большими пакетами данных, значительно снижая стоимость вывода.
Они изобрели механизмы MLA, DSA, CSA, HCA, чтобы уменьшить потребность в KV Cache и сделать вычислительную нагрузку, растущую с длиной контекста, максимально постоянной.
Также они создали Engram — обмен памяти на вычислительную эффективность.
И еще — разработали mHC, позволяющий масштабировать модель, сохраняя стабильность обучения. Аналогичных решений много.
В «геройском пути» главный герой не сразу знает, куда идет его путешествие. Он учится по пути, постепенно открывая свою истинную миссию и преодолевая препятствия. Он сталкивается с сомнениями и недоброжелателями, но игнорирует их. У него есть недостатки, но он их преодолевает, достигая цели. Он сталкивается с, казалось бы, непроходимыми вызовами, находит союзников и учится мудро использовать ограниченные ресурсы. Именно это вызывает у зрителей желание болеть за героя. Именно это делает DeepSeek популярным, вызывая уважение и противостояние.
Как я подробно объясню далее, DeepSeek идет по этому пути давно и постепенно осознает свою конечную судьбу: его цель — не продавать подписки на программирование, а стимулировать создание масштабной — в 10 триллионов долларов — китайской аппаратной экосистемы ИИ и достигнуть оценки в 1 триллион долларов. В этом процессе он также создаст возможности для новых участников западной аппаратной индустрии.
Начнем с интересных расчетов KV Cache
Обратите внимание на свежий твит @SemiAnalysis_:
DeepSeek уже решил эту проблему лучше всех!
Давайте сделаем интересные вычисления по KV Cache. Не волнуйтесь, даже если математика не ваша сильная сторона, мы используем недавно выпущенный калькулятор KV Cache, чтобы оценить, сколько DeepSeek V4 Pro сможет сэкономить KV Cache по сравнению с последними моделями GLM и Qwen.
Я возьму длину контекста около 1 миллиона, предположу точность KV — 8 бит, индексатор — 16 бит. Можно попробовать самостоятельно: https://kvcache.ai/tools/kv-cache-calculator/
При длине контекста около 1 миллиона:
· DeepSeek V4 требует всего 5,48 ГБ HBM;
· GLM-5 — 60 ГБ HBM;
· Qwen3-235B-A22B — до 89 ГБ HBM.
Обратите внимание:
· DeepSeek — модель с 1,6 трлн параметров;
· GLM-5 — примерно 700 млрд параметров, уже использует MLA и DSA от DeepSeek, но еще без новейших механизмов сжатия внимания;
· Qwen3-235B-A22B — около 235 млрд параметров, использует GQA внимание.
DeepSeek уже вносит фундаментальный вклад в снижение памяти. Если такие инновации широко распространить, это значительно снизит затраты на работу агентов с длительным циклом и откроет новые сценарии применения.
«Безумие» — методология
Объем KV Cache настолько мал, потому что DeepSeek способен предоставлять длительный кэш по очень низкой цене — даже менее 3% стоимости кэширования Sonnet 4.6, и он может хранить кэш в течение нескольких часов.
Для задач с длительным циклом меньший размер KV Cache означает возможность более экономичного выгрузки его на SSD и повторной загрузки по мере необходимости. Это снижает зависимость от HBM. С точки зрения китайской индустрии ИИ, HBM — не только дефицитный ресурс, но и один из самых сложных в производстве видов памяти.
Кроме того, DeepSeek разработал технологии более быстрого загрузки KV Cache с SSD, что описано в его статье о Dual Path.
DeepSeek V4 достигает очень высокой степени сжатия KV Cache, и в будущем эта стадия, возможно, станет излишней.
Кто же получает прямую выгоду от сжатия KV Cache?
Кто крупно поставляет SSD? Не забудьте, что YMTC (Yangtze Memory Technologies) растет как гигант в области 3D NAND. NAND помогает DeepSeek избегать повторных расчетов KV. В свою очередь, DeepSeek создает огромный рынок для NAND и SSD — это выгодно не только YMTC, но и другим производителям.
Но речь идет не только о NAND и SSD.
LPDDR память тоже обладает большим потенциалом. Она может служить хранилищем для весов модели и потоково передавать их в HBM по мере необходимости, снижая нагрузку на HBM. Команда SGLang уже публиковала хорошую статью о таком подходе. Ниже — схема работы этого решения.
Хотя DeepSeek специально не разрабатывал для этого решения, его архитектура MoE, наличие множества экспертов и использование 4-битных весов делают его более реализуемым.
Если объединить это с очень компактным и без потерь KV Cache, потребность в HBM значительно снизится.
Кто в Китае производит LPDDR? Ответ — CXMT (Changxin Memory Technologies). Они чуть уступают в скорости, но по плотности — примерно на одну ступень ниже, разрыв небольшой.
Помимо достаточного количества NAND, в ближайшем будущем в Китае будет достаточно LPDDR для поддержки вычислительных мощностей. Это поможет снизить нагрузку на вычислительные ресурсы? Ответ — да. Продолжайте читать.
Интеллектуальное использование памяти также может снизить нагрузку на GPU / ASIC
Использование NAND для хранения KV Cache понятно: это позволяет хранить кэш дольше, снижая нагрузку на HBM, и избегать повторных расчетов KV Cache, что уменьшает вычислительную нагрузку GPU и ASIC.
А LPDDR может играть такую же роль? Помимо хранения весов для потоковой передачи в HBM по мере необходимости, она может дополнительно снизить вычислительную нагрузку?
Ответ — да.
LPDDR можно использовать для хранения большого количества содержимого, называемого Engram. В статье о Engram в DeepSeek указано, что MoE можно расширять за счет условных вычислений, но у трансформеров отсутствует встроенный механизм «поиска знаний». Поэтому трансформеры вынуждены имитировать поиск через неэффективные вычисления.
Для решения этой проблемы DeepSeek предложил модуль Engram. Он модернизировал классический N-граммный embedding, превратив его в хэш-таблицу O(1), создавая дополнительный разреженный путь — условную память (conditional memory).
Это позволяет экономить вычисления, но требует памяти для хранения таблицы embedding, которая сама может быть очень большой.
По сути, это классическая стратегия «внутренней памяти — за счет вычислений». Но ключевое понимание — с точки зрения стоимости чтения каждого бита данных, «память» гораздо дешевле — один поиск в LPDDR обходится значительно дешевле, чем полноценный проход через многоуровневый трансформер. В больших сценариях это очень выгодный обмен.
Вот так DeepSeek достигает экономии за счет жертвы части памяти в обмен на снижение вычислений.
Что важно учитывать при выборе
Из-за отсутствия таких же плотных транзисторов и EUV-технологий, китайские GPU и ASIC, скорее всего, долго будут уступать западным по FLOPs. В области передовой упаковки у них тоже есть существенный разрыв. Поэтому такие компромиссы — очень оправданны, особенно при условии массового производства NAND и LPDDR в Китае.
Обзор долгосрочной стратегии DeepSeek
Исходя из этих инноваций, цель DeepSeek — не краткосрочная прибыль в несколько миллиардов долларов. Многие его решения свидетельствуют о другом: пока нет мультимодальных моделей, голосовых или видеомоделей.
Он участвует в долгосрочной игре, масштаб которой может достигать 10 триллионов долларов — в создании альтернативной аппаратной экосистемы ИИ.
Это не только для того, чтобы китайские производители памяти стали ключевыми игроками на внутреннем и мировом рынках ИИ, но и для снижения затрат на обучение и обслуживание моделей ИИ. В результате многие производители GPU, ASIC и сетевых чипов смогут рассматривать их как реальные варианты.
Кроме того, эти инновации принесут пользу западной open-source экосистеме и новым производителям аппаратного обеспечения.
Все признаки уже есть. Давайте подробно вспомним, какие инновации DeepSeek предложил до сих пор:
DeepSeek в V2 внедрил MoE и MLA. MoE уменьшает вычислительные затраты на обучение высокоинтеллектуальных моделей примерно на 40–50%; MLA — сокращает KV Cache на 90%.
Это делает очень эффективным выгрузку KV Cache на SSD.
Эти идеи впервые появились в статье DeepSeek V2, опубликованной в мае 2024 года. Позже они легли в основу обучения DeepSeek V3. Тогда DeepSeek использовал всего 2048 слабых GPU H800 для тренировки системы, близкой по производительности к закрытым моделям.
Основная роль DSA — обеспечить, чтобы вычислительная нагрузка не росла с увеличением длины контекста. Посмотрите на график: при увеличении длины контекста время обработки DeepSeek V3.2 остается практически стабильным.
mHC — это крупномасштабное архитектурное новшество, которое переосмысливает поток информации между слоями трансформера.
Раньше, начиная с ResNet, модели использовали стандартные остаточные соединения — x + F(x). В mHC остаточный поток расширен в несколько параллельных каналов, и модель может обучаемо смешивать их. Важное — матрица смешивания ограничена двойным случайным матричным условием, с помощью проекции Sinkhorn-Knopp она ограничивается в Birkhoff-полидропе. Это гарантирует, что независимо от глубины модели, сигнал остается стабильным.
Это решает проблему нестабильности, характерную для гипер-соединений без ограничений. Изначально гипер-соединения были предложены ByteDance, но без ограничений они приводили к взрыву сигнала — в 270-миллиардных моделях он увеличивался в 3000 раз, что приводило к сбоям обучения.
Расчетные затраты mHC очень малы: всего около 6.7% от общего времени обучения, поскольку оно не меняет FLOPs внимания или FFN, а лишь меняет маршрутизацию выходов слоев.
Но эффект — заметен: при 270 млрд параметров, mHC повышает точность на задачах BIG-Bench Hard на 7.2 балла, на DROP — на 3.2, на математической задаче GSM8K — на 2.8, и на универсальной MMLU — на 1.4. Все это при одинаковом масштабе модели и примерно одинаковом бюджете вычислений.
По сути, mHC — это расширение топологии маршрутизации межслойных данных, которое обеспечивает более богатое и выразительное межслойное взаимодействие без существенного увеличения FLOPs, повышая эффективность параметра.
Цели CSA и HSA — снизить потребность в KV Cache еще на 90% за счет сжатия KV Token, а также значительно уменьшить FLOPs, что одновременно снизит нагрузку на HBM и GPU/ASIC.
На диаграмме ниже видно, что при одинаковом бюджете параметров Engram дает заметный прирост производительности.
На той же диаграмме видно, что при одинаковом бюджете параметров, Engram значительно повышает производительность.
Инвестиции в TileLang также движутся в том же направлении: DeepSeek не только решает собственные вычислительные узкие места, но и способствует развитию китайской аппаратной экосистемы, способной конкурировать с западной.
Благодаря TileLang разработчики могут писать один раз ядро (kernel) — низкоуровневый код для вычислений — и запускать его на разных платформах, при условии, что у них есть поддержка TileLang.
Я ожидаю, что другие китайские лаборатории ИИ тоже присоединятся. Это поможет китайским производителям аппаратуры косвенно бороться с так называемой «барьером CUDA». Также это раскроет потенциал западных решений, например AMD.
Стоит отметить, что многие китайские платформы ИИ уже поддерживают совместимость с CUDA или используют трансляционные слои. Например, Moer, Muxi, Biren и Tiannanshi — все через трансляцию обеспечивают высокую совместимость с CUDA. Теоретически, им не обязательно внедрять TileLang.
Масштабное обучение с усиленным RL и RSI
По мере увеличения источников вычислительной мощности для DeepSeek — появление новых аппаратных платформ — и снижения потребности модели в ресурсах, он сможет реализовать более амбициозные проекты обучения, особенно — с использованием усиленного обучения.
Усиленное обучение требует генерации огромных траекторий, то есть триллионов токенов. Этот процесс быстро становится очень дорогим. Еще более — для обучения модели с длиной контекста в миллион токенов потребуется генерировать такие же длинные траектории. Только на таких сверхдлинных траекториях можно поддерживать задачи с длительным циклом.
Кроме того, увеличение числа аппаратных платформ расширяет доступные ресурсы, что стимулирует автоматизацию исследований — RSI. RSI — это способность ИИ самостоятельно проектировать и проводить эксперименты. Этот подход требует большого количества проб и ошибок, и его стоимость быстро растет. Но RSI — ключ к исследованию полного пространства моделей. Перед достижением AGI и далее — к ASI — DeepSeek должен развивать RSI.
Деятельность DeepSeek сегодня — это то, за чем в будущем последуют все
Инновации DeepSeek в области экспертного смешивания, MLA, DSA уже начинают внедряться в другие лаборатории как в Китае, так и за рубежом.
Например, разработчики серии моделей GLM, компания ZAI, используют MLA и DSA. Kimi, или MoonShot, тоже применяет MLA и прямо заявляет, что его архитектура основана на DeepSeek. В свою очередь, DeepSeek использует оптимизатор Muon, который впервые был применен командой Kimi в масштабных тренировках.
Важно отметить:
MoE впервые предложен Google в 2017 году, ключевой автор — Ноам Шазеер. Вклад DeepSeek — в масштабное применение MoE и создание собственных техник.
Muon, или MomentUm Orthogonalized by Newton-Schulz — оптимизатор, предложенный исследователем Keller Jordan в конце 2024 года. Команда Kimi стала первой, кто применил его в масштабных тренировках.
Что же с вопросом о заработке?
Рассмотрим интересный пример — OpenAI.
OpenAI получила опционы и конвертируемые ценные бумаги на акции AMD и Cerebras по очень выгодной цене, связанные с достижением определенных этапов использования их мощностей. Для AMD и Cerebras это очень выгодная сделка, потому что, пообещав использовать их оборудование, они значительно повышают шансы на долгосрочный успех.
В объявлении AMD говорится:
«В рамках соглашения, для дальнейшей координации стратегических интересов, AMD выпустила OpenAI опционы на покупку до 160 миллионов обычных акций AMD, которые будут постепенно принадлежать по мере достижения определенных этапов. Первые акции — при завершении начальной установки мощностью 1 ГВт, последующие — при расширении до 6 ГВт. Условия также связаны с достижением определенных ценовых целей и технических и коммерческих этапов, необходимых для масштабных внедрений AMD.»
Я предполагаю, что DeepSeek также заключит подобные соглашения с несколькими китайскими производителями памяти, ASIC, CPU и сетевых технологий, и будет с ними тесно сотрудничать, чтобы их оборудование могло справляться с передовыми задачами ИИ.
Учитывая, что рыночная капитализация западных и азиатских компаний, включая союзников, уже превышает 10 триллионов долларов, такой «совместный капиталовложение через доли» даст DeepSeek шанс помочь Китаю создать такую же огромную индустрию и получить свою долю. В итоге — достичь оценки в 1 триллион долларов.
Это не только принесет DeepSeek гораздо больше денег, чем традиционные подписки, но и поможет реализовать его мечту — «чтобы AGI было доступно каждому». Лян Вэньфэн — поклонник Джима Саймонса и достаточно умный инвестор, чтобы не упустить такую возможность.
Если оглянуться назад и посмотреть на все, что DeepSeek уже сделал, единственное объяснение — самое логичное.
[Ссылка на оригинал]
Узнайте о вакансиях в BlockBeats
Присоединяйтесь к официальному сообществу BlockBeats:
Подписка в Telegram: https://t.me/theblockbeats
Группа в Telegram: https://t.me/BlockBeats_App
Официальный аккаунт в Twitter: https://twitter.com/BlockBeatsAsia