DeepSeek V4 взрывной рост: Кремниевая долина «строит стены», Китай «прокладывает дороги»

null

Письмо | Alter

Утром 24 апреля наконец-то появился на свет DeepSeek V4, который опоздал на встречу.

В тот же день DeepSeek-V4-Pro сразу занял первое место в списке открытых моделей Hugging Face, два «ядерных инновационных» достижения были предметом обсуждения:

Первое — сверхдлинный контекст на миллионы токенов, но кеш KV всего 10% от V3.2, что похвалил инженер Amazon как решение проблемы дефицита HBM;

Второе — адаптация к отечественным чипам, в процессе разработки тесное сотрудничество с Huawei, а также быстрая адаптация к отечественным чипам Ascend и Cambricon.

Совпадение — вторая по рейтингу модель в списке Hugging Face, Kimi K2.6, была выпущена и открыта в ночь с 20 апреля.

Если бы это происходило за Тихим океаном, столкновение двух моделей с миллиардными параметрами неизбежно привело бы к взаимным обвинениям в оценке и бизнес-амбициях, — в стране же разыгралась совершенно иная картина: без взаимных разоблачений, без скрытых PR-кампаний, даже на техническом уровне произошла «смена охраны».

За «необычностью» скрываются разногласия между Китаем и США в направлениях развития AI-технологий: Кремниевая долина безумствует, пытаясь «возвести высокие стены», чтобы сохранить свои преимущества за счет закрытых решений; отечественные разработчики крупных моделей выбирают «разрушение стен», развиваясь на открытой базе и движимые совместной эволюцией.

01 Кремниевая долина погружена в «игру за власть»

В отличие от отечественного многообразия открытых моделей, лидеры AI в Кремниевой долине — OpenAI, Anthropic, Google Gemini — все сторонники закрытых решений.

Передовые технологические инновации заперты в их собственных дата-центрах, под давлением затрат на вычислительные ресурсы и ожиданий рынка, «дух Кремниевой долины», славящийся открытостью и сотрудничеством, постепенно исчезает, и участники неизбежно оказываются в нулевой сумме «игры за власть».

За последние два года «теневая борьба» переросла в открытую конфронтацию, наиболее типичный способ — «перебивание» друг друга: в ключевые моменты выпуска новых продуктов конкуренты быстро выпускают крупные обновления, чтобы подавить голос соперника, — это стало обычной практикой Кремниевой долины.

Еще в мае 2024 года OpenAI и Google одновременно анонсировали новые AI-продукты: одна сторона заявила, что GPT-4o — мировое лидерство, другая — что семейство Gemini охватывает всю экосистему и все пути. В итоге оба CEO не смогли удержаться и публично высмеяли друг друга в соцсетях.

Не только в «борьбе с Google», но и в противостоянии OpenAI и Anthropic ситуация накалилась: 16 апреля Anthropic выпустила новую модель Claude Opus 4.7, а через чуть более двух часов OpenAI объявила о масштабном обновлении Codex, провозгласив «Codex для (почти)) всего». Очевидно, что столкновение по времени — не случайность, а тщательно спланированный «удар» OpenAI по Anthropic.

Помимо «словесных баталий», в Кремниевой долине нередки и «боевые действия» — разоблачения и инсинуации.

Anthropic 7 апреля громко объявила о годовом доходе в 30 миллиардов долларов, превзойдя OpenAI с 25 миллиардами.

Через неделю главный коммерческий директор OpenAI прямо в внутреннем письме признался, что заявленные 30 миллиардов долларов — сильно завышены, поскольку они используют «метод суммы», полностью учитывая долю, полученную от облачных провайдеров Amazon и Google, что привело к переоценке дохода примерно на 8 миллиардов долларов.

Такое «подставление» соперника в внутренней переписке в технологической индустрии — редкость, цель — показать инвесторам, что миф о росте Anthropic — лишь вода.

Когда возникает вражда, она проникает во все решения.

После разногласий с Pentagon по поводу удаления некоторых безопасных условий из контрактов, OpenAI через несколько часов объявила о сотрудничестве с Министерством обороны США.

На «Супербоуле» 2026 года Anthropic запустила крупную рекламу с лозунгом: «Реклама входит в AI, но не войдет в Claude». Это — «подставка» OpenAI, которая только начала тестировать рекламные функции…

Почему бывшие «братья по цеху» дошли до такой вражды?

Корень — в логике закрытой коммерческой модели: закрытые решения строятся на создании «рвы», а для этого необходимо блокировать распространение технологий и монополизировать передовые производственные мощности. Взаимная несовместимость технологических путей и противоположные нарративы продуктов естественным образом формируют равновесие Нэша: кто первым «зайдет на паузу», тот потеряет лицо, и в итоге внутриорганизационные конфликты только усугубляются.

02 Эволюция в открытом секторе

Обратимся к внутренней ситуации — сценарий там кардинально иной.

Более года назад появление DeepSeek-R1 остановило стремительный рост крупных моделей, став первым «звоночком» для «шести маленьких тигров» отечественного рынка. В отличие от Кремниевой долины, где доминирует «акула», поедая всех рыб, DeepSeek сыграл роль «сигового» рыбы, активировав всю экосистему отечественных моделей, и все начали активно поддерживать открытость.

Яркий пример — развитие проекта «Луна Тьмы», который во многом совпадает с траекторией DeepSeek: оба — стартапы с началом в 2023 году, с очень небольшими командами, но высокой плотностью талантов, и оба — приверженцы закона масштабирования.

В июле 2025 года «Луна Тьмы» выпустила первую в мире открыту модель с триллионом параметров — Kimi K2, в техническом отчете прямо указано, что использована MLA-архитектура DeepSeek. Для крупных моделей главная проблема — «память» при обработке сверхдлинных текстов, а революционность MLA — в том, что он умело сжимает кеш KV более чем на 93%.

Благодаря «открытым стандартам» DeepSeek, команда «Луны Тьмы» смогла быстро снизить издержки на inference, не изобретая колесо заново.

Но история не закончилась.

Изучая техническую документацию DeepSeek V4, можно увидеть, что одним из ключевых обновлений стало замену большинства оптимизаторов с AdamW на Muon, что обеспечило более быструю сходимость и лучшую стабильность обучения.

В технической документации Kimi K2.6 также упоминается Muon, который при одинаковых условиях обучения показал в два раза большую эффективность.

Оба модели используют Muon — оптимизатор, предложенный независимым исследователем Keller Jordan в конце 2024 года. Команда «Луны Тьмы», столкнувшись с проблемами AdamW, в начале 2025-го внесла важные инженерные улучшения, добавив Weight Decay, RMS-контроль и назвала его MuonClip.

«Луна Тьмы» первой протестировала Muon на Kimi K2, добившись полной стабильности обучения без «скачков потерь». DeepSeek при обучении V4 также использовал проверенный Muon.

Важно подчеркнуть, что «эволюция» открытых моделей не ведет к их однородности, а движется по пути «разнообразия в единстве».

Например, DeepSeek-V4 сосредоточена на укреплении базовых возможностей модели, создавая основу для конкурентоспособных по характеристикам открытых решений; Kimi K2.6 — на инженерной реализации Agent, решая проблему автономного выполнения долгосрочных задач, открывая путь к реальному применению в производстве.

В этом процессе не было долгих бизнес-переговоров или патентных баталий. В открытом секторе технологические инновации свободно текут, и кто делает лучше — тот и побеждает.

Черпая из открытой экосистемы, дополняя друг друга в технологическом развитии, отечественные разработчики показывают миру альтернативный путь развития AI вне Кремниевой долины.

03 США строят стены, Китай — дороги

Пока восхищаются открытым сотрудничеством, необходимо учитывать и бизнес-реальность.

Сейчас доходы OpenAI и Anthropic превышают по миллиардам долларов в год, а ведущие отечественные модели только перешагнули порог в 1 миллиард долларов.

Оценка OpenAI на вторичном рынке — около 880 миллиардов долларов, а оценка Anthropic — около 1 триллиона, в то время как Kimi и DeepSeek на новом раунде финансирования оцениваются в 18 и 20 миллиардов долларов соответственно.

Некоторые считают, что рыночная капитализация отечественных моделей недооценена, другие — что «превратить технологический авторитет в реальные деньги» — главный вызов для китайских компаний. В результате обсуждение «цены за качество» открытых моделей достигло апогея.

Чтобы понять исход, можно рассмотреть этапы конкуренции в развитии моделей:

Первый — «параметры и бенчмарки». К апрелю 2026 года этот этап завершится, и разрыв в результатах на лидерских позициях станет минимальным.

Второй — «эффективность обучения, стоимость inference, архитектурные инновации». Это — текущий этап, вызванный ростом затрат на вычислительные ресурсы.

Третий — «экосистема Agent, развитие платформ, привлечение разработчиков». Когда токены станут «топливом» для выполнения задач, их распространение определит успех.

Какова позиция отечественных открытых моделей? Есть две очевидные метрики.

Первая — затраты на обучение.

В августе 2025 года GPT-5 обошлась в более 500 миллионов долларов; в то время как Kimi K2 Thinking — около 4,6 миллиона долларов; DeepSeek не публиковала точных данных по стоимости обучения V4, но V3 — всего 5,58 миллиона долларов… отечественные модели используют менее 1% ресурсов OpenAI и достигают аналогичных результатов.

Вторая — объем вызовов.

К 2026 году платформа OpenRouter показывает, что под влиянием Agent-продуктов, таких как OpenClaw, глобальный расход токенов растет экспоненциально, а отечественная «команда мечты» по открытым моделям, благодаря «удобству и дешевизне», уже несколько недель подряд превосходит США по вызовам.

Объяснение простое.

Отечественный сектор уже реализовал «обратный цикл положительной обратной связи»: одна компания открывает базовые технологии, другая — внедряет и оптимизирует, а затем делится результатами с сообществом. В отличие от линейного роста закрытых моделей, основанного на огромных вычислительных мощностях, открытая модель — это взрыв инноваций, вызванный столкновением технологий.

По данным JPMorgan, с 2025 по 2030 год потребление токенов для AI-вычислений в Китае вырастет примерно на 330% в год, достигнув 3900 триллионов токенов к 2030 году, что в 370 раз больше уровня 2025.

Это означает, что 2026 год — лишь начальный этап AI-бума, и в ближайшие пять лет ожидается сотни-кратный рост, а окончательные итоги еще не подведены.

Именно вера в долгосрочные возможности, в то время как гиганты Кремниевой долины строят стены, заставляет отечественных разработчиков укреплять путь к AGI через сотрудничество.

04 Итог

Кто из участников этой грандиозной AI-эры добьется успеха в конце? Ответ — не только в моделях, но и в контроле над вычислительными ресурсами. Если сравнить модель с «атомной бомбой», то отечественные вычислительные мощности — это «ракета», способная вывести ее на орбиту.

Обнадеживает то, что интеграция отечественных моделей и вычислительных ресурсов становится все теснее: в технической документации DeepSeek V4 указано, что Ascend NPU и GPU Nvidia включены в список аппаратных средств для тестирования; в последней статье «Луны Тьмы» модель inference работает на разных чипах, что открывает путь к масштабному участию отечественных чипов в моделировании.

В начале 2025 года DeepSeek R1 получил шанс выйти на рынок отечественных моделей; к 2026 году отечественный сектор открытых моделей продолжает совместное развитие, создавая новые «железные» правила игры.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить