DeepSeek-V4 создал совершенно новую механизм внимания, сжатие по токенам, объединённое с DSA-редким вниманием (DeepSeek Sparse Attention), что обеспечивает передовые возможности для обработки длинных контекстов и значительно снижает требования к вычислениям и видеопамяти по сравнению с традиционными методами.

Не стоит недооценивать, DeepSeek-V4 значительно снизил требования к вычислительным ресурсам и видеопамяти.

Мяо Тоу считает, что это напрямую ослабит преимущества GPU от Nvidia. Важно отметить, что DeepSeek-V4 также в первую очередь адаптирован под отечественные чиповые компании.

Другими словами, не стоит переоценивать защитный барьер Nvidia, и тем более недооценивать архитектурную революцию, которую вызывает DeepSeek. Ключевое — это не «кто кого заменит», а перераспределение прибыли в цепочке индустрии ИИ, пути внедрения и инвестиционная логика, которые могут измениться.

Танцуя в «кандалах»

За последние два года крупные модели ИИ в основном сосредоточены на обучении, где важна вычислительная мощность.

В определённой степени конкуренция в области базовых моделей ИИ — это конкуренция за инфраструктуру GPU. Кто сможет купить больше высококлассных GPU, кто сможет собрать более крупные кластеры — у того больше шансов создать более мощную базовую модель.

Однако из-за экспортных ограничений США, запрещающих продажу таких топовых чипов, как H100/H200, в Китай, а также из-за блокировки передовых технологий TSMC, отечественные GPU всё ещё уступают Nvidia.

«国内GPU厂商都是戴着“镣铐”与英伟达同台竞技的», — так описывает один из представителей GPU-компаний Мяо Тоу.

Интересно, что именно в таких условиях за последние два года разрыв между крупными моделями Китая и США начал постепенно сокращаться, а иногда даже приближаться к равенству.

К концу 2023 года разрыв в производительности между топовыми моделями Китая и США по различным показателям оставался в диапазоне 20%-30%. 14 апреля лаборатория HAI Стэнфордского университета опубликовала «Индекс ИИ 2026», в котором говорится, что разрыв в производительности моделей снизился до 2,7%, практически достигнув технологического равенства.

Мяо Тоу считает, что если рассматривать разрыв в производительности как результат, то GPU Nvidia не является решающим фактором.

Это связано с ростом отечественных чипов и развитой электросетевой инфраструктурой в Китае.

Рекордсмен Джон Ху недавно заявил: «ИИ — это по сути проблема параллельных вычислений, и Китай полностью способен компенсировать разрыв в технологическом процессе, собирая больше чипов. У Китая есть много энергии, и если захотеть, можно объединить больше чипов, даже если технологический процесс отстает на несколько нанометров.»

На практике многие отечественные производители GPU уже создали кластеры из тысяч карт, чтобы компенсировать недостаток вычислительной мощности одной карты. Например: кластер из тысяч карт от Moores, кластер SADA от MuXi.

С другой стороны, ключевым фактором становится появление крупных компаний, таких как DeepSeek, которые создают крупные модели.

DeepSeek использует передовые программные решения, чтобы активно адаптировать и усиливать отечественное оборудование, прокладывая путь для отечественных чипов.

Например: DeepSeek-V3 подтвердил возможность использования FP8 для обучения больших моделей, расширяя масштаб обучения без дополнительных затрат и не ухудшая качество.

Если провести аналогию, раньше для выполнения сложных задач ИИ требовались несколько больших, точных и дорогих немецких станков (представляющих высокоточные GPU Nvidia). Сейчас же DeepSeek меняет процесс обработки задач (то есть формат данных), позволяя выполнять их на десятках небольших, простых и дешёвых отечественных станков (представляющих вычислительные блоки отечественных GPU).

Тем не менее, GPU Nvidia всё ещё превосходит зарубежные крупные модели в обучении.

Но с точки зрения развития индустрии, обучение больших моделей — это только первый этап. После их создания решающим фактором коммерциализации и проникновения в отрасль становится inference (вывод). Особенно после популяризации таких агентов, как Openclaw и Hermes.

Nvidia выиграла в обучении, но inference только начинается

Обучение и inference — это два разных режима.

Взрыв популярности агентов типа Claw обусловлен их способностью к долговременному запоминанию.

Раньше ИИ мог только вести диалог и сразу забывать, — «рыбий» уровень памяти; теперь Claw способен запомнить всё, продолжать работу, становиться лучше с каждым использованием, превращая его из «игрушки» в «инструмент».

Когда длина контекста увеличивается, память агента углубляется, а вызовы инструментов становятся всё чаще, видеопамять GPU может быть переполнена KV-кэшем (кэш памяти), что ухудшает качество вывода.

Поэтому первый барьер для взрыва inference — это не вычислительная мощность, а «память» и «вычисления», конкурирующие за одну и ту же видеопамять.

Для отечественных GPU важнее не пиковая производительность (TFLOPS), а видеопамять. А у Nvidia есть преимущество в технологии видеопамяти — на 1-2 поколения впереди конкурентов.

Основные дата-центровые GPU Nvidia (например, A100, H100) обычно оснащены 80 ГБ видеопамяти, а новая серия Rubin GPU использует 8 чипов HBM4 по 36 ГБ (итого 288 ГБ), с пропускной способностью 13 ТБ/с.

Отечественные чипы ограничены технологическим процессом, у них меньшая ёмкость и пропускная способность видеопамяти, и им нужно прорываться. Например: память Ascend 910B — 64 ГБ.

По данным опубликованной ранее статьи Лян Вэньфэна, DeepSeek-V4, вероятно, использует уникальную архитектуру Engram, которая как раз решает проблему ёмкости видеопамяти.

DeepSeek-V4 реализует идею: извлечь «мёртвую» статическую память модели и поместить её в огромную таблицу памяти; при inference CPU занимается «поиском в словаре» (поиск знаний), а GPU — «логикой» (вычисление).

Эти процессы полностью параллельны. Пока GPU занимается логикой следующего слова, CPU уже подготовил знания для следующего шага. Благодаря такому параллелизму задержки практически исчезают, и эффективность работы AI за единицу времени растёт экспоненциально, а видеопамять GPU не переполняется KV-кэшем.

Например: задача, требующая 80 ГБ видеопамяти для длинного контекста, при архитектуре Engram может потребовать всего 8 ГБ.

Это означает, что отечественные GPU при ограниченной видеопамяти смогут выполнять те же задачи, а преимущества HBM Nvidia — исчезнут. В то же время, CPU тоже получит мощный импульс.

Кроме того, важнее всего, что DeepSeek-V4 скоро выйдет, и в этот раз компания не предоставила Nvidia ранний доступ к тестированию, а полностью сосредоточилась на адаптации под Huawei и Cambricon. Цель — перейти с экосистемы CUDA на платформу CANN от Huawei.

Хотя экосистема CUDA Nvidia в ближайшее время не будет полностью заменена, уже появились трещины. Это означает, что DeepSeek по-прежнему занимает сильную нишу в открытом и отечественном сегменте.

По сообщениям СМИ, чтобы обеспечить облачные сервисы на базе этой модели, такие гиганты, как Alibaba, ByteDance и Tencent, уже сделали предварительные заказы на новые AI-чипы Huawei на десятки тысяч штук.

Можно предсказать, что предстоящий запуск DeepSeek-V4 также внесёт новые ожидания в инвестиции в ИИ.

Новые инвестиционные ожидания

С точки зрения инвестиций, Мяо Тоу считает, что DeepSeek-V4 напрямую положительно скажется на двух направлениях: отечественной вычислительной мощности и приложениях ИИ.

1. Отечественная вычислительная мощность

Если DeepSeek-V4 действительно полностью основан на отечественных вычислительных ресурсах, это станет «моментом DeepSeek» в истории отечественных чипов. Это докажет, что даже без H100 можно запускать мирового уровня крупные модели.

Этот сдвиг превзойдёт все ожидания. Он сравним с запуском Gemini Google на собственных TPU-чипах. Надо помнить, что Google уже входит в портфель Бёркшира Уоррена Баффета.

Ранее рынок воспринимал отечественные вычислительные мощности в основном через призму «самостоятельности и контроля», а V4 переведёт этот посыл в категорию «удобных и необходимых» бизнес-решений.

Наибольшие выгоды получат отечественные производители GPU. Huawei и Cambricon уже заявили о своих планах. Другие отечественные производители также начнут активно адаптировать свои модели под DeepSeek. Исходя из уверенности, наиболее выигрышными будут компании, такие как Huawei, Cambricon, а также производители серверов и сопутствующего оборудования.

К 2026 году, по прогнозам аналитиков, такие компании, как Cambricon, Bairen Technology и Tianshu Zhixin, покажут рост доходов примерно на 120%, достигнув около 25,7 млрд юаней.

Кроме того, по прогнозам, MuXi в 2026 году выйдет из убытков и станет ещё одним прибыльным отечественным GPU-производителем, завершив цикл бизнес-модели.

Следовательно, отечественная вычислительная мощность станет ключевым направлением для инвестиций в ИИ.

2. Применение ИИ

Помимо адаптации под отечественные вычислительные ресурсы для inference, DeepSeek-V4 может за счёт инновационной архитектуры (mHC и Engram) дополнительно снизить затраты на обучение и inference, ускоряя цикл инноваций в китайском секторе ИИ.

Также DeepSeek может помочь глобальным разработчикам крупных языковых моделей и приложений ИИ ускорить коммерциализацию, что снизит давление на капиталовложения.

Благодаря внедрению архитектуры Engram потребность в видеопамяти GPU снизится на 90%, что значительно уменьшит аппаратные расходы на inference. Это особенно важно для внедрения на периферии (edge AI inference).

Кроме того, с января этого года сектор AI-приложений на рынке A-shares показывает слабые результаты, основной причиной чего является страх перед «захватом» больших моделей программным обеспечением. Сейчас индустрия входит в фазу «убийственной логики».

Но запуск DeepSeek-V4 может изменить это настроение. Для отечественных компаний, занимающихся приложениями, крупные модели — это скорее недорогая инфраструктура, которая помогает снизить издержки.

Мяо Тоу считает, что компании, связанные с ключевыми данными и облачными сервисами, также могут ожидать положительных изменений.

Кратко

Nvidia всё ещё остаётся сильнейшей платформой для обучения больших моделей, и это очевидно. В краткосрочной перспективе её преимущества в высококлассных GPU, экосистеме CUDA и кластерных решениях остаются непревзойдёнными.

Однако нельзя игнорировать, что преимущества Nvidia постепенно размываются благодаря усилиям DeepSeek, использующим «кривую спасения» — обходные пути.

DeepSeek-V4 в первую очередь адаптируется под отечественные чипы, а его инновации показывают, что для inference не обязательно использовать самые дорогие GPU Nvidia. Системные оптимизации, софтверное и аппаратное взаимодействие, локализация — всё это открывает новые возможности. А отечественные вычислительные ресурсы могут сделать следующий шаг вперёд.

Не стоит переоценивать Nvidia и недооценивать DeepSeek и отечественные вычислительные мощности.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
WCTCTradingKingPK
176.68K Популярность
#
CryptoMarketSeesVolatility
239.77K Популярность
#
IsraelStrikesIranBTCPlunges
32.09K Популярность
#
rsETHAttackUpdate
78.88K Популярность
#
US-IranTalksStall
191.97K Популярность

Закрепить

Карта сайта

Не переоценивайте Nvidia, не недооценивайте DeepSeek

Танцуя в «кандалах»

Nvidia выиграла в обучении, но inference только начинается

Новые инвестиционные ожидания

Кратко

Популярные темы

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Закрепить