DeepSeek-V4 започаткував новий механізм уваги, що здійснює стиснення по вимірюванню токенів, поєднуючи з розрідженою увагою DSA (DeepSeek Sparse Attention), що забезпечує провідні у світі можливості довгого контексту, а також значно знижує вимоги до обчислень і пам’яті відеокарти у порівнянні з традиційними методами.

Не недооцінюйте, DeepSeek-V4 значно зменшує потребу у обчислювальних ресурсах і пам’яті.

Майто вважає, що це безпосередньо послабить переваги GPU від NVIDIA. Варто зазначити, що DeepSeek-V4 також пріоритетно адаптується під вітчизняні чипмейкери.

Інакше кажучи, не переоцінюйте захисний вал NVIDIA, і не недооцінюйте ту архітектурну революцію, яку викликає DeepSeek. Головне тут — не “хто кого замінить”, а розподіл прибутків у ланцюжку AI-індустрії, шляхи розгортання та інвестиційна логіка, які, можливо, змінюються.

Танець у “ланцюгах”

За останні два роки основний фокус великих моделей AI був на тренуванні, на обчислювальній потужності.

В певній мірі конкуренція у базових моделях AI — це конкуренція інфраструктури GPU. Хто зможе придбати більше високопродуктивних GPU, хто зможе зібрати більші кластери, той має більше шансів створити потужнішу базову модель.

Однак через американські експортні обмеження, заборону продажу топових чипів H100/H200 до Китаю, а також через блокування передових технологій TSMC, вітчизняні GPU все ще відстають від NVIDIA.

“Вітчизняні виробники GPU — це як ті, хто змагається у “ланцюгах”, маючи “ланцюгові кайдани”,” — так описував один з представників GPU-компаній.

Цікаво, що саме в таких несприятливих умовах за останні два роки різниця між китайськими та американськими моделями AI почала зменшуватися, навіть майже вирівнюватися.

Наприкінці 2023 року, за різними показниками, різниця у продуктивності між топовими моделями Китаю та США залишалася у межах 20-30%. 14 квітня Стенфордський університет опублікував “Звіт про індекс AI 2026”, який охоплює 423 сторінки авторитетної галузевої аналітики. У ньому зазначається, що різниця у продуктивності моделей Китаю та США зменшилася до 2.7%, фактично досягнувши технічного рівня.

Майто вважає, що якщо сприймати цю різницю у продуктивності як результат, то GPU NVIDIA не є визначальним фактором.

Це частково пояснюється зростанням вітчизняних чипів та розвитком енергетичної інфраструктури в Китаї.

Хуань Женьхун у недавньому інтерв’ю зазначив: “AI — це по суті питання паралельних обчислень, і Китай цілком може компенсувати різницю у технології окремих чипів, збиравши більше таких чипів. У Китаї є достатньо енергії, і якщо захочуть, можуть об’єднати ще більше чипів, навіть якщо технологія відстає на кілька нанометрів.”

Насправді багато вітчизняних виробників GPU вже створили кластери з тисячі карт, щоб компенсувати слабкість окремих карт. Наприклад, кластер з тисячі карт Mooresque, кластер з тисячі карт MuXi’s Xiyuan-1SADA.

З іншого боку, зростає роль великих моделей, таких як DeepSeek, які виходять на передній план.

DeepSeek використовує передові програмні рішення, щоб активно адаптуватися і підтримувати вітчизняне апаратне забезпечення, прокладаючи шлях для вітчизняних чипів.

Наприклад, DeepSeek-V3 підтвердив можливість використання FP8 для тренування масштабних моделей, розширюючи масштаб тренувань без додаткових витрат і не погіршуючи якість.

Уявімо: раніше для виконання складних AI-завдань потрібно було кілька великих, точних і дорогих машин із Німеччини (представляючи високоточні GPU NVIDIA). Тепер, за допомогою зміни процесу обробки завдання (зміни формату даних), цю задачу можна ефективно виконати за допомогою десятків маленьких, простих і дешевих вітчизняних машин (представляючи обчислювальні блоки вітчизняних GPU).

Навіть за таких умов, GPU NVIDIA все ще дає перевагу у тренуванні великих моделей.

Але з точки зору розвитку індустрії, тренування великих моделей — це лише перша фаза. Після створення моделі, справжнім фактором швидкості комерціалізації та проникнення у галузь є inference (виведення). Особливо після популяризації агентів, таких як Openclaw і Hermes.

NVIDIA виграла у тренуванні, але inference — це лише початок

Тренування і inference — це різні режими.

Вибух популярності агентів типу Claw зумовлений здатністю довгого контексту.

Раніше AI міг лише спілкуватися і забував все одразу, — “риба у пам’яті”; а Claw може запам’ятати все, працювати безперервно, ставати розумнішим з часом, — пам’ять перетворює його з “іграшки” у “інструмент”.

Коли довжина контексту зростає, пам’ять агента поглиблюється, а частота викликів інструментів зростає, пам’ять GPU (KV cache) може заповнитися, і якість inference почне падати.

Отже, перша проблема у вибуху inference — не у обчислювальній потужності, а у “пам’яті” та “обчисленнях”, які борються за одне й те саме відеопам’ять.

Для вітчизняних GPU головною проблемою є не продуктивність (пікові TFLOPS), а пам’ять. А у GPU NVIDIA перевага у технології пам’яті (HBM) — на 1-2 покоління вперед.

Головні GPU для дата-центрів NVIDIA (як A100, H100) зазвичай мають 80 ГБ пам’яті на карту, тоді як новий Rubin GPU оснащений 8-ма 36-ГБ модулями HBM4 (загалом 288 ГБ), пропускна здатність пам’яті зросла до 13 ТБ/с.

Вітчизняні чипи через відставання у технології мають менший об’єм пам’яті і пропускну здатність, і їм потрібно прориватися. Наприклад, пам’ять у Ascend 910B — 64 ГБ.

Згідно з попередніми дослідженнями, опублікованими Лян Веньфенгом, DeepSeek-V4, ймовірно, використовує унікальну архітектуру Engram, яка саме вирішує проблему обмеженості пам’яті.

DeepSeek-V4 зберігає “зубріння” статичних знань у великий пам’ятний масив; під час inference CPU відповідає за “пошук у словнику” (запит знань), а GPU — за “логіку” (обчислення). Обидва процеси виконуються одночасно. Коли GPU обчислює логіку слова, CPU вже підвантажує потрібні знання. Завдяки цій паралельній архітектурі затримки зводяться до мінімуму, і продуктивність AI за часом зростає у геометричній прогресії, а пам’ять GPU не заповнюється KV cache.

Наприклад, завдання з довгим контекстом, яке раніше вимагало 80 ГБ пам’яті, тепер може виконуватися всього за 8 ГБ.

Це означає, що вітчизняні GPU при обмеженості пам’яті зможуть виконувати ті ж завдання, що й NVIDIA, а недолік HBM — руйнується. Водночас, CPU також отримає поштовх до розвитку.

Крім того, важливо, що DeepSeek-V4 скоро буде представлений, і цього разу без традиційного раннього доступу для NVIDIA, усі можливості адаптації залишили Huawei і Cambricon. Мета — повністю перейти з екосистеми CUDA на фреймворк CANN від Huawei.

Хоча екосистема CUDA NVIDIA у короткостроковій перспективі залишиться домінуючою, вже з’являються тріщини. Це означає, що DeepSeek і далі зберігатиме свою сильну позицію у відкритій та вітчизняній екосистемах.

За повідомленнями ЗМІ, щоб задовольнити потреби хмарних сервісів на базі цієї моделі, такі гіганти, як Alibaba, ByteDance і Tencent, вже зробили попередні замовлення нових AI-чипів Huawei на сотні тисяч штук.

Очікується, що і DeepSeek-V4, і надалі привнесуть нові очікування у сферу інвестицій у AI.

Нові інвестиційні очікування

З точки зору інвестицій, Майто вважає, що DeepSeek-V4 безпосередньо позитивно вплине на два напрями: вітчизняні обчислювальні ресурси та застосування AI.

1. Вітчизняні обчислювальні ресурси

Якщо DeepSeek-V4 підтвердить, що тренувався виключно на вітчизняних обчислювальних ресурсах, це стане “моментом DeepSeek” у історії вітчизняних чипів. Це доведе, що навіть без H100 можна створювати світові масштабні моделі.

Це матиме надзвичайно сильний ефект. Це не гірше за те, що Google тренував Gemini на власних TPU-чипах. Варто пам’ятати, що Google вже входить до портфелю Беркшира Воррена Баффета.

Раніше ринок очікував від вітчизняних обчислювальних ресурсів лише “самодостатності”, а V4 піднесе цю логіку до рівня “зручності та необхідності” для бізнесу.

Найбільшими вигодонабувачами стануть виробники вітчизняних GPU. Huawei і Cambricon вже зробили заяви. Інші виробники також активно адаптуються під великі моделі DeepSeek. З точки зору ймовірності, найбільше виграють саме Huawei, Cambricon, вітчизняні сервери та суміжні компанії.

До 2026 року, за прогнозами аналітичних агентств, таких як Wind, доходи компаній, що випускають AI-чипи, зростуть приблизно на 120%, до 25,7 мільярдів юанів.

Крім того, з точки зору фінансової стабільності, MuXi’s股份 прогнозує, що до 2026 року компанія зможе вийти з збитків і стати ще однією прибутковою вітчизняною GPU-компанією, завершивши цикл бізнесу.

Отже, вітчизняні обчислювальні ресурси залишатимуться ключовим напрямом для інвестицій у AI.

2. Застосування AI

Крім адаптації під inference на вітчизняних обчислювальних ресурсах, DeepSeek-V4 може за рахунок інноваційної архітектури (mHC і Engram) ще більше знизити витрати на тренування і inference, прискорюючи інноваційний цикл у сфері AI в Китаї.

Також DeepSeek має потенціал прискорити комерціалізацію великих мовних моделей і AI-застосунків у світі, що допоможе зменшити тиск на капітальні витрати.

З впровадженням архітектури Engram потреба у відеопам’яті для GPU зменшиться на 90%, а апаратні витрати на inference — значно знизяться. Це стане важливим плюсом для розгортання на кінцевих пристроях (edge AI inference).

Крім того, з січня цього року сектор AI-застосунків на A-акціях демонструє слабкий ріст, головною проблемою є страх “з’їдання” великими моделями програмного забезпечення. AI-застосунки вже перейшли у фазу “жорсткої конкуренції”.

Однак вихід DeepSeekV4 може покращити цю ситуацію. Для вітчизняних компаній у сфері застосунків великі моделі — це швидше дешеві інфраструктурні рішення, що допомагає оптимізувати витрати.

Майто вважає, що AI-застосунки, тісно пов’язані з ключовими даними, а також відповідні хмарні сервіси, зможуть отримати додатковий поштовх.

Коротко

NVIDIA залишається найсильнішою інфраструктурою для тренування великих моделей, і це беззаперечно. У короткостроковій перспективі її переваги у високопродуктивних GPU, екосистемі CUDA і кластерних рішеннях залишаться незаперечними.

Однак не можна ігнорувати, що переваги NVIDIA поступово руйнуються за допомогою “кривої” DeepSeek.

DeepSeek-V4 першою адаптує вітчизняні чипи і демонструє, що інференс не обов’язково має залежати лише від найдорожчих GPU. Системна оптимізація, софтверна співпраця і локалізація можуть відкрити нові шляхи. А вітчизняні обчислювальні ресурси — ще один крок уперед.

Не переоцінюйте NVIDIA і не недооцінюйте DeepSeek і вітчизняні обчислювальні ресурси.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
184.61K Популярність
#
CryptoMarketSeesVolatility
246.73K Популярність
#
IsraelStrikesIranBTCPlunges
32.23K Популярність
#
rsETHAttackUpdate
81.89K Популярність
#
US-IranTalksStall
196.72K Популярність

Закріпити

карта сайту

Не переоцінюйте NVIDIA, не недооцінюйте DeepSeek

Танець у “ланцюгах”

NVIDIA виграла у тренуванні, але inference — це лише початок

Нові інвестиційні очікування

Коротко

Популярні теми

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Закріпити