Редакторський коментар: За минулий рік дискусії навколо DeepSeek здебільшого зосереджувалися на продуктивності моделей, відкритому коді та ціновій війні. Але якщо розглядати DeepSeek лише з точки зору «продаж підписки», «наявність мультимодальності» або «можливість створення coding agent», можна недооцінити те, що вона справді прагне змінити.

Ця стаття висуває більш радикальну оцінку: ціль DeepSeek можливо не у короткостроковій монетизації через застосунки, а у переформуванні структури витрат на тренування та виведення моделей через низку інновацій у базовій архітектурі, що опосередковано сприятиме формуванню нової екосистеми апаратного забезпечення. Від MoE, MLA до DSA, CSA, mHC, Engram, а також Dual Path і TileLang — технічний шлях DeepSeek постійно зосереджений навколо одного ключового питання: як за умов обмеженості HBM, передових технологій виробництва, пакування та екосистеми CUDA, запускати потужні моделі з меншими затратами висококласних обчислювальних ресурсів.

Найцінніше в статті — не питання «чи зможе DeepSeek заробити кілька мільярдів доларів через API або підписки», а те, чи вона справді об’єднує можливості моделей, пам’ять та вітчизняну апаратну екосистему. Стиснення KV Cache зменшує залежність від HBM, NAND та SSD можуть зберігати довготривалі кеші, LPDDR — використовуватися для потокової загрузки ваг та збереження Engram, а TileLang — намагається послабити «купол» CUDA. Якщо ці інновації поширяться, вигоду отримають не лише DeepSeek, а й сфера зберігання даних, ASIC, GPU, мережеві чипи та вся ланцюг AI-інфраструктури.

Звісно, судження про «індустрію вартістю 10 трильйонів доларів» і «оцінку у 1 трильйон доларів» залишаються гіпотетичними. Але вони відкривають важливий шлях до розуміння DeepSeek: відкритий код не обов’язково означає відмову від комерціалізації, а низька ціна — не лише спосіб підтримки ринку. Для DeepSeek справжній бізнес, можливо, полягає не у застосунках, а у допомозі зробити апаратне забезпечення більш доступним і знизити вартість AI-послуг. Іншими словами, вона продає не модель сама по собі, а потенціал нової генерації AI-інфраструктури.

Нижче — оригінальний текст:

Чи замислювалися ви, як саме DeepSeek планує заробляти і чи зможе вона заробити багато?

Вона не пропонує конкурентоспроможних підписних програм для програмування, як GLM, MoonShot або MiniMax; також у неї немає мультимодальних, аудіо- чи відеомоделей. До цього моменту у неї навіть немає власної обгортки (harness), тобто зовнішнього фреймворку для викликів моделей, інтеграції інструментів і виконання задач — хоча останнім часом вони почали наймати відповідних фахівців для створення такої системи.

Між тим, DeepSeek, здається, довгий час твердо стоїть на боці відкритого коду і навіть із задоволенням ділиться своїми «секретами». Чи не це безумство? Чи не марна трата грошей? Чи не викидають інвестори, готові вкласти 10 мільярдів доларів, свої кошти у порожнечу?

Я особисто вважаю, що навпаки.

Далі я поділюся спостереженнями щодо вже зробленого DeepSeek і проаналізую її стратегічний курс. Мета CEO DeepSeek, Лян Веньфена, можливо, значно ширша за конкуренцію моделей. Він, ймовірно, прагне не лише короткострокової монетизації, а досягнення більшої мети: DeepSeek має шанс вийти на оцінку у 1 трильйон доларів і водночас сприяти формуванню нової індустрії вартістю у 10 трильйонів доларів.

Репортаж TechInAsia про останнє раунду фінансування DeepSeek

Повторний погляд на «геройську подорож» DeepSeek

DeepSeek постійно йде проти течії. Вона не зупиняється на тому, щоб просто випускати все більш потужні моделі і швидко перетворювати їх у застосунки з прямим доходом, наприклад, підписки для програмування. 27 січня 2025 року я опублікував популярний твіт, у якому описав «геройську подорож» DeepSeek. Тепер ця історія стала ще цікавішою.

Коли інші намагаються створити щільні моделі, DeepSeek обрала складнішу стратегію — експертні гібридні моделі (Mixture of Experts, MoE).

Вони застосували «принцип першої основи», винайшовши новий алгоритм GRPO, який замінює популярний тоді PPO для підсиленого навчання, але з меншими витратами.

Вони виявили, що підкріплене навчання на основі підтверджених нагород (Reinforcement Learning from Verified Rewards, RLVR) — ключова стратегія підвищення здатності моделей до виведення.

Також вони запропонували просту стратегію декодування — «багатоконтрольне передбачення» (Multi Token Prediction), що зробило тренувальні сигнали більш щільними.

Вони вдосконалили «нульовий пузир» (ZERO bubble) для підвищення ефективності використання обмежених GPU-ресурсів.

Вони створили балансувальник навантаження експертів, що полегшує розгортання MoE-моделей. Зокрема, за допомогою «широкої паралельної роботи експертів» (Wide Expert Parallel) моделі можна обробляти більші пакети даних, що значно знижує вартість виведення.

Вони винайшли механізми MLA, DSA, CSA, HCA для зменшення потреби у KV Cache і підтримки стабільної роботи при зростанні довжини контексту.

Також вони створили Engram — обмін пам’яттю на обчислювальну ефективність.

Ще вони розробили mHC, що дозволяє масштабувати модель без втрати стабільності тренування. Аналогічних прикладів багато.

У «геройській подорожі» герой не починає з визначеного кінця. Він навчається на шляху, відкриваючи свою справжню місію, долаючи перешкоди. Він ігнорує скептиків, стикається з ворогами, має недоліки, але з часом подолає їх і досягне мети. Він знаходить союзників, вчиться використовувати ресурси розумно. Саме це викликає у глядачів бажання підтримати героя. Саме тому DeepSeek здобула прихильність, повагу і опонентів.

Як я детальніше поясню нижче, DeepSeek вже давно йде цим шляхом і поступово відкриває свою кінцеву мету: не продавати підписки для програмування, а сприяти формуванню китайської AI-апаратної екосистеми вартістю у 10 трильйонів доларів і досягти оцінки у 1 трильйон доларів. У цьому процесі вона створює можливості для нових гравців із західної сфери.

Почнемо з цікавих обчислень KV Cache

Зверніть увагу на недавній твіт @SemiAnalysis_:

DeepSeek вже вирішила цю проблему краще за будь-кого!

Зробимо кілька цікавих обчислень щодо KV Cache. Не хвилюйтеся, навіть якщо математика не ваша сильна сторона. Ми використаємо нещодавно випущений калькулятор KV Cache, щоб оцінити, скільки DeepSeek V4 Pro економить KV Cache у порівнянні з новими моделями GLM і Qwen.

Обчислюємо для контексту довжиною близько 1 мільйона, припускаючи точність KV у 8 біт, індексатор — у 16 біт. Можете самі спробувати: https://kvcache.ai/tools/kv-cache-calculator/

Ви також можете спробувати цей калькулятор самі!

При довжині контексту 1 мільйон:

· DeepSeek V4 потребує лише 5.48 ГБ HBM;
· GLM-5 — 60 ГБ HBM;
· Qwen3-235B-A22B — до 89 ГБ HBM.

Зверніть увагу:

· DeepSeek — модель з 1.6 трильйонами параметрів;
· GLM-5 — приблизно 700 мільярдів параметрів, вже використовує MLA і DSA від DeepSeek, але ще без нових механізмів стиснення уваги;
· Qwen3-235B-A22B — близько 235 мільярдів параметрів, з GQA увагою.

DeepSeek вже зробила важливий внесок у зменшення пам’ятних навантажень. Якщо ці інновації поширяться, вони суттєво знизять витрати на запуск агентів із довгим циклом і відкриють нові сфери застосування.

Порівняння KV Cache для контексту 1 мільйон токенів і масштабів моделей

«Безумство» — методологія

Малий об’єм KV Cache при збереженні високої якості моделі — це і є причина, чому DeepSeek може пропонувати довготривале кешування за дуже низькою ціною — навіть менше ніж 3% від вартості кешування Sonnet 4.6, і з можливістю зберігати кеші кілька годин.

Для задач із довгим циклом менший KV Cache означає, що його можна економічно вивантажити на SSD і при потребі швидко зчитати назад. Це зменшує залежність від HBM. З точки зору китайської AI-індустрії, HBM — не лише дефіцитний ресурс, а й один із найскладніших у виробництві типів пам’яті.

Крім того, DeepSeek розробила технологію швидшого завантаження KV Cache з SSD, що описано у їхній статті про Dual Path.

DeepSeek V4 досягла значного стиснення KV Cache — можливо, цей крок і взагалі стане непотрібним.

Хто найбільше виграє від стиснення KV Cache?

Хто постачає SSD у великих обсягах? Не забувайте, що YMTC (Yangtze Memory Technologies) стає гігантом у сфері 3D NAND. NAND допомагає DeepSeek уникнути повторних обчислень KV. У свою чергу, DeepSeek створює величезний ринок для NAND і SSD — це вигідно не лише YMTC, а й іншим виробникам.

Але це не лише про NAND і SSD.

LPDDR також має великий потенціал. Вона може зберігати ваги моделей і потоково передавати їх у HBM за потреби, зменшуючи навантаження на HBM. Команда SGLang вже публікувала корисний блог про цю ідею. Нижче — схема роботи цієї системи.

Хоча DeepSeek не розробила спеціальних рішень саме для цього, її архітектура MoE, наявність багатьох експертних моделей і 4-бітних ваг роблять цю ідею більш реалізовуваною.

Ця схема ілюструє, як пам’ять може використовуватися, і як ваги моделей потоком передаються з LPDDR у HBM. Рекомендуємо ознайомитися з блогом SGLang.

Якщо цю інновацію поєднати з дуже компактним і беззбитковим KV Cache, залежність від HBM зменшиться ще більше.

Хто в Китаї виробляє LPDDR? Відповідь — CXMT (ChangXin Memory Technologies). Вони лише на півтора покоління відстають у швидкості, і на одне покоління — у щільності пам’яті, тому різниця незначна.

Крім NAND, у найближчому майбутньому в Китаї буде достатньо LPDDR для підтримки AI-індустрії. Це допоможе зменшити обчислювальний тиск? Відповідь — так. Детальніше — далі.

Розумне використання пам’яті також зменшує навангання GPU / ASIC

Використання NAND для зберігання KV Cache цілком зрозуміле: воно дозволяє зберігати кеші довше, зменшує навантаження на HBM і уникає повторних обчислень KV Cache, що зменшує навантаження на GPU і ASIC.

А чи може LPDDR виконувати подібну роль? Окрім зберігання ваг, вона може потоково передавати їх у HBM, зменшуючи навантаження на нього. Чи здатна вона ще й знижувати обчислювальні витрати?

Відповідь — так.

LPDDR може зберігати велику кількість так званих Engram. У статті DeepSeek про Engram зазначено, що MoE може розширювати модель за допомогою умовних обчислень, але сам трансформер позбавлений вбудованого механізму «пошуку знань». Тому трансформери часто імітують пошук шляхом неефективних обчислень.

Щоб вирішити цю проблему, DeepSeek запропонувала модуль Engram. Він модернізував класичний N-грамовий embedding у хешований O(1) механізм пошуку, створюючи додатковий шлях — умовну пам’ять (conditional memory).

Цей підхід економить обчислення, але вимагає пам’яті для зберігання таблиці embedding, яка може бути дуже великою.

За суттю, це класичне рішення «пам’ять замість обчислень». Головна ідея — з точки зору вартості зчитування кожного біта даних, «пам’ять» набагато дешевша. Одна операція пошуку в LPDDR коштує значно менше, ніж проходження через кілька трансформерів для передбачення. Тому у великих сценаріях це вигідна угода.

Саме так DeepSeek досягає економії, жертвуючи частиною пам’яті.

Важливі компроміси

Через відсутність чіпів із високою щільністю транзисторів і технології EUV, китайські GPU та ASIC, ймовірно, довго залишатимуться позаду західних у FLOPs. Вони також мають суттєві прогалини у передовій упаковці. Тому такі компроміси цілком виправдані, особливо за умови масового виробництва NAND і LPDDR у Китаї.

Розглядаючи довгострокову стратегію DeepSeek

З огляду на ці інновації, ціль DeepSeek — не у короткостроковому отриманні кількох мільярдів доларів прибутку. Багато її рішень свідчать про інше: наразі у неї немає мультимодальних моделей, голосових систем або відео. Вона бере участь у довгостроковій грі — формуванні альтернативної AI-апаратної екосистеми вартістю у 10 трильйонів доларів.

Це не лише для того, щоб зробити китайських виробників пам’яті ключовими гравцями на глобальному ринку AI-апаратури, а й для зниження ресурсних витрат на тренування і сервіс AI-моделей. Це відкриває можливості для інших гравців — GPU, ASIC, мережевих чипів — стати частиною цієї системи.

Крім того, ці інновації принесуть користь і західним відкритим проектам, і новим виробникам апаратного забезпечення.

Всі ознаки вже є. Давайте коротко підсумуємо основні інновації, запропоновані DeepSeek:

Введення MoE та MLA у DeepSeek V2
DSA — для зменшення обчислювальних витрат при довгому контексті, зменшення навантаження на HBM
mHC — у статті «mHC: Manifold-Constrained Hyper-Connections» (грудень 2025)
CSA і HSA — у DeepSeek V4 (квітень 2026)
Engram — у першому кварталі 2026 року, обмін пам’яттю на ефективність
Аналогічно, Engram допомагає підвищити продуктивність при однаковому бюджеті параметрів
Інвестиції у TileLang — для розвитку китайської апаратної екосистеми, здатної конкурувати з західною, з можливістю запуску на різних платформах через підтримку TileLang
Підвищення здатності до довготривалого навчання та RL — для тренувань з тривалим контекстом і автоматизації досліджень (RSI)
Впровадження у світ інших AI-лабораторій та компаній, зокрема, використання MLA, DSA, Muon і інших технологій у їхніх моделях.

Якщо подивитися на приклади, то:

ZAI використовує MLA і DSA;
Kimi (MoonShot) застосовує MLA і базується на архітектурі DeepSeek;
Muon — оптимізатор, створений Keller Jordan у 2024 році, перший застосований у масштабних тренуваннях Kimi.

Як щодо заробітку?

Розглянемо цікавий приклад — OpenAI.

OpenAI отримала опціони на купівлю акцій AMD і Cerebras за низькою ціною, прив’язані до досягнення певних цілей у споживанні обчислювальних ресурсів. Це вигідна угода для AMD і Cerebras, оскільки обіцянка OpenAI використовувати їхнє обладнання підвищує ймовірність їхнього довгострокового успіху.

У заяві AMD зазначено:

«У рамках угоди, для подальшої координації стратегічних інтересів, AMD випустила OpenAI опціони на купівлю до 160 мільйонів акцій AMD, які будуть поступово нараховуватися при досягненні певних цілей. Перша частина — при завершенні розгортання 1 Гігава, наступні — при збільшенні закупівель до 6 Гігава. Умови також залежать від досягнення цінових цілей AMD і технічних, бізнесових цілей OpenAI, необхідних для масштабного розгортання AMD.»

Я очікую, що DeepSeek укладе подібні угоди з кількома китайськими виробниками пам’яті, ASIC, CPU і мережевих технологій, щоб допомогти їм створити конкурентоспроможний апаратний стек для провідних AI-завантажень.

З урахуванням того, що ринкова капіталізація західних і східних компаній у сфері AI вже перевищує 10 трильйонів доларів, такий «співпраця через участь у капіталі» дасть DeepSeek шанс допомогти Китаю створити не менш масштабну індустрію і отримати свою частку. Це дозволить їй досягти оцінки у 1 трильйон доларів.

Це не лише принесе DeepSeek значний дохід, але й допоможе реалізувати ідею «зробити AGI корисним для кожного». Власне, Лян Веньфен — прихильник Джима Саймонса і досвідчений капіталіст, він не пропустить цю можливість.

Якщо подивитися на все, що зробила DeepSeek, єдина логічна причина — саме ця.

Це ключові компанії у сфері AI. У схемі ще не враховано гігантів хмарних сервісів (hyperscalers) та інших компаній.

[Посилання на оригінал]

Дізнайтеся більше про вакансії в BlockBeats

Приєднуйтесь до офіційної спільноти BlockBeats:

Telegram-канал: https://t.me/theblockbeats

Telegram-група: https://t.me/BlockBeats_App

Офіційний Twitter: https://twitter.com/BlockBeatsAsia

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

6 лайків

Нагородити
6
10
1
Поділіться

Прокоментувати

Додати коментар

ThereAreCatsInTheContract.

· 52хв. тому

Тому DeepSeek — це гра у більшу гру.