Ф'ючерси
Сотні безстрокових контрактів
CFD
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Pre-IPOs
Отримайте повний доступ до глобальних IPO акцій.
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
Акції
Центр діяльності
Беріть учать та отримуйте винагороди
Реферал
20 USDT
Запрошуйте друзів та отримуйте бонуси
Партнерська програма
Ексклюзивні комісійні винагороди
Gate Booster
Зростайте та отримуйте аірдропи
Оголошення
Оновлення платформи в реальному часі
Блог Gate
Статті про криптоіндустрію
VIP послуги
Величезні знижки на комісії
Управління активами
Універсальне рішення для управління активами
Інституційний
Рішення цифрових активів для бізнесу
Розробники (API)
Підключається до екосистеми додатків Gate
Позабіржовий банківський переказ
Поповнюйте та виводьте фіат
Брокерська програма
Щедрі механізми знижок API
AI
Gate AI
Ваш універсальний AI-помічник для спілкування
Gate AI Bot
Використовуйте Gate AI безпосередньо у своєму соціальному додатку
GateClaw
Gate Блакитний Лобстер — готовий до використання
Gate for AI Agent
AI-інфраструктура, Gate MCP, Skills і CLI
Gate Skills Hub
Понад 10 000 навичок
Від офісу до трейдингу: універсальна база навичок для ефективнішої роботи з AI
GateRouter
Розумний вибір із понад 40 моделей ШІ, без додаткових витрат (0%)
Шлях DeepSeek до трильйонів доларів: використання відкритого коду для стимулювання трильйонної апаратної екосистеми
Редакторський коментар: За минулий рік дискусії навколо DeepSeek здебільшого зосереджувалися на продуктивності моделей, відкритому коді та ціновій війні. Але якщо розглядати DeepSeek лише з точки зору «продаж підписки», «наявність мультимодальності» або «можливість створення coding agent», можна недооцінити те, що вона справді прагне змінити.
Ця стаття висуває більш радикальну оцінку: ціль DeepSeek можливо не у короткостроковій монетизації через застосунки, а у переформуванні структури витрат на тренування та виведення моделей через низку інновацій у базовій архітектурі, що опосередковано сприятиме формуванню нової екосистеми апаратного забезпечення. Від MoE, MLA до DSA, CSA, mHC, Engram, а також Dual Path і TileLang — технічний шлях DeepSeek постійно зосереджений навколо одного ключового питання: як за умов обмеженості HBM, передових технологій виробництва, пакування та екосистеми CUDA, запускати потужні моделі з меншими затратами висококласних обчислювальних ресурсів.
Найцінніше в статті — не питання «чи зможе DeepSeek заробити кілька мільярдів доларів через API або підписки», а те, чи вона справді об’єднує можливості моделей, пам’ять та вітчизняну апаратну екосистему. Стиснення KV Cache зменшує залежність від HBM, NAND та SSD можуть зберігати довготривалі кеші, LPDDR — використовуватися для потокової загрузки ваг та збереження Engram, а TileLang — намагається послабити «купол» CUDA. Якщо ці інновації поширяться, вигоду отримають не лише DeepSeek, а й сфера зберігання даних, ASIC, GPU, мережеві чипи та вся ланцюг AI-інфраструктури.
Звісно, судження про «індустрію вартістю 10 трильйонів доларів» і «оцінку у 1 трильйон доларів» залишаються гіпотетичними. Але вони відкривають важливий шлях до розуміння DeepSeek: відкритий код не обов’язково означає відмову від комерціалізації, а низька ціна — не лише спосіб підтримки ринку. Для DeepSeek справжній бізнес, можливо, полягає не у застосунках, а у допомозі зробити апаратне забезпечення більш доступним і знизити вартість AI-послуг. Іншими словами, вона продає не модель сама по собі, а потенціал нової генерації AI-інфраструктури.
Нижче — оригінальний текст:
Чи замислювалися ви, як саме DeepSeek планує заробляти і чи зможе вона заробити багато?
Вона не пропонує конкурентоспроможних підписних програм для програмування, як GLM, MoonShot або MiniMax; також у неї немає мультимодальних, аудіо- чи відеомоделей. До цього моменту у неї навіть немає власної обгортки (harness), тобто зовнішнього фреймворку для викликів моделей, інтеграції інструментів і виконання задач — хоча останнім часом вони почали наймати відповідних фахівців для створення такої системи.
Між тим, DeepSeek, здається, довгий час твердо стоїть на боці відкритого коду і навіть із задоволенням ділиться своїми «секретами». Чи не це безумство? Чи не марна трата грошей? Чи не викидають інвестори, готові вкласти 10 мільярдів доларів, свої кошти у порожнечу?
Я особисто вважаю, що навпаки.
Далі я поділюся спостереженнями щодо вже зробленого DeepSeek і проаналізую її стратегічний курс. Мета CEO DeepSeek, Лян Веньфена, можливо, значно ширша за конкуренцію моделей. Він, ймовірно, прагне не лише короткострокової монетизації, а досягнення більшої мети: DeepSeek має шанс вийти на оцінку у 1 трильйон доларів і водночас сприяти формуванню нової індустрії вартістю у 10 трильйонів доларів.
Повторний погляд на «геройську подорож» DeepSeek
DeepSeek постійно йде проти течії. Вона не зупиняється на тому, щоб просто випускати все більш потужні моделі і швидко перетворювати їх у застосунки з прямим доходом, наприклад, підписки для програмування. 27 січня 2025 року я опублікував популярний твіт, у якому описав «геройську подорож» DeepSeek. Тепер ця історія стала ще цікавішою.
Коли інші намагаються створити щільні моделі, DeepSeek обрала складнішу стратегію — експертні гібридні моделі (Mixture of Experts, MoE).
Вони застосували «принцип першої основи», винайшовши новий алгоритм GRPO, який замінює популярний тоді PPO для підсиленого навчання, але з меншими витратами.
Вони виявили, що підкріплене навчання на основі підтверджених нагород (Reinforcement Learning from Verified Rewards, RLVR) — ключова стратегія підвищення здатності моделей до виведення.
Також вони запропонували просту стратегію декодування — «багатоконтрольне передбачення» (Multi Token Prediction), що зробило тренувальні сигнали більш щільними.
Вони вдосконалили «нульовий пузир» (ZERO bubble) для підвищення ефективності використання обмежених GPU-ресурсів.
Вони створили балансувальник навантаження експертів, що полегшує розгортання MoE-моделей. Зокрема, за допомогою «широкої паралельної роботи експертів» (Wide Expert Parallel) моделі можна обробляти більші пакети даних, що значно знижує вартість виведення.
Вони винайшли механізми MLA, DSA, CSA, HCA для зменшення потреби у KV Cache і підтримки стабільної роботи при зростанні довжини контексту.
Також вони створили Engram — обмін пам’яттю на обчислювальну ефективність.
Ще вони розробили mHC, що дозволяє масштабувати модель без втрати стабільності тренування. Аналогічних прикладів багато.
У «геройській подорожі» герой не починає з визначеного кінця. Він навчається на шляху, відкриваючи свою справжню місію, долаючи перешкоди. Він ігнорує скептиків, стикається з ворогами, має недоліки, але з часом подолає їх і досягне мети. Він знаходить союзників, вчиться використовувати ресурси розумно. Саме це викликає у глядачів бажання підтримати героя. Саме тому DeepSeek здобула прихильність, повагу і опонентів.
Як я детальніше поясню нижче, DeepSeek вже давно йде цим шляхом і поступово відкриває свою кінцеву мету: не продавати підписки для програмування, а сприяти формуванню китайської AI-апаратної екосистеми вартістю у 10 трильйонів доларів і досягти оцінки у 1 трильйон доларів. У цьому процесі вона створює можливості для нових гравців із західної сфери.
Почнемо з цікавих обчислень KV Cache
Зверніть увагу на недавній твіт @SemiAnalysis_:
DeepSeek вже вирішила цю проблему краще за будь-кого!
Зробимо кілька цікавих обчислень щодо KV Cache. Не хвилюйтеся, навіть якщо математика не ваша сильна сторона. Ми використаємо нещодавно випущений калькулятор KV Cache, щоб оцінити, скільки DeepSeek V4 Pro економить KV Cache у порівнянні з новими моделями GLM і Qwen.
Обчислюємо для контексту довжиною близько 1 мільйона, припускаючи точність KV у 8 біт, індексатор — у 16 біт. Можете самі спробувати: https://kvcache.ai/tools/kv-cache-calculator/
При довжині контексту 1 мільйон:
· DeepSeek V4 потребує лише 5.48 ГБ HBM;
· GLM-5 — 60 ГБ HBM;
· Qwen3-235B-A22B — до 89 ГБ HBM.
Зверніть увагу:
· DeepSeek — модель з 1.6 трильйонами параметрів;
· GLM-5 — приблизно 700 мільярдів параметрів, вже використовує MLA і DSA від DeepSeek, але ще без нових механізмів стиснення уваги;
· Qwen3-235B-A22B — близько 235 мільярдів параметрів, з GQA увагою.
DeepSeek вже зробила важливий внесок у зменшення пам’ятних навантажень. Якщо ці інновації поширяться, вони суттєво знизять витрати на запуск агентів із довгим циклом і відкриють нові сфери застосування.
«Безумство» — методологія
Малий об’єм KV Cache при збереженні високої якості моделі — це і є причина, чому DeepSeek може пропонувати довготривале кешування за дуже низькою ціною — навіть менше ніж 3% від вартості кешування Sonnet 4.6, і з можливістю зберігати кеші кілька годин.
Для задач із довгим циклом менший KV Cache означає, що його можна економічно вивантажити на SSD і при потребі швидко зчитати назад. Це зменшує залежність від HBM. З точки зору китайської AI-індустрії, HBM — не лише дефіцитний ресурс, а й один із найскладніших у виробництві типів пам’яті.
Крім того, DeepSeek розробила технологію швидшого завантаження KV Cache з SSD, що описано у їхній статті про Dual Path.
DeepSeek V4 досягла значного стиснення KV Cache — можливо, цей крок і взагалі стане непотрібним.
Хто найбільше виграє від стиснення KV Cache?
Хто постачає SSD у великих обсягах? Не забувайте, що YMTC (Yangtze Memory Technologies) стає гігантом у сфері 3D NAND. NAND допомагає DeepSeek уникнути повторних обчислень KV. У свою чергу, DeepSeek створює величезний ринок для NAND і SSD — це вигідно не лише YMTC, а й іншим виробникам.
Але це не лише про NAND і SSD.
LPDDR також має великий потенціал. Вона може зберігати ваги моделей і потоково передавати їх у HBM за потреби, зменшуючи навантаження на HBM. Команда SGLang вже публікувала корисний блог про цю ідею. Нижче — схема роботи цієї системи.
Хоча DeepSeek не розробила спеціальних рішень саме для цього, її архітектура MoE, наявність багатьох експертних моделей і 4-бітних ваг роблять цю ідею більш реалізовуваною.
Якщо цю інновацію поєднати з дуже компактним і беззбитковим KV Cache, залежність від HBM зменшиться ще більше.
Хто в Китаї виробляє LPDDR? Відповідь — CXMT (ChangXin Memory Technologies). Вони лише на півтора покоління відстають у швидкості, і на одне покоління — у щільності пам’яті, тому різниця незначна.
Крім NAND, у найближчому майбутньому в Китаї буде достатньо LPDDR для підтримки AI-індустрії. Це допоможе зменшити обчислювальний тиск? Відповідь — так. Детальніше — далі.
Розумне використання пам’яті також зменшує навангання GPU / ASIC
Використання NAND для зберігання KV Cache цілком зрозуміле: воно дозволяє зберігати кеші довше, зменшує навантаження на HBM і уникає повторних обчислень KV Cache, що зменшує навантаження на GPU і ASIC.
А чи може LPDDR виконувати подібну роль? Окрім зберігання ваг, вона може потоково передавати їх у HBM, зменшуючи навантаження на нього. Чи здатна вона ще й знижувати обчислювальні витрати?
Відповідь — так.
LPDDR може зберігати велику кількість так званих Engram. У статті DeepSeek про Engram зазначено, що MoE може розширювати модель за допомогою умовних обчислень, але сам трансформер позбавлений вбудованого механізму «пошуку знань». Тому трансформери часто імітують пошук шляхом неефективних обчислень.
Щоб вирішити цю проблему, DeepSeek запропонувала модуль Engram. Він модернізував класичний N-грамовий embedding у хешований O(1) механізм пошуку, створюючи додатковий шлях — умовну пам’ять (conditional memory).
Цей підхід економить обчислення, але вимагає пам’яті для зберігання таблиці embedding, яка може бути дуже великою.
За суттю, це класичне рішення «пам’ять замість обчислень». Головна ідея — з точки зору вартості зчитування кожного біта даних, «пам’ять» набагато дешевша. Одна операція пошуку в LPDDR коштує значно менше, ніж проходження через кілька трансформерів для передбачення. Тому у великих сценаріях це вигідна угода.
Саме так DeepSeek досягає економії, жертвуючи частиною пам’яті.
Важливі компроміси
Через відсутність чіпів із високою щільністю транзисторів і технології EUV, китайські GPU та ASIC, ймовірно, довго залишатимуться позаду західних у FLOPs. Вони також мають суттєві прогалини у передовій упаковці. Тому такі компроміси цілком виправдані, особливо за умови масового виробництва NAND і LPDDR у Китаї.
Розглядаючи довгострокову стратегію DeepSeek
З огляду на ці інновації, ціль DeepSeek — не у короткостроковому отриманні кількох мільярдів доларів прибутку. Багато її рішень свідчать про інше: наразі у неї немає мультимодальних моделей, голосових систем або відео. Вона бере участь у довгостроковій грі — формуванні альтернативної AI-апаратної екосистеми вартістю у 10 трильйонів доларів.
Це не лише для того, щоб зробити китайських виробників пам’яті ключовими гравцями на глобальному ринку AI-апаратури, а й для зниження ресурсних витрат на тренування і сервіс AI-моделей. Це відкриває можливості для інших гравців — GPU, ASIC, мережевих чипів — стати частиною цієї системи.
Крім того, ці інновації принесуть користь і західним відкритим проектам, і новим виробникам апаратного забезпечення.
Всі ознаки вже є. Давайте коротко підсумуємо основні інновації, запропоновані DeepSeek:
Якщо подивитися на приклади, то:
Як щодо заробітку?
Розглянемо цікавий приклад — OpenAI.
OpenAI отримала опціони на купівлю акцій AMD і Cerebras за низькою ціною, прив’язані до досягнення певних цілей у споживанні обчислювальних ресурсів. Це вигідна угода для AMD і Cerebras, оскільки обіцянка OpenAI використовувати їхнє обладнання підвищує ймовірність їхнього довгострокового успіху.
У заяві AMD зазначено:
«У рамках угоди, для подальшої координації стратегічних інтересів, AMD випустила OpenAI опціони на купівлю до 160 мільйонів акцій AMD, які будуть поступово нараховуватися при досягненні певних цілей. Перша частина — при завершенні розгортання 1 Гігава, наступні — при збільшенні закупівель до 6 Гігава. Умови також залежать від досягнення цінових цілей AMD і технічних, бізнесових цілей OpenAI, необхідних для масштабного розгортання AMD.»
Я очікую, що DeepSeek укладе подібні угоди з кількома китайськими виробниками пам’яті, ASIC, CPU і мережевих технологій, щоб допомогти їм створити конкурентоспроможний апаратний стек для провідних AI-завантажень.
З урахуванням того, що ринкова капіталізація західних і східних компаній у сфері AI вже перевищує 10 трильйонів доларів, такий «співпраця через участь у капіталі» дасть DeepSeek шанс допомогти Китаю створити не менш масштабну індустрію і отримати свою частку. Це дозволить їй досягти оцінки у 1 трильйон доларів.
Це не лише принесе DeepSeek значний дохід, але й допоможе реалізувати ідею «зробити AGI корисним для кожного». Власне, Лян Веньфен — прихильник Джима Саймонса і досвідчений капіталіст, він не пропустить цю можливість.
Якщо подивитися на все, що зробила DeepSeek, єдина логічна причина — саме ця.
[Посилання на оригінал]
Дізнайтеся більше про вакансії в BlockBeats
Приєднуйтесь до офіційної спільноти BlockBeats:
Telegram-канал: https://t.me/theblockbeats
Telegram-група: https://t.me/BlockBeats_App
Офіційний Twitter: https://twitter.com/BlockBeatsAsia