Попит на обчислювальні потужності для логічних висновків стрімко зростає, компанії в ланцюгу постачань прискорюють розширення присутності

2026-03-20 13:29:05

Репортер сайту «Цінний папір» Ван Цзіньжу

Зі зростанням застосування генеративного штучного інтелекту, що поступово переходить від «моделювального навчання» до масштабної комерційної реалізації, споживання обчислювальної потужності, орієнтоване на навчання, поступово змінюється на безперервний попит на обчислювальні ресурси, зосереджений на inference (виведенні). 17 березня генеральний директор NVIDIA Дженсен Ху повідомив на конференції GTC, що переломний момент на ринку AI inference вже настав, і AI повністю перейшов від фази навчання до стадії inference та виконання, а попит на обчислювальні ресурси для inference стрімко зростає у геометричній прогресії.

«З розширенням масштабів застосування генеративного штучного інтелекту швидкість зростання потреб у обчислювальній потужності для inference може значно перевищувати ту, що потрібна для навчання. З одного боку, спалахи попиту на застосунки сприяють швидкому впровадженню генеративного AI та інтелектуальних агентів, високочастотна взаємодія користувачів створює експоненційний обсяг запитів на inference; з іншого — постійні прориви у технологіях спеціалізованих чипів для inference, рідинного охолодження та оптичних з’єднань значно підвищують ефективність обчислювальних ресурсів та здатність до паралельної обробки, закладаючи основу для масштабного розгортання», — зазначив у коментарі для «Цінного паперу» дослідник компанії «Qianhai Paimaiwang» Чжан Пеньюань.

За прогнозами галузевих аналітичних центрів, важливість обчислювальних ресурсів для inference продовжує зростати. Міжнародна компанія IDC прогнозує, що до 2027 року частка обчислювальної потужності для inference у структурі загальної обчислювальної потужності в Китаї перевищить 70%. Засновник і генеральний директор China IDC Circle Хуан Чао зазначив, що до 2026 року індустріальний інтелектуальний агент увійде у фазу «багатоголоссія», і застосування обчислювальних ресурсів для inference перейде від «домінування навчання» до «домінування inference», а період вибухового зростання попиту на ресурси inference вже на порозі.

У відповідь на швидке зростання попиту на ресурси inference внутрішні компанії ланцюга виробництва активно прискорюють дослідження і розробки технологій та розгортання продуктів. На рівні чипів кілька виробників вже випускають чипи, оптимізовані для сценаріїв inference. У порівнянні з традиційними чипами для навчання, чипи для inference більш орієнтовані на контроль споживання енергії, економічну ефективність і гнучкість розгортання, тому мають широкі можливості застосування як у хмарних сервісах, так і на периферії.

Наприклад, компанія «Yuntian Lifei Technology Co., Ltd.» (далі — «Yuntian Lifei») зосереджена на NPU (нейронних процесорних блоках) і визначила технічний маршрут GPNPU для великих обчислювальних чипів у сценаріях inference у хмарі. Вони глибоко оптимізували матричні та векторні блоки, рівні пам’яті та використання пропускної здатності, прагнучи знизити вартість токенів у геометричній прогресії та прискорити масштабне та доступне впровадження великих моделей.

До 2025 року доходи Yuntian Lifei становитимуть 1,308 мільярда юанів, що на 42,57% більше порівняно з попереднім роком. Представник компанії зазначив: «Для компаній у цій галузі, коли конкуренція переходить від обсягу навчання до ефективності inference, вартості доставки та здатності системи приносити прибуток, ті, хто зможе раніше налагодити співпрацю між апаратним забезпеченням, зберіганням і програмним забезпеченням, матимуть більше шансів зайняти провідні позиції в епоху inference».

На рівні серверів і систем провідні виробники також постійно випускають платформи обчислювальних ресурсів, оптимізовані для inference. Наприклад, компанія Inspur Electronics випустила сервер для inference «YuanNao R1», який підтримує до 16 стандартних PCIe-карток подвійної ширини, і на одному сервері можна розгорнути модель DeepSeek-671B; також представила сервер для inference на базі CPU «YuanNao», що дозволяє швидко розгортати та ефективно запускати нові покоління моделей, такі як DeepSeek-R132B, QwQ-32B.

Одночасно будівництво інфраструктури для обчислювальних ресурсів прискорюється. Раніше багато внутрішніх центрів інтелектуальних обчислень використовували інтегрований підхід до навчання і inference. 12 березня «Yuntian Lifei» отримала контракт на будівництво інфраструктури AI-інфраструктури для підтримки нової продуктивності в місті Чжанцзянь, провінція Гуандун, — цей проект орієнтований на створення кластерів AI inference, що зосереджені на завданнях inference і орієнтовані на різні галузеві сценарії, надаючи приклади впровадження для традиційної промисловості країни.

Генеральний директор компанії «He Li» з управління інвестиціями «Zhi Yu Zhi Zhi» у Пекіні вважає, що у цій трансформації високопродуктивні чипи для inference, HBM та повний стек програмного забезпечення першими отримають вигоду від зростання обчислювальних ресурсів. Сценарії inference вимагають низької затримки, високої пропускної здатності та високої енергоефективності, тому спеціалізовані архітектури, такі як LPU та ASIC, прискорять заміну універсальних обчислювальних блоків, а технології пам’яті HBM4 стануть ключовими для подолання вузьких місць у пропускній здатності. Одночасно обчислювальні ресурси переміщуються від дата-центрів до периферії, зростає попит на щільні стійки inference та передові системи охолодження, а також за рахунок квантування моделей, компресії параметрів та інших оптимізацій у компіляції, що сприятиме переходу галузі від апаратного стеку до інтеграції апаратного і програмного забезпечення.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.