Суперноди «стандартної версії» від Inspur, майбутній формат обчислювальної потужності для AI-розуміння?

Question

Джерело: Ti MediaOpenClaw раптом став надзвичайно популярним — і це цілком закономірний “вихід у мейнстрім” для сегмента AI Agent, і водночас тест на стійкість ринку обчислювальних потужностей для AI-розуміння.На форумі Чжунгуаньцунь у середині 2026 року компанія Inspur (Чжунке Шубао) випустила перший у світі бездротовий шкафний over-node (надвузол) scaleX40. До того надвузли були гігантами, які легко сягали масштабів у сотні або навіть тисячу GPU, зокрема scaleX640 від Inspur (Чжунке Шубао), NVL72 від NVIDIA, Ascend 384 від Huawei тощо.Ці топові надвузли створені спеціально для тренування моделей надвеликого масштабу: продуктивність потужна, але поріг розгортання надзвичайно високий — індивідуальні стійки для серверів, складні кабельні з’єднання, професійні команди з експлуатації та супроводу. Інвестиції часто становлять десятки мільйонів чи навіть понад сто мільйонів, тож вони за замовчуванням можуть обслуговувати лише небагатьох ключових гравців, наприклад інтернет-гігантів або великі державно-корпоративні підприємства на кшталт центробанківських чи держструктур.На “протилежному полюсі” надвузлів на ринку розуміння існують традиційні й основні сервери з 8 GPU. Такі продукти гнучкі в розгортанні та контрольовані за вартістю, але коли йдеться про швидке оновлення потреб у обчислювальних потужностях для AI-розуміння, їхньої продуктивності бракує.«8-GPU сервери на сьогодні вже далеко позаду; навіть якщо розширити інтерконект у масштабі до 16 GPU, все одно це не задовольняє темп розвитку сервісів для розуміння моделей». Так заявив Лі Бінь, старший віцепрезидент Inspur (Чжунке Шубао). «Базова інфраструктура обчислювальних потужностей для розвитку AI поступово перетворюється з колишньої “фабрики обчислень” на “фабрику Token”. Основний об’єкт сервісу системи обчислювальних потужностей уже перейшов: раніше вона в основному підтримувала тренування моделей, а тепер здебільшого орієнтована на розуміння».У тренувальну епоху ключовим показником оцінки системи обчислювальних потужностей було те, скільки саме обчислювальних ресурсів є; а в епоху розуміння критичнішим стає показник: «чи здатна система з найбільш економічною вартістю виробляти Token».Зображення згенеровано AIПотреби AI розділяються, обчислювальна потужність для розуміння ще не задовольняє попитЗ огляду на поточні ринкові потреби структура обчислювальних потужностей для AI змінюється шарово. Згідно з прогнозами галузевих інституцій, глобальні інвестиції в AI-інфраструктуру й надалі зростатимуть доволі швидко, але нові запити поступово зміщуються: від надвеликомасштабних кластерів — до корпоративних рівнів і сценаріїв галузевого застосування.На тлі цієї тенденції фокус у конфігурації обчислювальних потужностей більше не зводиться лише до прагнення до гранично можливого масштабу; натомість більше уваги приділяють балансу продуктивності, вартості та гнучкості. У промисловості є загальновизнана думка: масштаб у десятки GPU уже достатній, щоб забезпечити потреби в обчислювальних потужностях для більшості галузевих сценаріїв — тренування моделей, розуміння та тестування розробки. Це і є максимальний “золотий діапазон” між ефективністю та інвестиціями.Але еволюція потреб на рівні AI-застосувань відбувається занадто швидко. Так, вибухова популярність AI Agent на кшталт OpenClaw змінює традиційні галузеві застосування, і водночас створює потребу в системній перебудові з боку пропозиції обчислювальних потужностей.Перша — вузьке місце зв’язку. Тепер моделі MoE роблять зв’язок ключовим “вузьким місцем” для підвищення коефіцієнта використання обчислювальних потужностей, особливо через невизначеність розподілу експертів, що спричиняє масовий обмін через різні GPU і різні машини, прямо “пробиваючи” архітектуру обчислювальної потужності традиційних 8-GPU серверів.Друга — вузьке місце пам’яті (VRAM). Контекстне вікно постійно розширюється. Здатність OpenClaw до довгого контекстного запам’ятовування також збільшує потребу у великій пам’яті та KV Cache, яка стрімко зростає. Це також обмеження, яке традиційні 8-GPU сервери важко подолати.Третя — вузьке місце коефіцієнта використання обчислювальних потужностей. Коефіцієнт використання обчислювальних потужностей і фактична вартість впровадження розуміння майже обернено пропорційні. У традиційних кластерах типово виникає проблема недостатнього коефіцієнта використання. Головний виклик — не просто “накидати” заліза, а через інновації в архітектурі обладнання, у поєднанні з узгодженими зусиллями системної інженерії та оптимізаційної інженерії, досягти одночасного підвищення ефективності системи та реальної кількості корисних обчислювальних потужностей.Четверта — вузьке місце екосистеми. Екосистема вітчизняних обчислювальних потужностей є складною, постачальників багато, а ланцюг постачань довгий; складність кооперації в галузі — невелика. Тому потрібні інструменти, як-от відкрита обчислювальна архітектура: з’єднати між собою чипи, моделі, застосування та інші ланки всього ланцюга поставок, аби створити основу обчислювальних потужностей, відкриту, зручну, “поставив — і користуйся”, а також економічно доступну.Inspur (Чжунке Шубао) хоче відповісти ринку надвузлом з “базовою комплектацією” у 40 GPU. «“Солодка зона” 40 GPU — це те, що ми розвідали й уточнили в ході опитувань і досліджень з різними клієнтами». — заявив Лі Лю, віцепрезидент Inspur (Чжунке Шубао). «Для параметричних масштабів і сценаріїв застосування домінантних моделей на даний момент діапазон 32–40 GPU вже здатний охопити більшість потреб галузі, при цьому забезпечуючи баланс між вартістю та продуктивністю».Один вузол scaleX40 інтегрує 40 GPU; сумарна обчислювальна потужність перевищує 28 PFLOPS (точність FP8), місткість HBM VRAM — понад 5 TB, а пропускна здатність доступу до пам’яті — понад 80 TB/s. Надійність системи підвищено до 99.99%.Конфігурація масштабу scaleX40 має як можливість підтримувати тренування та розуміння великих моделей, так і не створює надмірного тиску на інвестиції. Вона “вниз” сумісна з конфігураціями на 32 GPU, щоб забезпечити тренування, розуміння і розробницьке тестування середнього масштабу; “вгору” — за рахунок розширення вона може формувати більший масштаб кластера.Лі Бінь порахував: «Інвестиції на традиційні 5 машин по 8 GPU плюс усі різні супутні витрати — приблизно на одному рівні з scaleX40, але scaleX40 може підвищити тренувальну продуктивність на 120%, а продуктивність розуміння — максимум до 330%».Від DeepSeek до OpenClaw — нова переломна точка в обчислювальних потужностях«Token потребує обчислювальних потужностей для генерації, але критерії оцінки та метрики стають багатшими». Лі Бінь вважає, що: «Для звичайних користувачів важлива швидкість відповіді: якщо ви поставили питання, чи зможе система швидко повернути результат? А для оператора системи обчислювальних потужностей треба враховувати, скільки користувачів він зможе одночасно обслуговувати з точки зору паралельного доступу, і при цьому забезпечити базовий рівень користувацького досвіду».Керівник відділу розробки AI-фреймворків у інституті Цзіюань — Ао Юйлунь — також зазначив: «У майбутньому для постачальників обчислювальних потужностей ключовою метрикою буде те, як перетворювати обчислювальні потужності на ефективні Token, а не на неефективні Token. Хто зможе знизити цю вартість — той і буде справжнім переможцем».Дизайн scaleX40 побудовано навколо цих нових потреб. 144G великої пам’яті підтримує довге контекстне вікно; багаторівнева механіка кешування KV Cache закриває потреби сценаріїв розуміння в великій пам’яті. А високосмуговий однорівневий інтерконект на 40 GPU збирає out-to-out трафік зв’язку експертів у межах одного вузла. Усі ці можливості реалізовано з контролем вартості — для максимізації ефективності генерації Token на одиницю обчислювальних потужностей.Бездротовий кабельний контейнерний дизайн також є значною диференціацією scaleX40. Основна болюча точка традиційних надвузлів — складність розгортання. Наприклад, у NVL72 від NVIDIA використовується схемою підключення мідними кабелями: між стійками потрібно прокладати багато кабелів. Це не лише висуває жорсткі вимоги до середовища в дата-центрі, а й подовжує цикл розгортання та створює високий рівень відмов у післяексплуатаційному обслуговуванні.Рішення scaleX40 схоже на останню опубліковану NVIDIA в цьому році на GTC: через технологію шини реалізовано Scale-up розширення. Обчислювальні вузли й комутуючі вузли застосовують бездротову кабельну ортогональну архітектуру для прямого вставлення одне в інше.Це рішення приносить кілька вигод. По-перше, продуктивність шинної технології досягає понад 10 разів порівняно з традиційною мережею NDR, а також підтримує семантику пам’яті й єдину адресацію VRAM. По-друге, однорівнева мережа знижує односпрямовану затримку P2P до менш ніж 100 наносекунд; порівняно з дворівневою мережею затримка зменшується більш ніж на 30%, а рівень відмов знижується на 30%-50%.Крім того, scaleX40 використовує стандартний дизайн у 19-дюймовому контейнері: висота одного пристрою — лише 16U, тому його можна безпосередньо встановлювати в типові серверні стійки та він сумісний із наявними умовами дата-центрів, без додаткових модифікацій.«Раніше багато продуктів або були занадто великими за габаритами шафи, або не стандартизованими, або ж потребували дуже складного переобладнання дата-центру». — сказав Лі Лю. «scaleX40 можна розмістити в стандартній шафі, підключити до стандартного електроживлення та систем охолодження дата-центру — поріг для розгортання й використання суттєво знижується».Керівник технологій мережі інтелектуальних обчислень у Китаї — Ван Цзисяо, також зазначив: «Надвузол у формі сервісу розуміння дає продуктивність приблизно в 2,6 разу більшу, ніж традиційний одиночний 8-GPU сервер. Його “постав — і користуйся” можливості значно посилено. Складність конфігурації мережі Scale-out зменшена на порядок. Це дуже важливо для масштабованого застосування в усьому секторі».Якщо подивитися глибше, запуск scaleX40 також віддзеркалює зрілість екосистеми вітчизняних обчислювальних потужностей. Від чипів до системного ПЗ, від сховища до мережі, від бібліотеки операторів до бібліотеки зв’язку — формується повний ланцюг виробництва. Як сказав Лі Бінь: «Ми в усьому вітчизняному обчислювально-AI екосистемному середовищі, від чипів до системного ПЗ, а також на рівні верхніх моделей і застосувань — робимо вертикальну міжрівневу координацію. Завдяки вертикальному зв’язуванню та узгодженій роботі ми досягаємо кращої ефективності».Коли надвузли починають розгортатися й використовуватися простішим способом, і коли тисячі різних сфер зможуть отримувати доступ до висококласних обчислювальних потужностей за розумною ціною, масштабовані застосування AI в Китаї, можливо, справді зроблять ключовий крок уперед. (Автор статті | Чжан Шуай, редактор | Ян Лінь)Особливе повідомлення: наведений вище матеріал відображає лише погляди або позицію автора та не представляє погляди чи позицію SINA Finance Toutiao. Якщо через зміст твору, авторські права або інші питання потрібно зв’язатися з SINA Finance Toutiao, зробіть це протягом 30 днів після публікації вищезазначеного матеріалу.																														                                                                    Величезні обсяги інформації, точне тлумачення — усе в SINA Finance APP

Суперноди «стандартної версії» від Inspur, майбутній формат обчислювальної потужності для AI-розуміння?

Популярні теми

GateLaunchesPreIPOS

GateSpotDerivativesBothTop3

IsraelStrikesIranBTCPlunges

OilEdgesHigher

USIranCeasefireTalksFaceSetbacks

Популярні активності Gate Fun

DOGELON

DOGE ELON

GATESKEM

NOT LAND

OILSOR

OIL U.S.O.R

Гагарин

Юрий Гагарин

NO.1

都踏马是我的

Закріпити