Компания Sugon выпустила «стандартную версию» сверхузла: будущее формы вычислительной мощности для AI?

Question

Источник：Titan MediaOpenClaw внезапно резко ворвался в тренды; это одновременно закономерный выход в широкую аудиторию для сегмента AI-агентов и проверка на прочность рынка вычислительных мощностей для AI-вывода под давлением.На форуме Чжунгуаньцунь в середине 2026 года компания Inspur представила первый в мире беспроводной сверхузел формата «шкаф-контейнер» scaleX40; до этого сверхузлы представляли собой громоздкие системы размером от сотен до тысяч стоек/карт, включая scaleX640 от Inspur, NVL72 от NVIDIA, Ascend 384 от Huawei и т. п.Эти топовые сверхузлы предназначены для обучения моделей сверхкрупного масштаба: их производительность мощная, но порог развертывания крайне высок — индивидуальные стойки/шкафы, сложные кабельные соединения, профессиональные команды эксплуатации и обслуживания, инвестиции зачастую на десятки миллионов или даже на сотни миллионов; поэтому они неизбежно могут обслуживать лишь ограниченное число ведущих игроков — например, интернет-гигантов или крупные центральные/государственные предприятия.В «противоположной стороне» сверхузлов на рынке вывода — традиционные и наиболее массовые серверы с 8 GPU. Такие продукты отличаются гибкостью развертывания и контролируемой стоимостью, но при столкновении с быстро растущими потребностями в вычислительных мощностях для AI-вывода их производительности оказывается недостаточно.«В текущей ситуации 8-процессорные/8-карточные машины уже далеко позади; даже если расширить интернет-масштаб до 16 карт, все равно не удается поспеть за темпами развития сервисов вывода моделей». Старший вице-президент Inspur Ли Бинь заявил: «Поддерживающая AI инфраструктура вычислительных мощностей постепенно изменилась: от прежних “вычислительных фабрик” к “фабрикам Token”. Основной объект обслуживания вычислительной системы — уже не то, что раньше в основном поддерживало обучение моделей, а теперь главным образом сервисы вывода».В эпоху обучения ключевым индикатором оценки вычислительной системы было то, сколько вычислительной мощности она имеет; а в эпоху вывода более важным становится показатель: «может ли она с наиболее экономичной стоимостью производить Token».Картинка из AI-генерацииСпрос на AI дифференцируется: вычислительные мощности для вывода еще не удовлетворяют потребностиС точки зрения текущего спроса рынка, структура вычислительных мощностей для AI претерпевает изменения с разбиением на уровни. Согласно прогнозам отраслевых организаций, глобальные инвестиции в AI-инфраструктуру продолжат расти относительно быстрыми темпами, однако новый спрос постепенно смещается от сверхкрупных кластеров к корпоративным и отраслевым сценариям применения.На фоне этой тенденции фокус в распределении вычислительных мощностей больше не сводится лишь к погоне за верхним пределом масштаба, а уделяет больше внимания балансу производительности, стоимости и гибкости. Общепринятое мнение в отрасли: масштаба в десятки карт уже достаточно для удовлетворения потребностей в вычислительных мощностях для обучения моделей, вывода и разработки/тестирования в большинстве отраслевых сценариев — это своего рода максимальный компромиссный диапазон между эффективностью и вложениями.Однако эволюция потребностей на уровне AI-приложений происходит слишком быстро. Наряду с взрывным ростом AI-агентов, таких как OpenClaw, это не только меняет традиционные отраслевые приложения, но и порождает потребность в системной реконфигурации со стороны поставок вычислительных мощностей.Первая — узкое место коммуникаций. Сейчас модели MoE делают коммуникацию ключевым «узким местом» для повышения утилизации вычислительных мощностей; особенно неопределенность распределения экспертов приводит к большому объему межкарточных и межмашинных коммуникаций, что напрямую пробивает архитектуру вычислительных мощностей традиционных 8-карточных серверов.Вторая — узкое место по памяти. Окна контекста продолжают расширяться, а требуемая OpenClaw способность хранить долгий контекст увеличивает спрос на большие объемы памяти и KV Cache — он растет день ото дня; это также ограничение, которое традиционные 8-карточные серверы не могут эффективно преодолеть.Третья — узкое место по утилизации вычислительных мощностей. Утилизация вычислительных мощностей и стоимость доведения вывода до реального внедрения почти обратно пропорциональны; в традиционных кластерах повсеместно существует проблема недостаточной утилизации. Ключевой вызов — не просто «насыпать» оборудование, а добиться двойного роста системной эффективности и эффективных вычислительных мощностей за счет инноваций в аппаратной архитектуре в связке с скоординированными усилиями в системной инженерии и оптимизационной инженерии.Четвертое — узкое место экосистемы. Домашняя экосистема вычислительных мощностей сложна: много производителей, длинная цепочка поставок, а трудность отраслевой кооперации не мала. Поэтому требуется опираться на открытую вычислительную архитектуру, соединить «всю цепочку» по чипам, моделям, приложениям и другим компонентам, и построить базис вычислительных мощностей, который будет открытым, удобным, «подключил и пользуйся», экономически доступным и всеобщим.Inspur надеется ответить рынку своим 40-карточным «стандартным» сверхузлом. «Сладкая зона 40-карт — это то, что мы в ходе опросов/исследований с разными клиентами нащупали и выяснили». Вице-президент Inspur Ли Лю заявил: «В нынешнем мейнстримных моделях по масштабу параметров и по сценариям использования 32–40 карт уже могут покрыть большую часть отраслевых потребностей, при этом удается также сохранить баланс между стоимостью и производительностью».ScaleX40 — один узел, интегрирующий 40 GPU: суммарная вычислительная мощность превышает 28 PFLOPS (точность FP8), емкость HBM-памяти — более 5 TB, пропускная способность доступа к памяти — свыше 80 TB/s. Надежность системы повышена до 99,99%.Конфигурация масштаба scaleX40: она дает возможность поддерживать обучение и вывод больших моделей, не создавая чрезмерного давления по инвестициям. Вниз по шкале она может обслуживать 32-карточный сценарий, удовлетворяя потребности в обучении/выводе и разработке/тестировании малых и средних масштабов; вверх — за счет расширения она может образовать еще более крупный кластер.Ли Бинь подсчитал: «Традиционные инвестиции в 5 машин по 8 карт плюс всевозможные сопутствующие затраты примерно на уровне scaleX40, но scaleX40 может повысить обучающую производительность на 120%, а производительность вывода — максимум до 330%».От DeepSeek до OpenClaw: новая точка поворота в вычислительных мощностях«Token нуждаются в вычислительной мощности для производства, но измерения и показатели оценки стали более разнообразными». По мнению Ли Биня: «Для обычных пользователей важно смотреть на скорость ответа: задал вопрос — сможет ли он быстро вернуть результат; для операторов вычислительной системы нужно учитывать, сколько пользователей одновременно она может поддерживать, а также одновременно обеспечивать базовые ощущения от использования».Ответственный за разработку AI-фреймворков в Исследовательском институте Цзыюань (Institute of Цзыюань) Ао Юйлунь также предложил: «В будущем для поставщиков вычислительных мощностей ключевой показатель — не то, как производить неэффективные Token, а как преобразовывать вычислительную мощность в эффективные Token. Кто сможет снизить эту стоимость — тот и станет настоящим победителем».Проектирование scaleX40 построено вокруг этих новых потребностей. 144G большой памяти поддерживают длинные окна контекста; многоуровневый механизм кэширования KV Cache удовлетворяет потребности сценариев вывода в большой памяти; высокоскоростная первичная взаимосвязь домена с 40 картами собирает out-to-out трафик экспертных коммуникаций в пределах одного узла. Эти особенности все это делают при контроле стоимости: они максимизируют эффективность производства Token на единицу вычислительной мощности.Беспроводная кабельная шкафная конструкция — также одно из ключевых отличий scaleX40. Одна из главных болевых точек традиционных сверхузлов — сложность развертывания. Например, в случае с NVIDIA NVL72 используется схема соединения медными кабелями: между стойками/шкафами требуется много кабельных взаимосоединений. Это предъявляет жесткие требования к условиям в машинном зале, удлиняет цикл развертывания и также приводит к высокой частоте отказов при последующей эксплуатации и обслуживании.Решение scaleX40 похоже на новейший вариант, опубликованный NVIDIA на конференции GTC в этом году: реализовать расширение Scale-up через шинные технологии, а вычислительные узлы и узлы коммутации использовать в беспроводной «кабельной» ортогональной архитектуре, соединяя их напрямую по принципу «вставил».Эта конструкция дает несколько преимуществ. Во-первых, производительность шинной технологии превосходит традиционную сеть NDR более чем в 10 раз и поддерживает единое адресное пространство с учетом семантики памяти и адресации видеопамяти/памяти. Во-вторых, одноуровневая схема сети снижает однонаправленную задержку P2P до уровня менее ста наносекунд; по сравнению с двухуровневой схемой сети задержка уменьшается более чем на 30%, а частота отказов снижается на 30%–50%.Во-вторых, scaleX40 использует стандартный 19-дюймовый контейнерный/шкафной дизайн: высота одного устройства составляет лишь 16U, поэтому его можно напрямую размещать в стандартных стойках/шкафах и он совместим с существующей средой дата-центров — без необходимости в дополнительной модернизации.«Раньше многие продукты либо были слишком большими, либо не были стандартизированы, либо требовали крайне сложной переделки машинного зала». Ли Лю сказал: «В scaleX40 можно размещать в стандартных шкафах; подключение к стандартным устройствам электропитания и охлаждения машинного зала — и пороги развертывания и эксплуатации существенно снижаются».Также Ван Цзысяо, ответственный за технологию вычислительных/сетей в Исследовательском институте China Telecom, отметил: «При предоставлении услуг вывода в форме сверхузла, производительность примерно в 2,6 раза выше, чем у традиционного одного сервера с 8 картами. Возможность “подключил и работай” у сверхузлов заметно усилена: конфигурационная сложность сети Scale-out снижена на порядок, что имеет большое значение для масштабируемых применений по всей отрасли».Глубже говоря, выпуск scaleX40 также отражает зрелость отечественной экосистемы вычислительных мощностей. От чипов до системного ПО, от хранения до сети, от библиотеки операторов до библиотек коммуникации — формируется целостная производственная цепочка. Как сказал Ли Бинь: «Мы во всей отечественной вычислительно-AI экосистеме — от чипов до системного ПО, от моделей верхнего уровня до приложений — реализуем вертикальную межуровневую координацию. За счет связности и координации по вертикали мы добиваемся лучшей эффективности».Когда сверхузлы начнут развертываться и использоваться более простым способом, и когда сотни тысяч отраслей смогут получать возможности высокоуровневых вычислительных мощностей по разумной стоимости, масштабные применения AI в Китае, возможно, по-настоящему сделают ключевой шаг вперед. (Автор статьи | Чжан Шуай, редактор | Ян Линь)Особое заявление: вышеизложенное содержание отражает только личные взгляды или позицию автора и не представляет взгляды или позицию Toutiao на Sina Finance. Если требуется связаться с Toutiao на Sina Finance из-за содержания произведения, авторских прав или других вопросов, просьба сделать это в течение 30 дней после публикации указанного выше содержания.																														                                                                    Огромные объемы новостей и точная интерпретация — все в приложении Sina Finance APP

Компания Sugon выпустила «стандартную версию» сверхузла: будущее формы вычислительной мощности для AI?

Популярные темы

GateLaunchesPreIPOS

GateSpotDerivativesBothTop3

IsraelStrikesIranBTCPlunges

OilEdgesHigher

USIranCeasefireTalksFaceSetbacks

Горячее на Gate Fun

DOGELON

DOGE ELON

GATESKEM

NOT LAND

OILSOR

OIL U.S.O.R

Гагарин

Юрий Гагарин

NO.1

都踏马是我的

Закрепить