Джан Хуанг объявил о наступлении эры вычислений с рассуждениями — какие новые переменные принесёт LPU?

Question

В местное время 16 марта генеральный директор NVIDIA Хуан Жэньсунь (黄仁勋) представил на конференции GTC новую вычислительную платформу, созданную специально для AI-агентов — NVIDIA Vera Rubin.

Эта платформа словно набор супер«вычислительных модулей»: в ней собраны несколько ключевых компонентов, включая Vera CPU (центральный процессор), Rubin GPU (графический процессор), коммутатор NVLink 6, ConnectX-9 SuperNIC (суперсетевой адаптер), BlueField-4 DPU (процессор обработки данных), а также Spectrum-6 (Ethernet-коммутатор) и добавленный Groq 3 LPU (процессор для языковых задач).

Если сказать просто, это целый комплект аппаратных средств, специально собранный для AI, чтобы вычисления были быстрее и «умнее».

Кроме того, NVIDIA выпустила Groq 3 LPX-стойки, предназначенные для масштабного развертывания. Это означает, что она может объединять сотни LPU и работать согласованно, как «супермозг», обеспечивая сверхбыструю инференс-скорость и возможности для обработки огромных объемов текста. Эта стойка оснащена 256 LPU, имеет 128GB высокоскоростной on-chip памяти для хранения данных, а скорость передачи достигает 640 TB/s.

По мнению участников отрасли, главным отличием этого релиза является не только обновление чипов, но и скачок в плотности системной интеграции. Директор по AI/интеллектуальному производству компании «Юньхай капитал» Чжуан Чанлэй (庄昌磊) в интервью репортеру 21st Century Business Herald сказал: «Самое большое изменение заключается в том, что NVIDIA формально подняла LPU с уровня отдельного чипа или ускорителя и сделала их системой первого уровня — наравне с GPU-стойками».

Особенно то, что количество LPU в LPX-стойке — с 64 штук в первом поколении — сразу выросло до 256. Такой скачок по плотности далеко превосходит ожидания отрасли и отражает крайне насущный спрос рынка на сверхнизкую задержку и инференс для длинных текстов.

Чжуан Чанлэй считает, что это означает: AI-вычисления уходят от режима «сначала обучение» и полностью переходят к модели «обучение + инференс», при этом инференс становится новой инфраструктурой системного уровня.

Фокус — на инференс

LPU — это новая архитектура чипа, разработанная специально для вычислительно-интенсивных задач с последовательной обработкой. Ее ключевая цель — за счет архитектурных инноваций оптимизировать эффективность инференса языковых моделей.

В архитектурном плане один Groq 3 LPU интегрирует 500 MB SRAM: одной из ключевых составляющих LPU является MEM-блок. Это плоская, SRAM-ориентированная архитектура памяти, где 500 MB высокоскоростной on-chip SRAM выступают основным рабочим хранилищем для инференса.

（Источник изображения：сайт NVIDIA）

Компилятор и среда выполнения помещают активный working set (включая веса, активации и KV-состояние) в on-chip память и явно перемещают данные, вместо того чтобы полагаться на кэширование, управляемое аппаратно. Это уменьшает непредсказуемые задержки и помогает обеспечивать низкую и стабильную задержку, размещая данные, наиболее чувствительные к задержке, ближе к месту вычислений.

Чжуан Чанлэй сообщил репортеру, что ключевое преимущество Groq LPU — это не только «быстро», но и «быстро каждый раз одинаково», то есть детерминированная задержка. Архитектурный дизайн такой временной детерминированности (Timing Deterministic) требует глубокой кастомизации вычислительного конвейера, обращений к памяти и компилятора, а технологический порог крайне высок.

Для сценариев с жесткими требованиями к реальному времени, таких как промышленное управление и автоматическое вождение, эта «детерминированность» является насущной необходимостью. При этом универсальные GPU-архитектуры и ASIC, которые облачные вендоры создают на основе упрощенных наборов команд, трудно обеспечить столь же экстремальную детерминированность, сохранив при этом гибкость.

В исследовании компании Huatai Securities указано, что по сравнению с CES в январе, на нынешней конференции GTC позиционирование Groq LPU в общей продуктовой линейке NVIDIA стало более четким. NVIDIA планирует использовать свойства Groq LPU с низкой задержкой для удовлетворения приложений с высокими требованиями к интерактивности, таких как Agent AI.

Чжуан Чанлэй также отметил: когда аппаратное «бутылочное горлышко» по задержкам будет снято, дизайнеры моделей будут более уверенно исследовать более реальное время и более сложные интерактивные AI. Например, сейчас AI Agent может все еще требовать несколько секунд на «обдумывание», а в будущем, вероятно, удастся добиться настоящей реакции на уровне миллисекунд. Модель перестанет быть «кнопкой-выстрелом текста» и станет плавно, в реальном времени и как человек разговаривать с тобой.

Год кремниевой фотоники начался

Помимо NVIDIA Groq 3 LPX-стойки, второй крупной «изюминкой» платформы Rubin является NVIDIA Spectrum-6 SPX Ethernet-стойка.

Используя кремниево-оптическую технологию Spectrum-X с CPO (co-packaged optics, оптоэлектронная интеграция в едином корпусе), по сравнению с традиционными модульными трансиверами оптическая энергоэффективность может повыситься до 5 раз, а надежность системы — в 10 раз.

«Scale-Out (между стойками) — это наиболее очевидный прирост прямо сейчас». Чжуан Чанлэй подчеркнул: платформа Rubin уже начала внедрять CPO-коммутаторы, чтобы решать проблему передачи лавинообразных потоков данных между многочисленными стойками внутри дата-центра; ожидается, что в 2027 году CPO станет важной временной точкой для масштабного развертывания.

На GTC NVIDIA также раскрыла, что после Vera Rubin следующей важной архитектурой NVIDIA будет Feynman. В эту архитектуру будет включен новый CPU: NVIDIA Rosa.

При этом Rosa является ядром новой платформы. Платформа объединяет новую LPU LP40 от NVIDIA с NVIDIA BlueField-5 и CX10. А вертикальное расширение — между медными кабелями и CPO-корпусами — реализуется через NVIDIA Kyber, тогда как горизонтальное расширение на уровне оптики будет выполняться в духе уровня NVIDIA Spectrum.

«Scale-Up (внутри стойки / между чипами) — это более проницательный взгляд на перспективу». Чжуан Чанлэй отметил: в архитектуре Feynman NVIDIA планирует внедрить NVLink 8 CPO, чтобы реализовать «оптический вход в стойку», то есть заменить часть традиционных медных backplane-соединений оптической межсоединительной связью и напрямую соединять GPU и LPU. Это означает, что оптические interconnect’ы постепенно выходят из роли самого периферийного коммутатора и движутся внутрь ключевых вычислительных стоек.

По мнению Чжуан Чанлэя, оптические модули как «сосуды» для interconnect’а вычислительных мощностей: их доля в стоимости будет продолжать расти по мере расширения масштаба кластеров агентных систем. Когда CPO уйдет из лабораторий в массовую коммерцию, «эра кремниевой фотоники» уже начнется — и это напрямую подстегнет обновление всей цепочки производства коммуникационного оборудования.

Спрос на high-end PCB может взорваться

Как отмечалось выше, чтобы удовлетворить потребности AI-агентных систем в низкой задержке и длинных контекстах, NVIDIA также выпустила Groq 3 LPX-стойки для инференс-ускорения. Они включают 256 LPU-процессоров; после объединения с Vera Rubin инференсная пропускная способность на каждый мегаватт может вырасти в 35 раз.

А поставка LPU/LPX в формате стоек окажет разрушительное влияние на отрасль PCB — возможно, это будет крупнейшее сверхожидание в цепочке поставок.

PCB, то есть печатная плата, — это носитель, через который электрически соединяются электронные компоненты. PCB проникли почти во все электронные устройства. Китайская индустрия PCB как ключевой «двигатель» глобального электронного производства показывает сильный рост.

Благодаря преимуществам в управлении затратами, экологическим стандартам и комплектности цепочки поставок, текущая выручка китайской материковой индустрии PCB составляет более 50% от общемировой, и сформировались промышленные кластеры, такие как Бохайский залив, дельта Чжуцзян и дельта Янцзы.

Если смотреть сверху и снизу по цепочке, то по мере резкого роста спроса на AI и того, что капитал облачных вендоров продолжает наращивать поддержку, растут закупки AI-серверов, устройств хранения и сетевого оборудования. CICC (601066) оценивает: в 2025 году рынок серверов GPU+ASIC в пересчете на PCB будет превышать 40 миллиардов, в 2026 году — превышать 90 миллиардов; темпы роста уже удвоились.

«Сейчас глобальная индустрия PCB для AI-серверов находится в ситуации 20% дефицита спроса и предложения». Чжуан Чанлэй признал это.

По мнению Чжуан Чанлэя, поскольку LPU/LPX-стойки войдут в период пикового массового производства в конце 2026 — в 2027 году, спрос на high-end PCB будет носить характер всплеска. «Это еще больше усилит дефицит в high-end HDI и многослойных PCB, погоняя всю цепочку PCB в новую волну расширения мощностей и модернизации».

Например, из-за того что внутри LPU/LPX-стоек нужно обрабатывать огромные объемы передачи данных и связи с предельно низкой задержкой, требования к количеству слоев, материалам и технологическому процессу PCB оказываются чрезвычайно высокими. Возьмем пример LPU-стоек NVIDIA: стоимость PCB одной материнской платы может достигать 6000 долларов, а PCB стоимость всего комплекта стойки — 96k долларов (что эквивалентно почти 700k юаней). Это означает рост стоимости более чем в 10 раз по сравнению с традиционными PCB для AI-серверов.

Кроме того, чтобы соответствовать высокоскоростной передаче 224Gbps и выше, а также поддерживать высокоскоростную взаимосвязь для 256 LPU, PCB должна использовать более продвинутые подложки и дизайн. Например, обычные подложки больше не могут удовлетворять требованиям — необходимо переходить на подложки уровня M9 (медные плакированные платы), а усиливающий материал тоже должен измениться: с обычной электронно-стеклоткани (электронного стеклотканевого материала) на Q-glass ткань, чья стоимость в 10 раз выше. Даже следующее поколение продуктов уже начало тестирование материалов уровня M10.

Чжуан Чанлэй заявил, что в архитектуре Rubin Ultra даже предусмотрено введение ортогональной backplane-схемы: через 78 слоев PCB обеспечивается прямое межсоединение GPU и NVSwitch, что существенно сокращает использование медных кабелей. Это означает, что PCB начинает замещать роль части традиционных кабелей, становясь «каркасом» для interconnect внутри стойки.

Джан Хуанг объявил о наступлении эры вычислений с рассуждениями — какие новые переменные принесёт LPU?

Популярные темы

GateSquareAprilPostingChallenge

WeekendCryptoHoldingGuide

IsraelStrikesIranBTCPlunges

CryptoMarketSeesVolatility

OilPricesRise

Горячее на Gate Fun

BEAT

Beat

redstar

红星币

333

333

币安女王

币安女王

WTR

WinterCoin

Закрепить