Джан Хуанг объявил о наступлении эры вычислений с рассуждениями — какие новые переменные принесёт LPU?

В местное время 16 марта генеральный директор NVIDIA Хуан Жэньсунь (黄仁勋) представил на конференции GTC новую вычислительную платформу, созданную специально для AI-агентов — NVIDIA Vera Rubin.

Эта платформа словно набор супер«вычислительных модулей»: в ней собраны несколько ключевых компонентов, включая Vera CPU (центральный процессор), Rubin GPU (графический процессор), коммутатор NVLink 6, ConnectX-9 SuperNIC (суперсетевой адаптер), BlueField-4 DPU (процессор обработки данных), а также Spectrum-6 (Ethernet-коммутатор) и добавленный Groq 3 LPU (процессор для языковых задач).

Если сказать просто, это целый комплект аппаратных средств, специально собранный для AI, чтобы вычисления были быстрее и «умнее».

Кроме того, NVIDIA выпустила Groq 3 LPX-стойки, предназначенные для масштабного развертывания. Это означает, что она может объединять сотни LPU и работать согласованно, как «супермозг», обеспечивая сверхбыструю инференс-скорость и возможности для обработки огромных объемов текста. Эта стойка оснащена 256 LPU, имеет 128GB высокоскоростной on-chip памяти для хранения данных, а скорость передачи достигает 640 TB/s.

По мнению участников отрасли, главным отличием этого релиза является не только обновление чипов, но и скачок в плотности системной интеграции. Директор по AI/интеллектуальному производству компании «Юньхай капитал» Чжуан Чанлэй (庄昌磊) в интервью репортеру 21st Century Business Herald сказал: «Самое большое изменение заключается в том, что NVIDIA формально подняла LPU с уровня отдельного чипа или ускорителя и сделала их системой первого уровня — наравне с GPU-стойками».

Особенно то, что количество LPU в LPX-стойке — с 64 штук в первом поколении — сразу выросло до 256. Такой скачок по плотности далеко превосходит ожидания отрасли и отражает крайне насущный спрос рынка на сверхнизкую задержку и инференс для длинных текстов.

Чжуан Чанлэй считает, что это означает: AI-вычисления уходят от режима «сначала обучение» и полностью переходят к модели «обучение + инференс», при этом инференс становится новой инфраструктурой системного уровня.

Фокус — на инференс

LPU — это новая архитектура чипа, разработанная специально для вычислительно-интенсивных задач с последовательной обработкой. Ее ключевая цель — за счет архитектурных инноваций оптимизировать эффективность инференса языковых моделей.

В архитектурном плане один Groq 3 LPU интегрирует 500 MB SRAM: одной из ключевых составляющих LPU является MEM-блок. Это плоская, SRAM-ориентированная архитектура памяти, где 500 MB высокоскоростной on-chip SRAM выступают основным рабочим хранилищем для инференса.

(Источник изображения:сайт NVIDIA)

Компилятор и среда выполнения помещают активный working set (включая веса, активации и KV-состояние) в on-chip память и явно перемещают данные, вместо того чтобы полагаться на кэширование, управляемое аппаратно. Это уменьшает непредсказуемые задержки и помогает обеспечивать низкую и стабильную задержку, размещая данные, наиболее чувствительные к задержке, ближе к месту вычислений.

Чжуан Чанлэй сообщил репортеру, что ключевое преимущество Groq LPU — это не только «быстро», но и «быстро каждый раз одинаково», то есть детерминированная задержка. Архитектурный дизайн такой временной детерминированности (Timing Deterministic) требует глубокой кастомизации вычислительного конвейера, обращений к памяти и компилятора, а технологический порог крайне высок.

Для сценариев с жесткими требованиями к реальному времени, таких как промышленное управление и автоматическое вождение, эта «детерминированность» является насущной необходимостью. При этом универсальные GPU-архитектуры и ASIC, которые облачные вендоры создают на основе упрощенных наборов команд, трудно обеспечить столь же экстремальную детерминированность, сохранив при этом гибкость.

В исследовании компании Huatai Securities указано, что по сравнению с CES в январе, на нынешней конференции GTC позиционирование Groq LPU в общей продуктовой линейке NVIDIA стало более четким. NVIDIA планирует использовать свойства Groq LPU с низкой задержкой для удовлетворения приложений с высокими требованиями к интерактивности, таких как Agent AI.

Чжуан Чанлэй также отметил: когда аппаратное «бутылочное горлышко» по задержкам будет снято, дизайнеры моделей будут более уверенно исследовать более реальное время и более сложные интерактивные AI. Например, сейчас AI Agent может все еще требовать несколько секунд на «обдумывание», а в будущем, вероятно, удастся добиться настоящей реакции на уровне миллисекунд. Модель перестанет быть «кнопкой-выстрелом текста» и станет плавно, в реальном времени и как человек разговаривать с тобой.

Год кремниевой фотоники начался

Помимо NVIDIA Groq 3 LPX-стойки, второй крупной «изюминкой» платформы Rubin является NVIDIA Spectrum-6 SPX Ethernet-стойка.

Используя кремниево-оптическую технологию Spectrum-X с CPO (co-packaged optics, оптоэлектронная интеграция в едином корпусе), по сравнению с традиционными модульными трансиверами оптическая энергоэффективность может повыситься до 5 раз, а надежность системы — в 10 раз.

«Scale-Out (между стойками) — это наиболее очевидный прирост прямо сейчас». Чжуан Чанлэй подчеркнул: платформа Rubin уже начала внедрять CPO-коммутаторы, чтобы решать проблему передачи лавинообразных потоков данных между многочисленными стойками внутри дата-центра; ожидается, что в 2027 году CPO станет важной временной точкой для масштабного развертывания.

На GTC NVIDIA также раскрыла, что после Vera Rubin следующей важной архитектурой NVIDIA будет Feynman. В эту архитектуру будет включен новый CPU: NVIDIA Rosa.

При этом Rosa является ядром новой платформы. Платформа объединяет новую LPU LP40 от NVIDIA с NVIDIA BlueField-5 и CX10. А вертикальное расширение — между медными кабелями и CPO-корпусами — реализуется через NVIDIA Kyber, тогда как горизонтальное расширение на уровне оптики будет выполняться в духе уровня NVIDIA Spectrum.

«Scale-Up (внутри стойки / между чипами) — это более проницательный взгляд на перспективу». Чжуан Чанлэй отметил: в архитектуре Feynman NVIDIA планирует внедрить NVLink 8 CPO, чтобы реализовать «оптический вход в стойку», то есть заменить часть традиционных медных backplane-соединений оптической межсоединительной связью и напрямую соединять GPU и LPU. Это означает, что оптические interconnect’ы постепенно выходят из роли самого периферийного коммутатора и движутся внутрь ключевых вычислительных стоек.

По мнению Чжуан Чанлэя, оптические модули как «сосуды» для interconnect’а вычислительных мощностей: их доля в стоимости будет продолжать расти по мере расширения масштаба кластеров агентных систем. Когда CPO уйдет из лабораторий в массовую коммерцию, «эра кремниевой фотоники» уже начнется — и это напрямую подстегнет обновление всей цепочки производства коммуникационного оборудования.

Спрос на high-end PCB может взорваться

Как отмечалось выше, чтобы удовлетворить потребности AI-агентных систем в низкой задержке и длинных контекстах, NVIDIA также выпустила Groq 3 LPX-стойки для инференс-ускорения. Они включают 256 LPU-процессоров; после объединения с Vera Rubin инференсная пропускная способность на каждый мегаватт может вырасти в 35 раз.

А поставка LPU/LPX в формате стоек окажет разрушительное влияние на отрасль PCB — возможно, это будет крупнейшее сверхожидание в цепочке поставок.

PCB, то есть печатная плата, — это носитель, через который электрически соединяются электронные компоненты. PCB проникли почти во все электронные устройства. Китайская индустрия PCB как ключевой «двигатель» глобального электронного производства показывает сильный рост.

Благодаря преимуществам в управлении затратами, экологическим стандартам и комплектности цепочки поставок, текущая выручка китайской материковой индустрии PCB составляет более 50% от общемировой, и сформировались промышленные кластеры, такие как Бохайский залив, дельта Чжуцзян и дельта Янцзы.

Если смотреть сверху и снизу по цепочке, то по мере резкого роста спроса на AI и того, что капитал облачных вендоров продолжает наращивать поддержку, растут закупки AI-серверов, устройств хранения и сетевого оборудования. CICC (601066) оценивает: в 2025 году рынок серверов GPU+ASIC в пересчете на PCB будет превышать 40 миллиардов, в 2026 году — превышать 90 миллиардов; темпы роста уже удвоились.

«Сейчас глобальная индустрия PCB для AI-серверов находится в ситуации 20% дефицита спроса и предложения». Чжуан Чанлэй признал это.

По мнению Чжуан Чанлэя, поскольку LPU/LPX-стойки войдут в период пикового массового производства в конце 2026 — в 2027 году, спрос на high-end PCB будет носить характер всплеска. «Это еще больше усилит дефицит в high-end HDI и многослойных PCB, погоняя всю цепочку PCB в новую волну расширения мощностей и модернизации».

Например, из-за того что внутри LPU/LPX-стоек нужно обрабатывать огромные объемы передачи данных и связи с предельно низкой задержкой, требования к количеству слоев, материалам и технологическому процессу PCB оказываются чрезвычайно высокими. Возьмем пример LPU-стоек NVIDIA: стоимость PCB одной материнской платы может достигать 6000 долларов, а PCB стоимость всего комплекта стойки — 96k долларов (что эквивалентно почти 700k юаней). Это означает рост стоимости более чем в 10 раз по сравнению с традиционными PCB для AI-серверов.

Кроме того, чтобы соответствовать высокоскоростной передаче 224Gbps и выше, а также поддерживать высокоскоростную взаимосвязь для 256 LPU, PCB должна использовать более продвинутые подложки и дизайн. Например, обычные подложки больше не могут удовлетворять требованиям — необходимо переходить на подложки уровня M9 (медные плакированные платы), а усиливающий материал тоже должен измениться: с обычной электронно-стеклоткани (электронного стеклотканевого материала) на Q-glass ткань, чья стоимость в 10 раз выше. Даже следующее поколение продуктов уже начало тестирование материалов уровня M10.

Чжуан Чанлэй заявил, что в архитектуре Rubin Ultra даже предусмотрено введение ортогональной backplane-схемы: через 78 слоев PCB обеспечивается прямое межсоединение GPU и NVSwitch, что существенно сокращает использование медных кабелей. Это означает, что PCB начинает замещать роль части традиционных кабелей, становясь «каркасом» для interconnect внутри стойки.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить