Рен Хуаньчжун оголосив про прихід епохи дедукції, що нові змінні принесе LPU?

Місцевого часу 16 березня CEO компанії NVIDIA Дженсен Хуанг на конференції GTC представив нову обчислювальну платформу для AI-агентів — NVIDIA Vera Rubin.

Платформа виглядає як набір надпотужного «обчислювального спорядження»: вона поєднує кілька ключових компонентів, зокрема Vera CPU (центральний процесор), Rubin GPU (графічний процесор), NVLink 6 комутатори, ConnectX-9 SuperNIC (супермережеву карту), BlueField-4 DPU (процесор обробки даних), а також Spectrum-6 (Ethernet-комутатор) і новий Groq 3 LPU (модуль обробки мови).

Простіше кажучи, це повний комплект апаратного забезпечення, спеціально створений для AI, завдяки якому обчислення стають швидшими та «розумнішими».

Серед іншого, NVIDIA також представила Groq 3 LPX стійку (rack), спеціально розроблену для масштабних розгортань. Це означає, що вона може об’єднувати сотні LPU для спільної роботи, ніби це «супермозок», забезпечуючи надшвидке виведення (inference) та можливість обробляти величезні обсяги тексту. Ця стійка оснащена 256 LPU, має 128GB швидкої вбудованої пам’яті для зберігання на кристалі, а швидкість передавання сягає 640 TB/s.

На думку фахівців галузі, головний акцент цього релізу — не лише оновлення чипів, а й стрибок у щільності інтеграції систем. Директор групи AI/інтелектуального виробництва інвесткомпанії «Хмарна гора» (Yunqi Capital) Чжуан Чанлєй у коментарі кореспондентові 21st Century Business Herald (21世纪经济报道) зазначив: «Найбільша зміна полягає в тому, що NVIDIA офіційно підняла LPU з рівня окремого чипа чи прискорювальної картки до рівня повноцінної стійкової (rack) системи, що стоїть поруч із GPU».

Особливо важливо, що кількість LPU в LPX-стійці з першого покоління — 64 штуки — зросла до 256. Такий стрибок щільності суттєво перевищує очікування ринку та відображає нагальну потребу в наднизьких затримках і виведенні з довгими текстами.

Чжуан Чанлєй вважає, що це означає: AI-обчислення рухаються від підходу «навчання як головне» до повного переходу на «навчання + виведення», причому виведення стає новою системною базовою інфраструктурою.

Ключове — для виведення

LPU — це нова архітектура чипів, створена для обчислювально-інтенсивних задач із послідовною обробкою. Її основна мета — шляхом архітектурних інновацій оптимізувати ефективність виведення мовних моделей.

В архітектурі: одна Groq 3 LPU інтегрує 500 MB SRAM. Один із ключових елементів LPU — MEM-блок: це плоска пам’яті-орієнтована (SRAM-first) архітектура, у якій 500 MB швидкої внутрішньої on-die SRAM слугують основним робочим сховищем для виведення.

(Джерело зображення: сайт NVIDIA)

Компілятор і runtime розміщують активні робочі набори (включно з вагами, активаціями та станом KV) у пам’яті на чипі та явно переміщують дані, замість того щоб покладатися на кеші, керовані апаратно. Це зменшує непередбачувані затримки та, розміщуючи дані, для яких затримка найбільш критична, ближче до обчислень, допомагає забезпечувати низьку й стабільну затримку.

Чжуан Чанлєй розповів кореспондентові, що ключова перевага Groq LPU — не лише швидкість, а й «швидкість, яка щоразу однакова», тобто детермінована затримка. Архітектурний дизайн із часовою детермінованістю (Timing Deterministic) потребує глибокого кастомізування обчислювальних конвеєрів, доступу до пам’яті та компілятора — технічний поріг дуже високий.

Для сценаріїв на кшталт промислового керування, автоматизованого водіння та інших, де жорсткі вимоги до роботи в реальному часі, така «детермінованість» є нагальною потребою. Натомість універсальні GPU-архітектури та ASIC, розроблені хмарними провайдерами на основі спрощених наборів інструкцій, складно досягти такої межі детермінованості, одночасно гарантуючи гнучкість.

Аналітики з Huatai Securities зазначили, що, порівняно з CES у січні, на цьому GTC реліз Groq LPU в продуктовій лінійці NVIDIA почав набувати чіткіших ролей. NVIDIA планує використовувати властивості низької затримки LPU для задоволення вимог до інтерактивності, зокрема для Agent AI тощо.

Чжуан Чанлєй також підкреслив: коли апаратні вузькі місця за затримкою буде усунено, розробники моделей матимуть більше впевненості, щоб досліджувати більш реалістичні, більш складні інтерактивні AI. Наприклад, зараз AI-агентам, можливо, ще потрібні секунди на «роздуми», а в майбутньому вони можуть реально перейти до реакції на рівні мілісекунд. Модель більше не буде «просто словами, що стрибають», а стане плавною, реального часу, як людина, коли спілкуєшся з нею в діалозі.

Рік силіконних фотонів починається

Окрім NVIDIA Groq 3 LPX-стійки, ще однією великою перевагою платформи Rubin є NVIDIA Spectrum-6 SPX Ethernet-стійка.

Застосовуючи технологію Spectrum-X silicon photonics для оптоелектронної інтеграції в одному корпусі (CPO), порівняно з традиційними змінними трансиверами, оптична енергоефективність зростає максимум у 5 разів, а надійність системи — у 10 разів.

«Scale-Out (взаємоз’єднання між стійками/шафами) — це зараз найбільш чітке джерело приросту». Чжуан Чанлєй зазначив, що платформа Rubin уже почала впроваджувати CPO-комутатори для вирішення проблеми передавання потоків даних між великою кількістю шаф у межах дата-центру; очікується, що 2027 рік стане важливою часовою точкою для масового розгортання CPO.

На GTC NVIDIA також повідомила, що після Vera Rubin наступною важливою архітектурою NVIDIA стане Feynman; ця архітектура міститиме новий CPU: NVIDIA Rosa.

При цьому Rosa — ключова частина нової платформи. Її створено шляхом поєднання нових LPU LP40 з NVIDIA разом із NVIDIA BlueField-5 і CX10. Вертикальне розширення мідних кабелів і оптоелектронної інтеграції в єдиному корпусі реалізує NVIDIA Kyber, а горизонтальне оптичне розширення рівня NVIDIA Spectrum — також за допомогою відповідних рішень.

«Scale-Up (всередині стійки/між чипами) — це ще більш далекоглядна «вишка».» Чжуан Чанлєй зазначив, що в архітектурі Feynman NVIDIA планує запровадити NVLink 8 CPO, щоб реалізувати «світло в стійку», тобто замінити частину традиційних мідних backplane-з’єднань оптичними взаємоз’єднаннями та безпосередньо з’єднати GPU з LPU. Це означає, що оптичні з’єднання рухаються від найкращих/найвіддаленіших комутаторів дедалі ближче до внутрішньої «серцевини» стійок обчислення.

На думку Чжуан Чанлєя, оптичні модулі як «судини» взаємоз’єднання обчислювальної потужності зростають у ціннісному обсязі паралельно з розширенням масштабу кластерів агентів. Коли CPO переходить від лабораторії до масштабного комерційного використання, «рік силіконних фотонів» уже почався — і це напряму стимулюватиме модернізацію всієї індустріальної ланки обладнання для зв’язку.

Потреба в high-end PCB може піти «хвилею»

Як зазначалося раніше, для задоволення потреби агентних систем у низьких затримках і довгих контекстах NVIDIA також представила Groq 3 LPX стійку для виведення (inference acceleration), що містить 256 процесорів LPU. У поєднанні з Vera Rubin це дозволяє підвищити пропускну здатність виведення на мегаватт на 35 разів.

А відвантаження LPU/LPX у форматі стійок (rack) матиме руйнівний вплив на ринок PCB. Ймовірно, це буде найбільший за ефектом і перевищенням очікувань етап у всій ланці постачання.

PCB, тобто друкована плата — це носій, на якому електрично з’єднуються електронні компоненти. Вона проникла майже в усі електронні пристрої. Китайська індустрія PCB як ключовий двигун глобального електронного виробництва зростає швидкими темпами.

Завдяки перевагам у контролі витрат, екологічних стандартах і наявності комплектуючої інфраструктури ланцюга постачання, на сьогодні промислове виробництво PCB у материковому Китаї займає понад 50% від світового. Також сформувалися індустріальні кластери на кшталт району Бохайської затоки, дельти Чжуцзян і дельти Янцзи.

З точки зору над- і нижньої ланок: зі сплеском попиту на AI хмарні провайдери продовжують нарощувати капітальні витрати (capex), що стимулює закупівлі AI-серверів, накопичувачів і мережевого обладнання. За оцінками CICC (CITIC Securities) (601066), ринковий простір для PCB, що відповідають серверам GPU+ASIC у 2025 році, перевищує 40 млрд юанів; у 2026 році — понад 90 млрд юанів. Темпи зростання вже подвоїлися.

«Зараз глобальна галузь PCB для AI-серверів уже перебуває в стані дефіциту попиту/пропозиції на 20%». Чжуан Чанлєй відверто визнав це.

На думку Чжуан Чанлєя, зі входом LPU/LPX-стійок у період масового виробництва наприкінці 2026 року — у 2027 році — попит на high-end PCB матиме ефект «спалаху». «Це ще більше посилить дефіцит high-end HDI та PCB з великою кількістю шарів, загнавши всю ланку PCB у новий раунд розширення виробничих потужностей і циклів модернізації».

Наприклад, через те, що всередині LPU/LPX-стійок потрібно обробляти величезні обсяги передавання даних і забезпечувати наднизькі затримки комунікації, вимоги до кількості шарів, матеріалів і технології для PCB дуже високі. На прикладі LPU-стійок NVIDIA: вартість PCB однієї материнської плати може сягати 6000 доларів США, а загальна вартість PCB для повної стійки — до 9,6 тисячі доларів США (еквівалентно майже 700 тис. юанів). Це підвищує цінність щодо традиційних PCB для AI-серверів більш ніж у 10 разів.

Крім того, для відповідності високошвидкісній передачі 224Gbps і вище, а також для підтримки високошвидкісної взаємодії для 256 LPU, PCB має використовувати більш високорівневі базові матеріали та конструкції. Наприклад, звичайна підкладка більше не відповідає потребам — її потрібно підвищити до рівня M9, мідьованої ламінатної плати (覆铜板). Також посилений матеріал потрібно замінити: із звичайної електронної склотканини (скловолокнистої тканини) на Q-glass тканину, вартість якої у 10 разів вища. Навіть у наступному поколінні продукти вже почали проходити тести матеріалу M10.

Чжуан Чанлєй зазначив, що в архітектурі Rubin Ultra навіть вводять рішення з ортогональною backplane-конструкцією: за допомогою PCB на 78 шарів забезпечується пряме взаємоз’єднання між GPU та NVSwitch, що суттєво зменшує використання мідних кабелів. Це означає, що PCB починає замінювати частину ролі традиційних кабелів, перетворюючись на «остов» для внутрішньостійкових взаємоз’єднань.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити