Хуан Рень Сюн на виступі на GTC заявив, що розумове обчислення збільшилося в 100 разів
Сьогодні на конференції GTC Хуан Жень Сюн представив абсолютно новий Blackwell Ultra GPU, а також похідні від нього серверні SKU для інференції та агентів, включаючи всі продукти RTX на основі архітектури Blackwell. Усе це пов'язано з обчислювальною потужністю, але ще важливіше, як ефективно і раціонально використовувати цю потужність безперервно.
У глибині Хуан Реньшин вважає, що для досягнення ШІ потрібна обчислювальна потужність, для створення роботів зі штучним інтелектом потрібна обчислювальна потужність, для побудови Omniverse та світової моделі потрібна безперервна обчислювальна потужність, а щодо того, скільки обчислювальної потужності потрібно для того, щоб людство побудувало віртуальний «паралельний вимір», NVIDIA дала відповідь — у 100 разів більше, ніж минуле.
Для підтримки своєї точки зору Хуан Жень Сюн показав низку даних на місці GTC - в 2024 році чотири провідні хмарні фабрики в США закупили 1,3 мільйона чіпів архітектури Hopper, а до 2025 року цей показник стрімко зріс до 3,6 мільйона GPU Blackwell.
Ось деякі ключові моменти конференції NVIDIA GTC 2025, підготовлені журналістами Tencent Technology:
Blackwell все в одному онлайн
1) щорічно вибухове виробництво Blackwell Ultra при вимиманні зубної пасти
Минулого року на конференції GTC компанія NVIDIA представила архітектуру Blackwell і випустила чіп GB200. Цього року офіційно змінили назву цього чіпу з GB300, як його називали в чутках, і тепер він просто отримав назву Blakwell Ultra.
Проте з апаратного боку це означає, що в минулому році була замінена нова пам'ять HBM. Одне речення розуміється так, що Blackwell Ultra = велика версія пам'яті Blackwell.
Blackwell Ultra складається з двох чіпів TSMC N4P (5нм) технології, чіпа архітектури Blackwell та Grace CPU, а також більш продвинутої пам'яті HBM3e з 12-шаровим стеклом, що забезпечує обсяг пам'яті на рівні 288 ГБ, і, як і попереднє покоління, підтримує п'яте покоління NVLink для досягнення міжплиткової пропускної здатності на рівні 1,8 ТБ/с.
Параметри продуктивності NVLink в минулих поколіннях
На базі оновлення сховища обчислювальна потужність Blackwell GPU з точністю FP4 може сягати 15PetaFLOPS, а швидкість міркувань на основі механізму прискорення уваги збільшується в 2,5 рази порівняно з чіпом архітектури Hopper.
2)Blackwell Ultra NVL72: AI спеціалізований шафа для машинного навчання
Як і GB200 NVL72, NVIDIA також представила схожий продукт - шафу Blackwell Ultra NVL72, яка складається з 18 обчислювальних піддонів. Кожен обчислювальний піддон містить 4 чіпа Blackwell Ultra GPU та 2 чіпи Grace CPU, в сумі - 72 чіпи Blackwell Ultra GPU та 36 чіпів Grace CPU. Обсяг відеопам'яті становить 20 ТБ, загальна пропускна здатність - 576 ТБ/с, а також 9 піддонів із комутаторами NVLink (18 чіпів комутаторів NVLink), пропускна здатність NVLink між вузлами - 130 ТБ/с.
В стійці вбудовано 72 мережевих карт CX-8, які забезпечують пропускну здатність 14,4 Тб/с, тоді як мережева карта Quantum-X800 InfiniBand та Spectrum-X 800G Ethernet можуть зменшити затримку та дрібні відхилення, підтримуючи великі кластери штучного інтелекту. Крім того, в рамку також інтегровано 18 карт BlueField-3 DPU для підвищення мережевої безпеки, безпеки мультиаренди та прискорення обробки даних.
NVIDIA вказала, що цей продукт спеціально розроблений для "епохи раціональної інференції AI", застосування включають інтелектуальний AI, агента та фізичний AI( для роботів, синтезу даних для навчання автопілотів). Продуктивність AI порівняно з попереднім поколінням продуктів GB200 NVL72 зросла у 1,5 рази, а в порівнянні з DGX-шкафом, орієнтованим на архітектуру Hopper, може забезпечити центрам обробки даних можливість збільшення прибутку в 50 разів.
За інформацією від офіційного джерела, розрахунок DeepSeek-R1 на 6710 мільярдів параметрів може здійснюватися на основі продукту H100 зі швидкістю 100 токенів на секунду, в той час як використання схеми Blackwell Ultra NVL72 може досягати швидкості 1000 токенів на секунду.
Переведено у час, таке ж розумове завдання, H100 потрібно бігти 1,5 хвилини, тоді як Blackwell Ultra NVL72 може завершити за 15 секунд.
Параметри апаратного забезпечення Blackwell Ultra NVL72 та GB200 NVL72
За інформацією, наданою NVIDIA, відомо, що продукт Blackwell NVL72 планується випустити на ринок у другій половині 2025 року. Клієнтами є виробники серверів, хмарні постачальники та орендодавці обчислювальної потужності.
Виробник серверів
15 виробників, таких як Cisco/Dell/HPE/Lenovo/Супермікро
Хмарний завод
AWS/Google Cloud/Azure/Oracle та інші провідні платформи хмарних обчислень
Постачальник послуг оренди обчислювальної потужності
Згідно з дорожньою картою від NVIDIA, головною ареною GTC2025 є Blackwell Ultra.
Проте Хуан Жень-сюн також використовує цю нагоду, щоб оголосити про наступне покоління GPU на основі архітектури Rubin, яке вийде на ринок в 2026 році, а також потужний серверний блок Vera Rubin NVL144 - 72 чіпа Vera CPU + 144 чіпа Rubin GPU, з використанням 288 ГБ відеопам'яті HBM4, пропускна здатність відеопам'яті 13 ТБ/с, з використанням шестого покоління NVLink та мережевої карти CX9.
На скільки потужний цей продукт? Обчислювальна потужність FP4 точності досягає 3,6 ексафлопс, а навчальна потужність FP8 точності - 1,2 ексафлопс; продуктивність становить 3,3 раза більше, ніж у Blackwell Ultra NVL72.
Якщо ви вважаєте, що цього недостатньо, не переймайтеся, в 2027 році з'явиться ще потужніший шафт Rubin Ultra NVL576, точність між FP4 розуміння та FP8 навчання складає відповідно 15 екзафлопсів та 5 екзафлопсів, що в 14 разів перевищує Blackwell Ultra NVL72.
Офіційні характеристики Rubin Ultra NVL144 та Rubin Ultra NVL576, надані компанією NVIDIA
4) Blackwell Ultra версія DGX Super POD "фабрика суперкомп'ютерів"
Для клієнтів, які наразі вимоги не відповідають Blackwell Ultra NVL72 та не потребують будувати великі AI-кластери, відповідним рішенням від NVIDIA є фабрика штучного інтелекту DGX Super POD AI на основі Blackwell Ultra, яка працює за принципом Plug-and-Play.
Як завод штучного інтелекту з миттєвим використанням, DGX Super POD зосереджений на сценаріях штучного інтелекту, таких як генеративний штучний інтелект, штучний інтелект агента та фізичне моделювання, охоплюючи вимоги до розширення обчислювальних потужностей на всіх етапах від попередньої підготовки до післяпідготовки та виробничого середовища. Equinix, як перший постачальник послуг, надає підтримку рідкісного/повітряного охолодження для інфраструктури.
DGX SuperPod, побудований на основі Blackwell Ultra
На основі Blackwell Ultra розроблено дві версії DGX Super POD:
DGX SuperPOD з вбудованим DGX GB300 (Grace CPU ×1 + Blackwell Ultra GPU ×2), загалом 288 шт. Grace CPU + 576 шт. Blackwell Ultra GPU, забезпечує 300 ТБ швидкої пам'яті, обчислювальна потужність під точністю FP4 складає 11.5 ексафлопс
DGX SuperPOD з вбудованим DGX B300, ця версія не містить чіпів CPU Grace, має додатковий простір для розширення та використовує повітряне охолодження, основне застосування - звичайні корпоративні центри обробки даних
5) Іскра DGX і станція DGX
У січні цього року NVIDIA показала концепційний продукт штучного інтелекту AI PC Project DIGITS на CES за 3000 доларів, тепер він має офіційну назву DGX Spark.
Щодо параметрів продукту, він має чіп GB10, обчислювальну потужність під FP4 точністю досягає 1PetaFlops, вбудовану пам'ять 128 ГБ LPDDR5X, мережеву карту CX-7, накопичувач NVMe ємністю 4 ТБ, операційну систему DGX OS на базі Linux, підтримку таких фреймворків, як Pytorch, а також попередньо встановлені деякі базові інструменти для розробки програмного забезпечення для штучного інтелекту від NVIDIA, які дозволяють запускати моделі з 2000 мільярдами параметрів. Розміри цілої системи майже такі ж, як у Mac mini, дві системи DGX Spark можуть бути пов'язані між собою і запускати моделі з понад 4000 мільярдами параметрів.
Хоча ми й говоримо, що це AI ПК, насправді воно все ще належить до категорії суперкомп'ютерів, тому було включено в серію продуктів DGX, а не в споживчі продукти, такі як RTX.
Проте деякі також скаржаться на цей продукт, пропагандистська продуктивність FP4 низька, переведена в точність FP16 може конкурувати лише з RTX 5070, навіть з Arc B580 за 250 доларів, тому вартість продукту надзвичайно низька.
Крім DGX Spark, названого офіційно, NVIDIA також випустила робочу станцію зі штучним інтелектом на основі Blackwell Ultra. Ця робоча станція містить процесор Grace і графічний процесор Blackwell Ultra, об'єднану пам'ять обсягом 784 ГБ, мережеву карту CX-8 та надає 20 петафлопсів обчислювальної потужності для штучного інтелекту (не офіційно позначена, теоретично також FP4 точність).
6) RTX розчистив AI PC та навіть стиснувся в центр даних
Все, що було введено раніше, є продуктами SKU на основі процесора Grace CPU та графічного процесора Blackwell Ultra GPU, які є продуктами класу корпоративного рівня. Враховуючи те, що багато людей зацікавлені в використанні продуктів такого типу, як RTX 4090, для штучного інтелекту, NVIDIA на цьому GTC подальшим чином підсилила інтеграцію серії Blackwell та RTX, випустивши хвилю AI PC GPU з вбудованою пам'яттю GDDR7, які охоплюють ноутбуки, робочі станції та навіть центри обробки даних.
ПК-версія GPU: включає RTX PRO 6000 Blackwell робоча станція, RTX PRO 6000 Blackwell Max-Q версія робоча станція, RTX PRO 5000 Blackwell, RTX PRO 4500 Blackwell та RTX PRO 4000 Blackwell
Графічні процесори ноутбуків: RTX Pro 5000 Blackwell, RTX PRO 4000 Blackwell, RTX, PRO 3000 Blackwell, RTX PRO 2000 Blackwell, RTX PRO 1000 Blackwell і RTX PRO 500 Blackwell*
Центр обробки даних GPU: NVIDIA RTX PRO 6000 Blackwell версія сервера
NVIDIA створює для корпоративних обчислень AI-екосистему
Вищезазначене є лише частиною SKU, що були налаштовані для різних сценаріїв на базі чіпу Blackwell Ultra, від робочих станцій до даних центрів, NVIDIA називає це "Сім'я Blackwell". Китайський переклад - "Сімейний набір Blackwell" - відповідає.
Фотоніка від Інвіді: система CPO на плечах товариша
Концепція спільного упакування фотоелектричного модуля (CPO) в цілому полягає в упакуванні чіпа комутатора та оптичного модуля для можливості перетворення світлового сигналу в електричний сигнал з максимальним використанням передавальних властивостей світлового сигналу.
До цього часу галузь постійно обговорювала продукти комутаторів мережі CPO від NVIDIA, але вони так і не вийшли на ринок. Хуан Жень Сюн пояснив на місці, що через велику кількість використання в оптичних з'єднаннях в центрах обробки даних, витрати на оптичні мережі становлять 10% від ресурсів обчислення, а вартість оптичного з'єднання напряму впливає на збільшення мережі масштабування вузлів обчислення та щільність продуктивності штучного інтелекту.
Параметри кремнієвих оптичних спільних кристалів Quantum-X та Spectrum-X, показані на GTC
Цього року GTC від NVIDIA випустила одноразово кремнієво-оптичний спільний запікання кристал, Spectrum-X кремнієво-оптичний спільний запікання кристал та три похідні вироби: Quantum 3450-LD, Spectrum SN6810 та Spectrum SN6800.
Quantum 3450-LD: 144 порти з пропускною здатністю 800 ГБ/с, пропускна здатність задньої панелі 115 ТБ/с, рідне охолодження
Spectrum SN6810: 128 портів по 800 ГБ/с, пропускна здатність плати 102,4 ТБ/с, рідне охолодження
Spectrum SN6800: 512 портів з пропускною здатністю 800 ГБ/с, пропускна здатність задньої панелі 409.6 ТБ/с, рідне охолодження
Вищезазначені продукти узгоджуються під брендом "NVIDIA Photonics", NVIDIA вважає, що це платформа, розроблена за участю партнерів з CPO з метою спільної розробки, наприклад, її модулятор кільцевої модифікації (MRM) оптимізований на основі оптичного двигуна TSMC, підтримує високу потужність, енергоефективність модуляції лазера та використовує знімний оптичний конектор.
Цікаво, що згідно з попередніми даними відомих фахівців, мікроколивач модуляції (MRM) від TSMC був створений на базі технології 3-нм та передової упаковки CoWoS в співпраці з Broadcom.
За даними, наданими NVIDIA, інтегрований світловий модуль Photonics комутатора у порівнянні з традиційним комутатором забезпечує збільшення продуктивності в 3,5 рази, ефективність розгортання може бути підвищена в 1,3 рази, а також більше ніж в 10 разів розширена еластичність.
Ефективність моделі PK DeepSeek: програмний екосистема відправляє AI Agent
Хуан Реньсюнь на місці описує "великий пиріг" AI infra
Під час цього двогодинного GTC Хуан Рень Сюн взагалі говорив лише близько півгодини про програмне забезпечення та конкретний інтелект. Тому багато деталей було доповнено офіційною документацією, а не повністю з місця події.
1)Nvidia Dynamo, новий CUDA, побудований Nvidia в галузі виведення
Nvidia Dynamo - це абсолютний король програмного забезпечення, представлений на цьому заході.
Це відкрите програмне забезпечення, спеціально створене для прискорення майнингу, навчання та роботи по всьому центру обробки даних. Дані про продуктивність Dynamo дуже вражають: на існуючій архітектурі Hopper Dynamo може подвоїти продуктивність стандартної моделі Llama. Щодо спеціалізованих моделей машинного навчання, таких як DeepSeek, оптимізація інтелектуального майнингу від NVIDIA Dynamo може збільшити кількість токенів, що генеруються кожним GPU, більш ніж у 30 разів.
Хуан Реньсюн показав, що Blackwell з Dynamo може перевищити Hopper більш ніж у 25 разів
Ці поліпшення Dynamo в основному завдяки децентралізації. Воно розподіляє різні обчислювальні етапи LLM (розуміння запитів користувачів та генерація найкращої відповіді) на різні GPU, щоб кожен етап міг оптимізуватися незалежно, підвищуючи продуктивність та прискорюючи швидкість реакції.
Наприклад, на етапі обробки вводу, який також відомий як етап передзаповнення, Dynamo може ефективно розподіляти ресурси GPU для обробки введення користувача. Система використовуватиме кілька груп GPU для паралельної обробки запитів користувачів, сподіваючись, що обробка GPU буде більш розподілена та швидка. Dynamo використовує режим FP4 для одночасного паралельного «читання» та «розуміння» питань користувача за допомогою кількох GPU, при цьому одна група GPU обробляє знання про «Другу світову війну», інша група обробляє відповідні історичні матеріали про «причину», третя група обробляє часову шкалу та події щодо «подій», цей етап схожий на одночасне переглядання великої кількості матеріалів декількома науковими асистентами.
При генерації вихідних токенів, тобто на етапі декодування, графічний процесор повинен бути більш цілеспрямованим і злагодженим. У порівнянні з кількістю графічних процесорів, цей етап вимагає більшої пропускної здатності для поглинання мислячої інформації попереднього етапу, тому він також вимагає більше читання кешу. Dynamo оптимізує зв'язок між графічними процесорами та розподіл ресурсів, щоб забезпечити послідовну та ефективну генерацію відповідей. З одного боку, він повною мірою використовує можливості зв'язку NVLink з високою пропускною здатністю архітектури NVL72 для максимальної ефективності генерації токенів. З іншого боку, «Розумний маршрутизатор» спрямовує запити до графічного процесора, який кешував відповідний ( KV) ключ-значення, що дозволяє уникнути подвійних обчислень і значно покращує швидкість обробки. Уникаючи подвійних обчислень, деякі ресурси графічного процесора звільняються, і Dynamo може динамічно розподіляти ці незадіяні ресурси для нових вхідних запитів.
Ця архітектура дуже схожа на архітектуру Mooncake від Kimi, але Nvidia зробила більше підтримки на нижньому рівні інфраструктури. Можливо, Mooncake може збільшити швидкість приблизно в 5 разів, але випередження Dynamo в логіці, швидше за все, більш помітне.
Наприклад, у декількох важливих інновацій Dynamo можна відзначити, що "GPU Planner" може динамічно налаштовувати розподіл GPU в залежності від навантаження, "бібліотека низької затримки" оптимізує передачу даних між GPU, а "менеджер пам'яті" розумно переміщує дані інференції між пристроями зберігання на різних рівнях вартості, що подальше знижує операційні витрати. А розумний роутер, система маршрутизації на основі LLM, спрямовує запити на найбільш підходящий GPU, що зменшує повторні обчислення. Цей ряд можливостей дозволяє досягнути оптимізації навантаження GPU.
З використанням цієї системи машиною можна ефективно масштабувати до великого кластера GPU, що дозволяє розширити один запит штучного інтелекту до 1000 GPU для повного використання ресурсів центру обробки даних.
Для операторів GPU це поліпшення суттєво знижує вартість кожного мільйона токенів, тоді як продуктивність значно зростає. Одночасно кожен користувач отримує більше токенів за секунду, реакція швидше, поліпшується користувацький досвід.
За допомогою Dynamo сервер досягає золотої лінії вибуття та швидкості відповіді
По відміну від CUDA, як основи для програмування GPU, Dynamo є системою більш високого рівня, яка спрямована на інтелектуальне розподіл та управління великими навантаженнями мислення. Вона відповідає за розподілений рівень планування мислення, який знаходиться між додатком та основною обчислювальною інфраструктурою. Проте, так само як CUDA повністю змінила картину обчислень на GPU більше десяти років тому, Dynamo також може вдало створити новий парадигм ефективності м'якої та апаратної частини мислення.
Dynamo є повністю відкритим, підтримує всі основні фреймворки від PyTorch до Tensor RT. Відкриття не заважає йому бути оборонними стінами. Як і CUDA, він працює ефективно лише на GPU від NVIDIA, є частиною стеку програмного забезпечення для штучного інтелекту NVIDIA.
Завдяки цьому програмному забезпеченню NVIDIA побудувала свою оборонну систему проти спеціалізованих інферентних AISC-чіпів, таких як Groq. Щоб домінувати в інферентній інфраструктурі, необхідно правильно поєднувати апаратне та програмне забезпечення.
2)Llama Nemotron нова модель виставка ефективна, але все ще не впоралася з DeepSeek
Хоча в аспекті використання сервера Dynamo дійсно досить вражаючий, але Nvidia трохи відстає в навчанні моделей від справжніх фахівців.
NVIDIA на цьому GTC представила нову модель Llama Nemotron, що пропонує високу ефективність та точність. Вона походить від моделей серії Llama та була спеціально налаштована NVIDIA; в порівнянні з оригінальною Llama, ця модель була оптимізована за допомогою алгоритмів та стала більш легкою, всього 48B. Вона також отримала розуміння, схоже на o1. Так само, як у моделей Claude 3.7 та Grok 3, у моделі Llama Nemotron є вбудований перемикач розуміння, який користувач може ввімкнути чи вимкнути. Ця серія має три рівні: початковий Nano, середній Super та флагманський Ultra, кожен з яких відповідає потребам підприємств різного масштабу.
Щодо ефективності, цей модельний набір даних для налаштування складається виключно з синтетичних даних, створених самою NVIDIA, загальна кількість близько 60B токенів. У порівнянні з DeepSeek V3, який тренувався протягом 1,3 мільйона годин на H100 для повноцінного навчання, ця модель лише з 1/15 обсягом параметрів DeepSeek V3 витратила всього 360 тис. годин на H100 лише на налаштування. Ефективність навчання гірша на один рівень порівняно з DeepSeek.
У висновку щодо ефективності моделі Llama Nemotron Super 49B можна сказати, що вона дійсно працює набагато краще, ніж попередня модель. Її пропускна здатність токенів може досягати 5 разів більше, ніж у Llama 3 70B, із використанням одного GPU в центрі обробки даних вона може обробляти понад 3000 токенів за секунду. Однак, згідно з даними, оприлюдненими на останній день в Open Day в DeepSeek, середня пропускна здатність кожного вузла H800 під час попереднього заповнення становить близько 73,7 тис. токенів/с (включаючи кеш-попадання) або при декодуванні приблизно 14,8 тис. токенів/с. Різниця між ними все ще досить помітна.
З погляду продуктивності, Llama Nemotron Super 49B перевершує Llama 70B, згідно всіх показників, розроблених DeepSeek R1. Однак, беручи до уваги часті випуски невеликих, високопродуктивних моделей, таких як Qwen QwQ 32B, Llama Nemotron Super, ймовірно, важко конкурувати з цими моделями, що можуть змагатися з R1.
Найгірше те, що ця модель фактично підтверджує, що DeepSeek, можливо, краще розуміє, як налаштовувати GPU під час навчання, ніж NVIDIA.
3) Нова модель лише передмова до екосистеми AI Agent від NVIDIA, AIQ вже є основним стравою
Навіщо NVIDIA розробляє модель мислення? Головна мета полягає в підготовці до наступної точки вибуху штучного інтелекту, на яку рахує Ло Гуан - AI Agent. З тих пір, як великі фабрики, такі як OpenAI, Claude, поступово створюють базу агента через DeepReasearch, MCP, NVIDIA очевидно вважає, що час агента настав.
Проект NVIDA AIQ - це спроба NVIDIA. Він безпосередньо надає готовий робочий процес AI Agent планувальника на основі моделі мисливця Nemotron Llama. Цей проект відноситься до рівня синтезу NVIDIA (Blueprint), що означає набір передконфігурованих робочих процесів, що є шаблонами, які допомагають розробникам легше інтегрувати технології та бібліотеки NVIDIA. А AIQ є шаблоном агента, який надається NVIDIA.
Як і Manus, він інтегрує зовнішні інструменти, такі як пошукові системи та інші професійні AI-агенти, що дозволяє цьому агенту як шукати, так і використовувати різноманітні інструменти. Завдяки плануванню моделі мислення Llama Nemotron, рефлексії та оптимізації схем обробки для виконання завдань користувача. Крім того, він підтримує побудову робочого потоку з використанням багатьох агентів.
Набагато більш складною є система RAG, спрямована на корпоративні файли, ніж у Manus. Ця система включає в себе ряд кроків, таких як видобуток, вбудовування, векторне зберігання, перегрупування, що забезпечують використання даних підприємства агентом через LLM.
При цьому NVIDIA також випустила платформу для AI-даних, яка підключає модель мислення AI до систем даних підприємства, утворюючи DeepReasearch спеціально для даних підприємства. Це спричинило значний розвиток технології зберігання, що перетворило систему зберігання з простого сховища даних на інтелектуальну платформу з активною здатністю до мислення та аналізу.
Крім того, AIQ дуже наголошує на механізмах спостереження та прозорості. Це дуже важливо для безпеки та подальшого вдосконалення. Розробники можуть в реальному часі відстежувати діяльність агента та безперервно оптимізувати систему на основі даних про продуктивність.
Загалом NVIDA AIQ - це стандартний шаблон робочого процесу агента, який надає різноманітні можливості агента. Це можна вважати програмним забезпеченням Dify класу, яке еволюціонувало до епохи мислення.
Основна модель базового робота випущена, NVIDIA планує створити повністю інкорпороване екологічне середовище
1) Космос, що дозволяє інтелектуальній речі розуміти світ
Якщо говорити про спрямованість Agent або ставки на майбутнє, то NVIDIA в повній мірі може бути вважати інтегратором майбутнього в галузі вбудованого інтелекту.
Нівідімо, дані та обчислювальна потужність - всі ці три складові NVIDIA вже підготували.
Спочатку розповімо про модель. Цього разу на GTC була представлена оновлена версія базової моделі Cosmos, яка була оголошена в січні цього року.
Cosmos - це модель, яка може прогнозувати майбутні зображення на основі поточних зображень. Вона може генерувати докладне відео з текстових / зображення вхідних даних, прогнозуючи розвиток сценарію шляхом поєднання поточного стану (зображення / відео) з дією (підказка / сигнал управління). Оскільки це потребує розуміння фізичних причинно-наслідкових законів світу, NVIDIA називає Cosmos світовою базовою моделлю (WFM).
Для втіленого інтелектуального агента важливість передбачення поведінки машин полягає у здатності визначити, який вплив вона матиме на зовнішній світ. Лише тоді модель може планувати поведінку на основі прогнозів, тому модель світу стає базовою моделлю втіленого інтелекту. З цією базовою моделлю прогнозу світу, яка враховує зміни в часі та фізичному середовищі, шляхом налаштування наборів даних для конкретних завдань, таких як автопілотування та робототехнічні завдання, ця модель може задовольнити потреби реалізації різних втілених інтелектуальних систем з фізичною формою.
Перша частина моделі, Cosmos Transfer, перетворює структурований текст відео на керований фотореалістичний відеовихід і генерує великомасштабні синтетичні дані з повітря. Це вирішує найбільше вузьке місце втіленого інтелекту сьогодні – проблему нестачі даних. Більш того, ця генерація є «керованою», що означає, що користувач може задати конкретні параметри (наприклад, погодні умови, властивості об'єкта і т.д.), і модель буде відповідним чином коригувати результати генерації, роблячи процес генерації даних більш контрольованим і цілеспрямованим. Весь процес також може бути об'єднаний Ominiverse і Cosmos.
Космос заснований на реальній симуляції Ominiverse
Друга частина Cosmos Predict може генерувати віртуальний стан світу з мульти-модальним входом, підтримуючи генерацію кількох кадрів та передбачення траєкторії руху. Це означає, що при заданих початковому та кінцевому станах модель може генерувати раціональний проміжний процес. Це є ключовою здатністю когнітивного та побудовного мислення в реальному світі.
Третя частина - це Cosmos Reason, це відкрита та повністю налаштовувана модель з часопросторовими здатностями сприйняття, яка розуміє відеодані за допомогою ланцюга мислення та передбачає результати взаємодії. Це здатність покращувати планування та передбачати результати поведінки.
Завдяки поступовому накладанню цих трьох складових Cosmos може забезпечити повний ланцюжок поведінки від токенізації реальних зображень + токенізації текстових команд до токенізації машинних дій виводу.
Ця базова модель справді має непоганий ефект. Лише через два місяці з неї почали користуватися такі провідні компанії, як 1X, Agility Robotics, Figure AI. Велика мовна модель не випереджала, але інтелектуальна машина від Nvidia дійсно на першій лінії.
2) Ісаак GR00T N1, перший в світі базовий модель людино-подібного робота
З благодійністю Cosmos, Nvidia природньо використовує цю рамку для налаштування базової моделі Isaac GR00T N1, призначеної для людських роботів.
Він використовує двохсистемну архітектуру з швидкореагуючою "системою 1" та глибоким мисленням "системою 2". Його повна настройка дозволяє обробляти загальні завдання, такі як захоплення, переміщення, операції з двома руками та інше. Крім того, його можна повністю налаштувати для конкретного робота, розробники роботів можуть використовувати реальні або синтетичні дані для додаткового навчання. Це дійсно дозволяє розгортати цю модель в різноманітних роботах різних форм.
Наприклад, NVIDIA співпрацює з Google DeepMind та Disney для розробки фізичного двигуна Newton, який працює на базі Isaac GR00T N1 та керує досить рідкісним роботом BDX від Disney. Це свідчить про його високу універсальність. Newton, як фізичний двигун, дуже чутливий, тому вистачає для створення системи фізичних нагород, щоб навчати інтелект із тілесними властивостями в віртуальному середовищі.
Хуан Рень Хун та робот BDX взаємодіють на сцені з "пасією"
4) Генерація даних, подвійна стратегія
NVIDIA, поєднавши NVIDIA Omniverse і згаданий вище NVIDIA Cosmos Transfer базову модель світу, створив Isaac GR00T Blueprint. Він може генерувати велику кількість синтезованих даних про рухи з невеликої кількості демонстрацій людей для тренування роботів. Перша партія компонентів, яку NVIDIA використовувала в Blueprint, згенерувала 780 тисяч синтезованих траєкторій всього за 11 годин, що еквівалентно 6,500 годинам (приблизно 9 місяцям) даних демонстрацій людей. Велика частина даних Isaac GR00T N1 походить саме звідси, що дозволило покращити продуктивність GR00T N1 на 40% порівняно з використанням лише реальних даних.
Для кожної моделі NVIDIA може надати велику кількість високоякісних даних завдяки цій віртуальній системі Omniverse та цій системі генерації зображень з реального світу Cosmos Transfer. NVIDIA також охоплює другий аспект цієї моделі.
3)Триедина система обчислювальної потужності, що створює імперію обчислень для роботів від навчання до кінцевого вузла
З початку минулого року Лао Хуанг на GTC настоював на концепції "трьох комп'ютерів": один - це DGX, сервер великого розміру GPU, який використовується для навчання ШІ, включаючи інтелект з власним тілом. Інший AGX - це вбудована обчислювальна платформа NVIDIA для краєвого обчислення та автономних систем, яка використовується для конкретного розгортання ШІ на краї в, наприклад, як основний чіп для автоматичного керування або роботів. Третій комп'ютер - це комп'ютер генерації даних Omniverse+Cosmos.
Ця система знову була важливою на цьому GTC, як сказав старий Хуан, особливо зазначивши, що завдяки цій системі обчислень можна створити мільярди роботів. Від навчання до розгортання всі обчислення виконуються за допомогою NVIDIA. Ця частина також закрита в цілому.
Заключення
Якщо порівняти просто з попереднім поколінням чіпів Blackwell, Blackwell Ultra на апаратному рівні справді не відповідає минулим "ядерним бомбам", "картам-вогнем" та навіть має трохи смак цідження зубів.
Але якщо з точки зору планування дорожньої карти, все це буде в макеті Хуан Цзеньсюня, то в наступному році архітектура Rubin наступного року, від технології мікросхем до транзисторів, інтеграції в стійку, взаємозв'язку GPU і специфікацій взаємоз'єднання шаф буде значно покращена, за китайською звичкою говорити, що «хороше шоу ще попереду».
Порівняно з апетитом на апаратному рівні, протягом останніх двох років NVIDIA, можна сказати, шалено просувається на програмному рівні.
Оглядаючи всю екосистему програмного забезпечення від Nvidia, сервіси трьох рівнів Meno, Nim, Blueprint включають оптимізацію моделей, упаковку моделей до повного стеку рішень для побудови додатків. Екосистема компанії з області хмарових послуг повністю збігається з Nvidia AI. Із цим новим Агентом сегмент Штучного інтелекту, Nvidia збирається з'їсти усе це пиріжок AI інфраструктури, крім базової моделі.
У цій частині програмного забезпечення апетит Лао Хуана такий же великий, як ціни акцій Nvidia.
А в ринку робототехніки амбіції NVIDIA ще більші. Модель, дані, обчислювальна потужність - усе це у їх руках. Хоча вони не встигли взяти вершину базової мовної моделі, інтелект базового тіла вже доповнено. Силует, який нагадує інтелект базового тіла, вже з'явився на горизонті як монопольний гігант.
Тут кожен етап, кожен продукт відповідає потенційному ринку на рівні сотень мільярдів. Раніше успішний гравець у казино Ван Юенг Хун, який заробив гроші на монополії GPU, розпочав ще більшу гру.
Якщо на цій азартній грі, ринок програмного забезпечення або роботів одержує перевагу в будь-якому напрямку, то NVIDIA стане Google епохи штучного інтелекту, топовим монополістом ланцюга харчування.
Проте, глядя на рентабельність відеокарт NVIDIA GPU, ми все ще сподіваємося на таке майбутнє, яке не прийде.
Добре, це також велика гра, яка Лао Хуанг ніколи не грав, результати не передбачувані.
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
Нагородити
подобається
1
Поділіться
Прокоментувати
0/400
IELTS
· 03-19 01:08
#F1极速冲刺,享$50,000大奖##BTC 行情分析##潜力山寨币# bsv Хммм Pepe #MUBARAK Launchpool 开启##多种山寨币ETF申请中# мм
Один текст для розуміння виступу Джен-Сун Хуанга на конференції GTC від Nvidia: вірю, що обчислювальна потужність ніколи не спить
Автор: Су Ян, Хао Бо Ян; Джерело: Тенгі Кейтек
Як 'продавець лопаток' в епоху штучного інтелекту, Хуан Реньхун та його NVIDIA завжди вірять, що потужність обчислень ніколи не спить.
! Зображення
Хуан Рень Сюн на виступі на GTC заявив, що розумове обчислення збільшилося в 100 разів
Сьогодні на конференції GTC Хуан Жень Сюн представив абсолютно новий Blackwell Ultra GPU, а також похідні від нього серверні SKU для інференції та агентів, включаючи всі продукти RTX на основі архітектури Blackwell. Усе це пов'язано з обчислювальною потужністю, але ще важливіше, як ефективно і раціонально використовувати цю потужність безперервно.
У глибині Хуан Реньшин вважає, що для досягнення ШІ потрібна обчислювальна потужність, для створення роботів зі штучним інтелектом потрібна обчислювальна потужність, для побудови Omniverse та світової моделі потрібна безперервна обчислювальна потужність, а щодо того, скільки обчислювальної потужності потрібно для того, щоб людство побудувало віртуальний «паралельний вимір», NVIDIA дала відповідь — у 100 разів більше, ніж минуле.
Для підтримки своєї точки зору Хуан Жень Сюн показав низку даних на місці GTC - в 2024 році чотири провідні хмарні фабрики в США закупили 1,3 мільйона чіпів архітектури Hopper, а до 2025 року цей показник стрімко зріс до 3,6 мільйона GPU Blackwell.
Ось деякі ключові моменти конференції NVIDIA GTC 2025, підготовлені журналістами Tencent Technology:
Blackwell все в одному онлайн
1) щорічно вибухове виробництво Blackwell Ultra при вимиманні зубної пасти
Минулого року на конференції GTC компанія NVIDIA представила архітектуру Blackwell і випустила чіп GB200. Цього року офіційно змінили назву цього чіпу з GB300, як його називали в чутках, і тепер він просто отримав назву Blakwell Ultra.
Проте з апаратного боку це означає, що в минулому році була замінена нова пам'ять HBM. Одне речення розуміється так, що Blackwell Ultra = велика версія пам'яті Blackwell.
Blackwell Ultra складається з двох чіпів TSMC N4P (5нм) технології, чіпа архітектури Blackwell та Grace CPU, а також більш продвинутої пам'яті HBM3e з 12-шаровим стеклом, що забезпечує обсяг пам'яті на рівні 288 ГБ, і, як і попереднє покоління, підтримує п'яте покоління NVLink для досягнення міжплиткової пропускної здатності на рівні 1,8 ТБ/с.
! Зображення
Параметри продуктивності NVLink в минулих поколіннях
На базі оновлення сховища обчислювальна потужність Blackwell GPU з точністю FP4 може сягати 15PetaFLOPS, а швидкість міркувань на основі механізму прискорення уваги збільшується в 2,5 рази порівняно з чіпом архітектури Hopper.
2)Blackwell Ultra NVL72: AI спеціалізований шафа для машинного навчання
! Зображення
Офіційне зображення Blackwell Ultra NVL72
Як і GB200 NVL72, NVIDIA також представила схожий продукт - шафу Blackwell Ultra NVL72, яка складається з 18 обчислювальних піддонів. Кожен обчислювальний піддон містить 4 чіпа Blackwell Ultra GPU та 2 чіпи Grace CPU, в сумі - 72 чіпи Blackwell Ultra GPU та 36 чіпів Grace CPU. Обсяг відеопам'яті становить 20 ТБ, загальна пропускна здатність - 576 ТБ/с, а також 9 піддонів із комутаторами NVLink (18 чіпів комутаторів NVLink), пропускна здатність NVLink між вузлами - 130 ТБ/с.
В стійці вбудовано 72 мережевих карт CX-8, які забезпечують пропускну здатність 14,4 Тб/с, тоді як мережева карта Quantum-X800 InfiniBand та Spectrum-X 800G Ethernet можуть зменшити затримку та дрібні відхилення, підтримуючи великі кластери штучного інтелекту. Крім того, в рамку також інтегровано 18 карт BlueField-3 DPU для підвищення мережевої безпеки, безпеки мультиаренди та прискорення обробки даних.
NVIDIA вказала, що цей продукт спеціально розроблений для "епохи раціональної інференції AI", застосування включають інтелектуальний AI, агента та фізичний AI( для роботів, синтезу даних для навчання автопілотів). Продуктивність AI порівняно з попереднім поколінням продуктів GB200 NVL72 зросла у 1,5 рази, а в порівнянні з DGX-шкафом, орієнтованим на архітектуру Hopper, може забезпечити центрам обробки даних можливість збільшення прибутку в 50 разів.
За інформацією від офіційного джерела, розрахунок DeepSeek-R1 на 6710 мільярдів параметрів може здійснюватися на основі продукту H100 зі швидкістю 100 токенів на секунду, в той час як використання схеми Blackwell Ultra NVL72 може досягати швидкості 1000 токенів на секунду.
Переведено у час, таке ж розумове завдання, H100 потрібно бігти 1,5 хвилини, тоді як Blackwell Ultra NVL72 може завершити за 15 секунд.
! Зображення
Параметри апаратного забезпечення Blackwell Ultra NVL72 та GB200 NVL72
За інформацією, наданою NVIDIA, відомо, що продукт Blackwell NVL72 планується випустити на ринок у другій половині 2025 року. Клієнтами є виробники серверів, хмарні постачальники та орендодавці обчислювальної потужності.
15 виробників, таких як Cisco/Dell/HPE/Lenovo/Супермікро
AWS/Google Cloud/Azure/Oracle та інші провідні платформи хмарних обчислень
CoreWeave/Lambda/Yotta тощо.
3) Попереднє оголошення справжньої "ядерної бомби" чіпа GPU Rubin
Згідно з дорожньою картою від NVIDIA, головною ареною GTC2025 є Blackwell Ultra.
Проте Хуан Жень-сюн також використовує цю нагоду, щоб оголосити про наступне покоління GPU на основі архітектури Rubin, яке вийде на ринок в 2026 році, а також потужний серверний блок Vera Rubin NVL144 - 72 чіпа Vera CPU + 144 чіпа Rubin GPU, з використанням 288 ГБ відеопам'яті HBM4, пропускна здатність відеопам'яті 13 ТБ/с, з використанням шестого покоління NVLink та мережевої карти CX9.
На скільки потужний цей продукт? Обчислювальна потужність FP4 точності досягає 3,6 ексафлопс, а навчальна потужність FP8 точності - 1,2 ексафлопс; продуктивність становить 3,3 раза більше, ніж у Blackwell Ultra NVL72.
Якщо ви вважаєте, що цього недостатньо, не переймайтеся, в 2027 році з'явиться ще потужніший шафт Rubin Ultra NVL576, точність між FP4 розуміння та FP8 навчання складає відповідно 15 екзафлопсів та 5 екзафлопсів, що в 14 разів перевищує Blackwell Ultra NVL72.
! зображення
Офіційні характеристики Rubin Ultra NVL144 та Rubin Ultra NVL576, надані компанією NVIDIA
4) Blackwell Ultra версія DGX Super POD "фабрика суперкомп'ютерів"
Для клієнтів, які наразі вимоги не відповідають Blackwell Ultra NVL72 та не потребують будувати великі AI-кластери, відповідним рішенням від NVIDIA є фабрика штучного інтелекту DGX Super POD AI на основі Blackwell Ultra, яка працює за принципом Plug-and-Play.
Як завод штучного інтелекту з миттєвим використанням, DGX Super POD зосереджений на сценаріях штучного інтелекту, таких як генеративний штучний інтелект, штучний інтелект агента та фізичне моделювання, охоплюючи вимоги до розширення обчислювальних потужностей на всіх етапах від попередньої підготовки до післяпідготовки та виробничого середовища. Equinix, як перший постачальник послуг, надає підтримку рідкісного/повітряного охолодження для інфраструктури.
! Зображення
DGX SuperPod, побудований на основі Blackwell Ultra
На основі Blackwell Ultra розроблено дві версії DGX Super POD:
5) Іскра DGX і станція DGX
У січні цього року NVIDIA показала концепційний продукт штучного інтелекту AI PC Project DIGITS на CES за 3000 доларів, тепер він має офіційну назву DGX Spark.
Щодо параметрів продукту, він має чіп GB10, обчислювальну потужність під FP4 точністю досягає 1PetaFlops, вбудовану пам'ять 128 ГБ LPDDR5X, мережеву карту CX-7, накопичувач NVMe ємністю 4 ТБ, операційну систему DGX OS на базі Linux, підтримку таких фреймворків, як Pytorch, а також попередньо встановлені деякі базові інструменти для розробки програмного забезпечення для штучного інтелекту від NVIDIA, які дозволяють запускати моделі з 2000 мільярдами параметрів. Розміри цілої системи майже такі ж, як у Mac mini, дві системи DGX Spark можуть бути пов'язані між собою і запускати моделі з понад 4000 мільярдами параметрів.
Хоча ми й говоримо, що це AI ПК, насправді воно все ще належить до категорії суперкомп'ютерів, тому було включено в серію продуктів DGX, а не в споживчі продукти, такі як RTX.
Проте деякі також скаржаться на цей продукт, пропагандистська продуктивність FP4 низька, переведена в точність FP16 може конкурувати лише з RTX 5070, навіть з Arc B580 за 250 доларів, тому вартість продукту надзвичайно низька.
! Зображення
Комп'ютер DGX Spark та робоча станція DGX Station
Крім DGX Spark, названого офіційно, NVIDIA також випустила робочу станцію зі штучним інтелектом на основі Blackwell Ultra. Ця робоча станція містить процесор Grace і графічний процесор Blackwell Ultra, об'єднану пам'ять обсягом 784 ГБ, мережеву карту CX-8 та надає 20 петафлопсів обчислювальної потужності для штучного інтелекту (не офіційно позначена, теоретично також FP4 точність).
6) RTX розчистив AI PC та навіть стиснувся в центр даних
Все, що було введено раніше, є продуктами SKU на основі процесора Grace CPU та графічного процесора Blackwell Ultra GPU, які є продуктами класу корпоративного рівня. Враховуючи те, що багато людей зацікавлені в використанні продуктів такого типу, як RTX 4090, для штучного інтелекту, NVIDIA на цьому GTC подальшим чином підсилила інтеграцію серії Blackwell та RTX, випустивши хвилю AI PC GPU з вбудованою пам'яттю GDDR7, які охоплюють ноутбуки, робочі станції та навіть центри обробки даних.
! Зображення
NVIDIA створює для корпоративних обчислень AI-екосистему
Вищезазначене є лише частиною SKU, що були налаштовані для різних сценаріїв на базі чіпу Blackwell Ultra, від робочих станцій до даних центрів, NVIDIA називає це "Сім'я Blackwell". Китайський переклад - "Сімейний набір Blackwell" - відповідає.
Фотоніка від Інвіді: система CPO на плечах товариша
Концепція спільного упакування фотоелектричного модуля (CPO) в цілому полягає в упакуванні чіпа комутатора та оптичного модуля для можливості перетворення світлового сигналу в електричний сигнал з максимальним використанням передавальних властивостей світлового сигналу.
До цього часу галузь постійно обговорювала продукти комутаторів мережі CPO від NVIDIA, але вони так і не вийшли на ринок. Хуан Жень Сюн пояснив на місці, що через велику кількість використання в оптичних з'єднаннях в центрах обробки даних, витрати на оптичні мережі становлять 10% від ресурсів обчислення, а вартість оптичного з'єднання напряму впливає на збільшення мережі масштабування вузлів обчислення та щільність продуктивності штучного інтелекту.
! Зображення
Параметри кремнієвих оптичних спільних кристалів Quantum-X та Spectrum-X, показані на GTC
Цього року GTC від NVIDIA випустила одноразово кремнієво-оптичний спільний запікання кристал, Spectrum-X кремнієво-оптичний спільний запікання кристал та три похідні вироби: Quantum 3450-LD, Spectrum SN6810 та Spectrum SN6800.
Вищезазначені продукти узгоджуються під брендом "NVIDIA Photonics", NVIDIA вважає, що це платформа, розроблена за участю партнерів з CPO з метою спільної розробки, наприклад, її модулятор кільцевої модифікації (MRM) оптимізований на основі оптичного двигуна TSMC, підтримує високу потужність, енергоефективність модуляції лазера та використовує знімний оптичний конектор.
Цікаво, що згідно з попередніми даними відомих фахівців, мікроколивач модуляції (MRM) від TSMC був створений на базі технології 3-нм та передової упаковки CoWoS в співпраці з Broadcom.
За даними, наданими NVIDIA, інтегрований світловий модуль Photonics комутатора у порівнянні з традиційним комутатором забезпечує збільшення продуктивності в 3,5 рази, ефективність розгортання може бути підвищена в 1,3 рази, а також більше ніж в 10 разів розширена еластичність.
Ефективність моделі PK DeepSeek: програмний екосистема відправляє AI Agent
! Зображення
Хуан Реньсюнь на місці описує "великий пиріг" AI infra
Під час цього двогодинного GTC Хуан Рень Сюн взагалі говорив лише близько півгодини про програмне забезпечення та конкретний інтелект. Тому багато деталей було доповнено офіційною документацією, а не повністю з місця події.
1)Nvidia Dynamo, новий CUDA, побудований Nvidia в галузі виведення
Nvidia Dynamo - це абсолютний король програмного забезпечення, представлений на цьому заході.
Це відкрите програмне забезпечення, спеціально створене для прискорення майнингу, навчання та роботи по всьому центру обробки даних. Дані про продуктивність Dynamo дуже вражають: на існуючій архітектурі Hopper Dynamo може подвоїти продуктивність стандартної моделі Llama. Щодо спеціалізованих моделей машинного навчання, таких як DeepSeek, оптимізація інтелектуального майнингу від NVIDIA Dynamo може збільшити кількість токенів, що генеруються кожним GPU, більш ніж у 30 разів.
! Зображення
Хуан Реньсюн показав, що Blackwell з Dynamo може перевищити Hopper більш ніж у 25 разів
Ці поліпшення Dynamo в основному завдяки децентралізації. Воно розподіляє різні обчислювальні етапи LLM (розуміння запитів користувачів та генерація найкращої відповіді) на різні GPU, щоб кожен етап міг оптимізуватися незалежно, підвищуючи продуктивність та прискорюючи швидкість реакції.
! Зображення
Архітектура системи Dynamo
Наприклад, на етапі обробки вводу, який також відомий як етап передзаповнення, Dynamo може ефективно розподіляти ресурси GPU для обробки введення користувача. Система використовуватиме кілька груп GPU для паралельної обробки запитів користувачів, сподіваючись, що обробка GPU буде більш розподілена та швидка. Dynamo використовує режим FP4 для одночасного паралельного «читання» та «розуміння» питань користувача за допомогою кількох GPU, при цьому одна група GPU обробляє знання про «Другу світову війну», інша група обробляє відповідні історичні матеріали про «причину», третя група обробляє часову шкалу та події щодо «подій», цей етап схожий на одночасне переглядання великої кількості матеріалів декількома науковими асистентами.
При генерації вихідних токенів, тобто на етапі декодування, графічний процесор повинен бути більш цілеспрямованим і злагодженим. У порівнянні з кількістю графічних процесорів, цей етап вимагає більшої пропускної здатності для поглинання мислячої інформації попереднього етапу, тому він також вимагає більше читання кешу. Dynamo оптимізує зв'язок між графічними процесорами та розподіл ресурсів, щоб забезпечити послідовну та ефективну генерацію відповідей. З одного боку, він повною мірою використовує можливості зв'язку NVLink з високою пропускною здатністю архітектури NVL72 для максимальної ефективності генерації токенів. З іншого боку, «Розумний маршрутизатор» спрямовує запити до графічного процесора, який кешував відповідний ( KV) ключ-значення, що дозволяє уникнути подвійних обчислень і значно покращує швидкість обробки. Уникаючи подвійних обчислень, деякі ресурси графічного процесора звільняються, і Dynamo може динамічно розподіляти ці незадіяні ресурси для нових вхідних запитів.
Ця архітектура дуже схожа на архітектуру Mooncake від Kimi, але Nvidia зробила більше підтримки на нижньому рівні інфраструктури. Можливо, Mooncake може збільшити швидкість приблизно в 5 разів, але випередження Dynamo в логіці, швидше за все, більш помітне.
Наприклад, у декількох важливих інновацій Dynamo можна відзначити, що "GPU Planner" може динамічно налаштовувати розподіл GPU в залежності від навантаження, "бібліотека низької затримки" оптимізує передачу даних між GPU, а "менеджер пам'яті" розумно переміщує дані інференції між пристроями зберігання на різних рівнях вартості, що подальше знижує операційні витрати. А розумний роутер, система маршрутизації на основі LLM, спрямовує запити на найбільш підходящий GPU, що зменшує повторні обчислення. Цей ряд можливостей дозволяє досягнути оптимізації навантаження GPU.
З використанням цієї системи машиною можна ефективно масштабувати до великого кластера GPU, що дозволяє розширити один запит штучного інтелекту до 1000 GPU для повного використання ресурсів центру обробки даних.
Для операторів GPU це поліпшення суттєво знижує вартість кожного мільйона токенів, тоді як продуктивність значно зростає. Одночасно кожен користувач отримує більше токенів за секунду, реакція швидше, поліпшується користувацький досвід.
! Зображення
За допомогою Dynamo сервер досягає золотої лінії вибуття та швидкості відповіді
По відміну від CUDA, як основи для програмування GPU, Dynamo є системою більш високого рівня, яка спрямована на інтелектуальне розподіл та управління великими навантаженнями мислення. Вона відповідає за розподілений рівень планування мислення, який знаходиться між додатком та основною обчислювальною інфраструктурою. Проте, так само як CUDA повністю змінила картину обчислень на GPU більше десяти років тому, Dynamo також може вдало створити новий парадигм ефективності м'якої та апаратної частини мислення.
Dynamo є повністю відкритим, підтримує всі основні фреймворки від PyTorch до Tensor RT. Відкриття не заважає йому бути оборонними стінами. Як і CUDA, він працює ефективно лише на GPU від NVIDIA, є частиною стеку програмного забезпечення для штучного інтелекту NVIDIA.
Завдяки цьому програмному забезпеченню NVIDIA побудувала свою оборонну систему проти спеціалізованих інферентних AISC-чіпів, таких як Groq. Щоб домінувати в інферентній інфраструктурі, необхідно правильно поєднувати апаратне та програмне забезпечення.
2)Llama Nemotron нова модель виставка ефективна, але все ще не впоралася з DeepSeek
Хоча в аспекті використання сервера Dynamo дійсно досить вражаючий, але Nvidia трохи відстає в навчанні моделей від справжніх фахівців.
NVIDIA на цьому GTC представила нову модель Llama Nemotron, що пропонує високу ефективність та точність. Вона походить від моделей серії Llama та була спеціально налаштована NVIDIA; в порівнянні з оригінальною Llama, ця модель була оптимізована за допомогою алгоритмів та стала більш легкою, всього 48B. Вона також отримала розуміння, схоже на o1. Так само, як у моделей Claude 3.7 та Grok 3, у моделі Llama Nemotron є вбудований перемикач розуміння, який користувач може ввімкнути чи вимкнути. Ця серія має три рівні: початковий Nano, середній Super та флагманський Ultra, кожен з яких відповідає потребам підприємств різного масштабу.
! Зображення
Конкретні дані Llama Nemotron
Щодо ефективності, цей модельний набір даних для налаштування складається виключно з синтетичних даних, створених самою NVIDIA, загальна кількість близько 60B токенів. У порівнянні з DeepSeek V3, який тренувався протягом 1,3 мільйона годин на H100 для повноцінного навчання, ця модель лише з 1/15 обсягом параметрів DeepSeek V3 витратила всього 360 тис. годин на H100 лише на налаштування. Ефективність навчання гірша на один рівень порівняно з DeepSeek.
У висновку щодо ефективності моделі Llama Nemotron Super 49B можна сказати, що вона дійсно працює набагато краще, ніж попередня модель. Її пропускна здатність токенів може досягати 5 разів більше, ніж у Llama 3 70B, із використанням одного GPU в центрі обробки даних вона може обробляти понад 3000 токенів за секунду. Однак, згідно з даними, оприлюдненими на останній день в Open Day в DeepSeek, середня пропускна здатність кожного вузла H800 під час попереднього заповнення становить близько 73,7 тис. токенів/с (включаючи кеш-попадання) або при декодуванні приблизно 14,8 тис. токенів/с. Різниця між ними все ще досить помітна.
! Зображення
З погляду продуктивності, Llama Nemotron Super 49B перевершує Llama 70B, згідно всіх показників, розроблених DeepSeek R1. Однак, беручи до уваги часті випуски невеликих, високопродуктивних моделей, таких як Qwen QwQ 32B, Llama Nemotron Super, ймовірно, важко конкурувати з цими моделями, що можуть змагатися з R1.
Найгірше те, що ця модель фактично підтверджує, що DeepSeek, можливо, краще розуміє, як налаштовувати GPU під час навчання, ніж NVIDIA.
3) Нова модель лише передмова до екосистеми AI Agent від NVIDIA, AIQ вже є основним стравою
Навіщо NVIDIA розробляє модель мислення? Головна мета полягає в підготовці до наступної точки вибуху штучного інтелекту, на яку рахує Ло Гуан - AI Agent. З тих пір, як великі фабрики, такі як OpenAI, Claude, поступово створюють базу агента через DeepReasearch, MCP, NVIDIA очевидно вважає, що час агента настав.
Проект NVIDA AIQ - це спроба NVIDIA. Він безпосередньо надає готовий робочий процес AI Agent планувальника на основі моделі мисливця Nemotron Llama. Цей проект відноситься до рівня синтезу NVIDIA (Blueprint), що означає набір передконфігурованих робочих процесів, що є шаблонами, які допомагають розробникам легше інтегрувати технології та бібліотеки NVIDIA. А AIQ є шаблоном агента, який надається NVIDIA.
! Зображення
Архітектура NVIDA AIQ
Як і Manus, він інтегрує зовнішні інструменти, такі як пошукові системи та інші професійні AI-агенти, що дозволяє цьому агенту як шукати, так і використовувати різноманітні інструменти. Завдяки плануванню моделі мислення Llama Nemotron, рефлексії та оптимізації схем обробки для виконання завдань користувача. Крім того, він підтримує побудову робочого потоку з використанням багатьох агентів.
! Зображення
Система servicenow, побудована на цьому шаблоні
Набагато більш складною є система RAG, спрямована на корпоративні файли, ніж у Manus. Ця система включає в себе ряд кроків, таких як видобуток, вбудовування, векторне зберігання, перегрупування, що забезпечують використання даних підприємства агентом через LLM.
При цьому NVIDIA також випустила платформу для AI-даних, яка підключає модель мислення AI до систем даних підприємства, утворюючи DeepReasearch спеціально для даних підприємства. Це спричинило значний розвиток технології зберігання, що перетворило систему зберігання з простого сховища даних на інтелектуальну платформу з активною здатністю до мислення та аналізу.
! image
Склад платформи даних AI
Крім того, AIQ дуже наголошує на механізмах спостереження та прозорості. Це дуже важливо для безпеки та подальшого вдосконалення. Розробники можуть в реальному часі відстежувати діяльність агента та безперервно оптимізувати систему на основі даних про продуктивність.
Загалом NVIDA AIQ - це стандартний шаблон робочого процесу агента, який надає різноманітні можливості агента. Це можна вважати програмним забезпеченням Dify класу, яке еволюціонувало до епохи мислення.
Основна модель базового робота випущена, NVIDIA планує створити повністю інкорпороване екологічне середовище
1) Космос, що дозволяє інтелектуальній речі розуміти світ
Якщо говорити про спрямованість Agent або ставки на майбутнє, то NVIDIA в повній мірі може бути вважати інтегратором майбутнього в галузі вбудованого інтелекту.
Нівідімо, дані та обчислювальна потужність - всі ці три складові NVIDIA вже підготували.
Спочатку розповімо про модель. Цього разу на GTC була представлена оновлена версія базової моделі Cosmos, яка була оголошена в січні цього року.
Cosmos - це модель, яка може прогнозувати майбутні зображення на основі поточних зображень. Вона може генерувати докладне відео з текстових / зображення вхідних даних, прогнозуючи розвиток сценарію шляхом поєднання поточного стану (зображення / відео) з дією (підказка / сигнал управління). Оскільки це потребує розуміння фізичних причинно-наслідкових законів світу, NVIDIA називає Cosmos світовою базовою моделлю (WFM).
! зображення
Основна архітектура Cosmos
Для втіленого інтелектуального агента важливість передбачення поведінки машин полягає у здатності визначити, який вплив вона матиме на зовнішній світ. Лише тоді модель може планувати поведінку на основі прогнозів, тому модель світу стає базовою моделлю втіленого інтелекту. З цією базовою моделлю прогнозу світу, яка враховує зміни в часі та фізичному середовищі, шляхом налаштування наборів даних для конкретних завдань, таких як автопілотування та робототехнічні завдання, ця модель може задовольнити потреби реалізації різних втілених інтелектуальних систем з фізичною формою.
Перша частина моделі, Cosmos Transfer, перетворює структурований текст відео на керований фотореалістичний відеовихід і генерує великомасштабні синтетичні дані з повітря. Це вирішує найбільше вузьке місце втіленого інтелекту сьогодні – проблему нестачі даних. Більш того, ця генерація є «керованою», що означає, що користувач може задати конкретні параметри (наприклад, погодні умови, властивості об'єкта і т.д.), і модель буде відповідним чином коригувати результати генерації, роблячи процес генерації даних більш контрольованим і цілеспрямованим. Весь процес також може бути об'єднаний Ominiverse і Cosmos.
! Зображення
Космос заснований на реальній симуляції Ominiverse
Друга частина Cosmos Predict може генерувати віртуальний стан світу з мульти-модальним входом, підтримуючи генерацію кількох кадрів та передбачення траєкторії руху. Це означає, що при заданих початковому та кінцевому станах модель може генерувати раціональний проміжний процес. Це є ключовою здатністю когнітивного та побудовного мислення в реальному світі.
Третя частина - це Cosmos Reason, це відкрита та повністю налаштовувана модель з часопросторовими здатностями сприйняття, яка розуміє відеодані за допомогою ланцюга мислення та передбачає результати взаємодії. Це здатність покращувати планування та передбачати результати поведінки.
Завдяки поступовому накладанню цих трьох складових Cosmos може забезпечити повний ланцюжок поведінки від токенізації реальних зображень + токенізації текстових команд до токенізації машинних дій виводу.
Ця базова модель справді має непоганий ефект. Лише через два місяці з неї почали користуватися такі провідні компанії, як 1X, Agility Robotics, Figure AI. Велика мовна модель не випереджала, але інтелектуальна машина від Nvidia дійсно на першій лінії.
2) Ісаак GR00T N1, перший в світі базовий модель людино-подібного робота
З благодійністю Cosmos, Nvidia природньо використовує цю рамку для налаштування базової моделі Isaac GR00T N1, призначеної для людських роботів.
! Зображення
Двосистемна архітектура Isaac GR00T N1
Він використовує двохсистемну архітектуру з швидкореагуючою "системою 1" та глибоким мисленням "системою 2". Його повна настройка дозволяє обробляти загальні завдання, такі як захоплення, переміщення, операції з двома руками та інше. Крім того, його можна повністю налаштувати для конкретного робота, розробники роботів можуть використовувати реальні або синтетичні дані для додаткового навчання. Це дійсно дозволяє розгортати цю модель в різноманітних роботах різних форм.
Наприклад, NVIDIA співпрацює з Google DeepMind та Disney для розробки фізичного двигуна Newton, який працює на базі Isaac GR00T N1 та керує досить рідкісним роботом BDX від Disney. Це свідчить про його високу універсальність. Newton, як фізичний двигун, дуже чутливий, тому вистачає для створення системи фізичних нагород, щоб навчати інтелект із тілесними властивостями в віртуальному середовищі.
! Зображення
Хуан Рень Хун та робот BDX взаємодіють на сцені з "пасією"
4) Генерація даних, подвійна стратегія
NVIDIA, поєднавши NVIDIA Omniverse і згаданий вище NVIDIA Cosmos Transfer базову модель світу, створив Isaac GR00T Blueprint. Він може генерувати велику кількість синтезованих даних про рухи з невеликої кількості демонстрацій людей для тренування роботів. Перша партія компонентів, яку NVIDIA використовувала в Blueprint, згенерувала 780 тисяч синтезованих траєкторій всього за 11 годин, що еквівалентно 6,500 годинам (приблизно 9 місяцям) даних демонстрацій людей. Велика частина даних Isaac GR00T N1 походить саме звідси, що дозволило покращити продуктивність GR00T N1 на 40% порівняно з використанням лише реальних даних.
! Зображення
Система імітації близнюків
Для кожної моделі NVIDIA може надати велику кількість високоякісних даних завдяки цій віртуальній системі Omniverse та цій системі генерації зображень з реального світу Cosmos Transfer. NVIDIA також охоплює другий аспект цієї моделі.
3)Триедина система обчислювальної потужності, що створює імперію обчислень для роботів від навчання до кінцевого вузла
З початку минулого року Лао Хуанг на GTC настоював на концепції "трьох комп'ютерів": один - це DGX, сервер великого розміру GPU, який використовується для навчання ШІ, включаючи інтелект з власним тілом. Інший AGX - це вбудована обчислювальна платформа NVIDIA для краєвого обчислення та автономних систем, яка використовується для конкретного розгортання ШІ на краї в, наприклад, як основний чіп для автоматичного керування або роботів. Третій комп'ютер - це комп'ютер генерації даних Omniverse+Cosmos.
! Зображення
Три великі обчислювальні системи з інтелектом
Ця система знову була важливою на цьому GTC, як сказав старий Хуан, особливо зазначивши, що завдяки цій системі обчислень можна створити мільярди роботів. Від навчання до розгортання всі обчислення виконуються за допомогою NVIDIA. Ця частина також закрита в цілому.
Заключення
Якщо порівняти просто з попереднім поколінням чіпів Blackwell, Blackwell Ultra на апаратному рівні справді не відповідає минулим "ядерним бомбам", "картам-вогнем" та навіть має трохи смак цідження зубів.
Але якщо з точки зору планування дорожньої карти, все це буде в макеті Хуан Цзеньсюня, то в наступному році архітектура Rubin наступного року, від технології мікросхем до транзисторів, інтеграції в стійку, взаємозв'язку GPU і специфікацій взаємоз'єднання шаф буде значно покращена, за китайською звичкою говорити, що «хороше шоу ще попереду».
Порівняно з апетитом на апаратному рівні, протягом останніх двох років NVIDIA, можна сказати, шалено просувається на програмному рівні.
Оглядаючи всю екосистему програмного забезпечення від Nvidia, сервіси трьох рівнів Meno, Nim, Blueprint включають оптимізацію моделей, упаковку моделей до повного стеку рішень для побудови додатків. Екосистема компанії з області хмарових послуг повністю збігається з Nvidia AI. Із цим новим Агентом сегмент Штучного інтелекту, Nvidia збирається з'їсти усе це пиріжок AI інфраструктури, крім базової моделі.
У цій частині програмного забезпечення апетит Лао Хуана такий же великий, як ціни акцій Nvidia.
А в ринку робототехніки амбіції NVIDIA ще більші. Модель, дані, обчислювальна потужність - усе це у їх руках. Хоча вони не встигли взяти вершину базової мовної моделі, інтелект базового тіла вже доповнено. Силует, який нагадує інтелект базового тіла, вже з'явився на горизонті як монопольний гігант.
Тут кожен етап, кожен продукт відповідає потенційному ринку на рівні сотень мільярдів. Раніше успішний гравець у казино Ван Юенг Хун, який заробив гроші на монополії GPU, розпочав ще більшу гру.
Якщо на цій азартній грі, ринок програмного забезпечення або роботів одержує перевагу в будь-якому напрямку, то NVIDIA стане Google епохи штучного інтелекту, топовим монополістом ланцюга харчування.
Проте, глядя на рентабельність відеокарт NVIDIA GPU, ми все ще сподіваємося на таке майбутнє, яке не прийде.
Добре, це також велика гра, яка Лао Хуанг ніколи не грав, результати не передбачувані.