Розмова з віце-президентом бізнесу NVIDIA: настає "момент ChatGPT" для роботів

2026-03-23 00:01:31

Зрозуміти сьогоднішню NVIDIA може бути складніше ніж будь-коли раніше, але те, як ця компанія, що впливає на розвиток багатьох галузей штучного інтелекту, малює майбутнє AI, все ще заслуговує на увагу.

Сигнали розширення бізнесу NVIDIA стають очевидними. На цьогорічній конференції GTC компанія представила продукти, що охоплюють прискорювачі для дата-центрів, стійки, мережеві рішення та кілька відкритих моделей. У виступі генерального директора Джена Хуана багато разів згадувалися ключові слова: CUDA, GPU, LPU (мова обробки одиниць), AI-фабрика, робототехніка, автопілот, відкриті моделі. Компанія, відома своїми GPU, тепер, здається, більш доречно визначати її як виробника, що охоплює кілька ланок інфраструктури AI або AI-фабрик.

Навіть у сегменті дата-центрів, продукти NVIDIA стають різноманітнішими. Платформа Rubin, окрім GPU, отримала новий компонент — LPU. Спеціалізовані інтегральні схеми (ASIC) та універсальні GPU стоять у різних таборах, але після отримання ліцензії на Groq NVIDIA почала поєднувати обидва типи чипів.

Крім того, у сегменті, що обслуговує понад 60% великих хмарних провайдерів, з’явилися нові підрозділи. Автономне водіння та робототехніка стали двома важливими напрямками. Для розгортання фізичного AI NVIDIA створює не лише апаратне забезпечення, а й платформи автопілота та моделі.

Зрозуміти сучасну NVIDIA стає ще складніше, але те, як ця компанія формує майбутнє AI, залишається важливим для дослідження. Під час конференції GTC журналісти «Перша фінансова» поспілкувалися з віце-президентом з високопродуктивних обчислень та масштабних систем Ian Buck і віце-президентом з Omniverse та симуляційних технологій Rev Lebaredian, щоб розкрити ідеї щодо продуктів NVIDIA, їхнього підходу та роздумів щодо гетерогенного розподілу чипів, стратегії для фізичного AI та причин, чому «ChatGPT-час» роботів вже настає.

Чому GPU все ще домінують

На базі технології Groq NVIDIA представила у цій конференції LPU-чипи Groq 3 і Groq 3 LPX у стійках. За словами, Groq 3 LPX у поєднанні з CPU та GPU Rubin може збільшити пропускну здатність для обчислень на один мегават у 35 разів. У другій половині року Groq 3 LPX буде інтегровано у нове покоління AI-фабрик Vera Rubin.

З появою Groq 3 GPU вже не є єдиною формою прискорювачів для дата-центрів NVIDIA. Раніше багато обговорювалося, як GPU протистоїть ASIC. Наприкінці минулого року NVIDIA уклала неконкурентну угоду з Groq, залучивши засновника Джонатана Росса, президента Санні Мадру та інших ключових співробітників, що розглядалося як стратегія протидії ринковим викликам. Основна особливість Groq LPU — низька затримка для обчислень. Включення LPU до портфоліо — до чого прагне NVIDIA?

За словами Хуана, кожен токен з різних моделей має свої особливості. Rubin залишається важливим для основних потреб у виробництві токенів, але з’являються нові сегменти. Моделі стають більшими, контекст — довшим, тому швидкість обчислень має бути дуже високою. Нові комбінації чипів дозволяють задовольнити різноманітні вимоги.

Ian Buck пояснив, що Groq 3 LPU можна розглядати як «покращений пакет» для Rubin. LPU має швидку SRAM-пам’ять для швидких плаваючих обчислень. Однак є обмеження: для запуску моделей з трильйонами параметрів потрібно багато стійок, що робить масштабування дорогим і неефективним. Якщо ж поєднати LPU у стійці з Rubin, можна використати переваги обох чипів: всі обчислення уваги — на GPU, а матричні обчислення — на LPU.

«Для сучасних чат-ботів або систем рекомендацій більшість обчислень все ще обслуговуються Rubin, LPU не замінить ці сценарії. Але для наступного покоління інтелектуальних систем, з моделями трильйонів параметрів, сотнями тисяч токенів у контексті і швидкістю тисяч токенів за секунду, поєднання двох чипів стане можливим», — зазначив Ian Buck.

Інші виробники GPU також експериментують із різними чипами. AMD наприкінці лютого уклала партнерство з Meta, що включає розробку напівкастомізованих чипів. На початку місяця Сюй Цзифен пояснила, що інфраструктура AI ускладнюється, з’являється багато різних навантажень — і для тренування, і для обчислень, і для малих і великих моделей. «У наступному етапі AI-інфраструктури не існуватиме одного чипа, що виконає все найкраще — це вже гетерогенний світ. Потрібно враховувати ціну за ват і прагнути максимальної ефективності при великих навантаженнях. ASIC завжди знайде своє місце у цій екосистемі», — сказала вона. Ідеї щодо вартості обчислень і різноманітності навантажень збігаються з поглядами Хуана.

Зі зростанням гетерогенности чипів, чи з’являться ASIC все частіше і чи зможуть вони конкурувати з універсальними, програмованими GPU? Особливо коли окремі ASIC мають переваги у швидкості та ціні для специфічних задач.

Ian Buck вважає, що це питання балансу між спеціалізованими обчисленнями і платформною програмованістю. «Ми можемо зробити ASIC для GPT-OSS, і в екстремальних умовах використовувати його для моделей. Це буде ефективно. Але така модель і спосіб її реалізації закріпляться у кремнії, що позбавить можливості подальшої оптимізації — і через софт, і через апаратне забезпечення. Це обмежить потенціал для покращень, зробить модель менш гнучкою», — пояснив він.

Ian Buck додав, що DeepSeek-R1 був випущений рік тому, і з того часу ефективність моделей зросла завдяки новим методам і оптимізаціям для гібридних експертних моделей на GPU. «Це стало можливим завдяки відкритості та налаштовуваності цих чипів, новим підходам до виконання гібридних моделей — тензорний паралелізм, широкі експертні паралелі, конвеєрна обробка, перехід з FP16 на FP8 і FP4. Програмованість платформи дала можливість підвищити продуктивність у кілька разів, знизити вартість і збільшити дохід».

Ian Buck навів приклад: 400 інженерів NVIDIA витратили близько 4 місяців і 120 тисяч годин на симуляцію GPU, щоб прискорити DeepSeek-R1. Вони знайшли 38 способів оптимізації, що підвищили продуктивність у 4 рази. Тобто лише софт-оптимізація дала змогу збільшити ефективність у 4 рази.

«Ми можемо робити дуже специфічні рішення для різних навантажень або навіть закодити модель у чипі, але тоді втратимо можливість створювати нові алгоритми і технології. Ми виявили, що 95% оптимізацій і нових технологій, заснованих на програмованості, застосовні до всіх моделей у екосистемі, і допомагають зробити наступну модель більш розумною», — сказав він.

Щодо можливості включення Groq до екосистеми CUDA, Ian Buck зазначив, що хоча перше покоління LPU ще не готове, у майбутньому планується відкрити програмування LPU, і обговорюється питання, чи буде це через CUDA або інші засоби.

Заснування фізичного AI

На цій конференції NVIDIA оголосила багато новин у сфері фізичного AI. У робототехніці компанія представила фреймворк Isaac Sim, відкриті моделі Cosmos і Isaac GROOT для розробки, тренування та розгортання роботів. Cosmos 3 — перша універсальна модель для створення синтезованих світів, фізичного AI та симуляції дій. У автопілоті NVIDIA представила модель VLA (Visual Language Action) Alpamayo 1.5 для підвищення здатності систем автопілота до обробки та аналізу.

У фізичному AI NVIDIA вже не обмежується апаратним забезпеченням, а активно розвиває софт. Компанія глибоко працює з моделями та відкриває їх для спільноти.

Rev Lebaredian зазначив, що зараз відкритий доступ до досліджень і технологій є надзвичайно важливим. NVIDIA вкладає багато у відкриті дослідження, особливо у фізичний AI, оскільки самостійно створити цю технологію неможливо. Щоб роботам з’явився ChatGPT-час, потрібно, щоб усі долучилися. NVIDIA, будучи «серцем AI», є зв’язуючою ланкою у цій екосистемі.

Він пояснив, що основна причина розробки базових моделей — це фізичні закони, а не мовні закономірності. Cosmos відкритий і може запускатися будь-якою компанією для різних цілей. Крім моделей, NVIDIA надає дані, фреймворки та креслення для їх створення. Це робиться, щоб прискорити розвиток фізичного AI і робототехніки, оскільки зараз ще дуже далеко до повної реалізації. Багато компаній використовують Cosmos для тренування та оцінки моделей, щоб зробити AI ще одним учителем для інших AI.

Щодо етапів розвитку фізичного AI у різних сферах, Lebaredian сказав, що для автопілота виклики вже перейшли з наукової у інженерну сферу — потрібно масштабувати і зробити так, щоб все більше автомобілів їхали самостійно. Для універсальних роботів ситуація інша: тут ще потрібно покращити фізичну частину — роботизовані руки, сенсори, приводи, батареї.

Він додав, що навіть якщо створити ідеального робота, він не буде використовуватися без додаткового часу на програмування. Зараз у галузі настав важливий момент: з’явилися технології, що роблять робота розумним і корисним, і вже скоро настане «ChatGPT-час» роботів. Технології і застосування вже починають зливатися: наприклад, за допомогою обчислювальних можливостей Cosmos можна генерувати дані для тренування роботів.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.