Автор: Су Ян, Хао Боян; Источник: Технологии Tencent
В качестве «людей, продающих лопаты» в эпоху искусственного интеллекта Хуан Жэньсюн и его NVIDIA всегда уверены, что вычислительная мощность никогда не спит.
Хуан Женьсюн в своем выступлении на GTC заявил, что спрос на вычислительную мощность вырос на 100 раз из-за выводов.
На сегодняшней конференции GTC Хуан Реньсюнь представил новейшую видеокарту Blackwell Ultra GPU, а также серверные SKU для вывода и агентов на ее основе, включая полный набор RTX на основе архитектуры Blackwell, все это связано с вычислительной мощностью, но более важно, как эффективно использовать эту мощность.
В глазах Хуан Реньхуна путь к AGI требует вычислительной мощности, физические интеллектуальные роботы требуют вычислительной мощности, построение Omniverse и модели мира требуют постоянного потока вычислительной мощности, а сколько вычислительной мощности нужно человеку, чтобы построить виртуальную "параллельную вселенную", - NVIDIA дал ответ - в 100 раз больше, чем в прошлом.
Для поддержки своей точки зрения Хуан Жень Хунь показал на месте GTC набор данных - к 2024 году четыре крупнейших облачных центра США закупят в общей сложности 1,3 миллиона чипов архитектуры Hopper, а к 2025 году это число вырастет до 3,6 миллиона графических процессоров Blackwell.
Ниже приведены некоторые ключевые моменты конференции GTC 2025 от NVIDIA, подготовленные Tencent Technology.
Набор Blackwell теперь доступен
1)годовой 'ядерный бомбардировщик' Blackwell Ultra в squeeze toothpaste
В прошлом году на конференции GTC компания NVIDIA представила архитектуру Blackwell и выпустила чип GB200. В этом году официальное название немного изменилось: вместо ранее слуховавшегося GB300 он сразу же был назван Blakwell Ultra.
Но с точки зрения аппаратных средств это означает замену памяти HBM на новую по сравнению с прошлым годом. Одним предложением можно сказать, что Blackwell Ultra = версия Blackwell с большим объемом памяти.
Blackwell Ultra состоит из двух чипов TSMC N4P (5нм) и архитектурного чипа Blackwell + процессора Grace CPU, а также более передовой памяти HBM3e со 12 слоями, объем памяти увеличен до 288 ГБ, поддерживает пятое поколение NVLink, обеспечивая межчиповую пропускную способность 1.8 ТБ/с.
Параметры производительности NVLink на протяжении истории
На основе обновлений хранения, вычислительная мощность FP4 Blackwell GPU может достигать 15PetaFLOPS, а скорость вывода на основе механизма ускорения внимания увеличивается в 2,5 раза по сравнению с чипом архитектуры Hopper.
2)Blackwell Ultra NVL72:AI специальный шкаф для вывода
Как и GB200 NVL72, NVIDIA в этом году также выпустила аналогичный продукт - стойку Blackwell Ultra NVL72, состоящую из 18 вычислительных лотков. Каждый вычислительный лоток содержит 4 графических процессора Blackwell Ultra и 2 процессора Grace, в общей сложности 72 графических процессора Blackwell Ultra и 36 процессоров Grace. Объем видеопамяти составляет 20 ТБ, общая пропускная способность 576 ТБ/с, а также 9 лотков с коммутационными переключателями NVLink (18 чипов коммутационных переключателей NVLink), с пропускной способностью NVLink между узлами 130 ТБ/с.
В стойке установлены 72 сетевые карты CX-8, обеспечивающие пропускную способность 14,4 ТБ/с, Quantum-X800 InfiniBand и Spectrum-X 800G Ethernet-карты, которые могут снизить задержку и джиттер, поддерживая крупномасштабные AI-кластеры. Кроме того, в стойку также интегрировано 18 карт BlueField-3 DPU для улучшения сети, безопасности и ускорения данных для многопользовательских сетей.
Nvidia заявила, что этот продукт специально настроен «для эры инференса ИИ», а сценарии применения включают в себя логический ИИ, агент и физические AI( для моделирования и синтеза данных ) для роботов и интеллектуального обучения вождению, по сравнению с предыдущим поколением продуктов GB200 Производительность ИИ NVL72 улучшена в 1,5 раза, а по сравнению с шкафными продуктами DGX с тем же позиционированием архитектуры Hopper он может предоставить центрам обработки данных в 50 раз больше возможностей для увеличения дохода.
Согласно официальной информации, выводы 6710 миллиардов параметров DeepSeek-R1 могут достигать 100 токенов в секунду на основе продукта H100, в то время как использование схемы Blackwell Ultra NVL72 позволяет достигать 1000 токенов в секунду.
Параметры аппаратного обеспечения Blackwell Ultra NVL72 и GB200 NVL72
Согласно предоставленной информации от NVIDIA, связанные с продукцией Blackwell NVL72, ожидается, что она появится на рынке во второй половине 2025 года. Клиентами будут в основном производители серверов, облачные поставщики и поставщики услуг аренды вычислительной мощности.
Производитель серверов
15 производителей, таких как Cisco/Dell/HPE/Lenovo/Супермикро
Облачный завод
AWS/Google Cloud/Azure/Oracle и другие основные платформы облака
Поставщик услуг аренды вычислительной мощности
CoreWeave/Lambda/Yotta и т.д.
3) Заранее объявленный настоящий "ядерный" чип GPU Rubin
Согласно дорожной карте NVIDIA, основным местом проведения GTC2025 будет Blackwell Ultra.
Однако Хуан Жэньсюн также использовал эту возможность, чтобы предварительно анонсировать следующее поколение GPU на базе архитектуры Rubin и более мощный серверный шкаф Vera Rubin NVL144 - 72 шт. Vera CPU + 144 шт. Rubin GPU, использующих 288 ГБ памяти HBM4, пропускной способностью памяти 13 Тб/с, с поддержкой шестого поколения NVLink и сетевой карты CX9.
Насколько мощен этот продукт? Вычислительная мощность рекомендательных алгоритмов FP4 достигает 3,6 экзафлопс, а обучающая мощность FP8 достигает 1,2 экзафлопс, что в 3,3 раза превышает производительность Blackwell Ultra NVL72.
Если вы считаете, что этого недостаточно, не беспокойтесь, в 2027 году появится еще более мощный шкаф Rubin Ultra NVL576 с FP4 точностью вывода и обучения с FP8 точностью вычислительной мощности 15ExaFLOPS и 5ExaFLOPS соответственно, что в 14 раз превышает Blackwell Ultra NVL72.
Официальные характеристики Rubin Ultra NVL144 и Rubin Ultra NVL576, предоставленные официальным дилером NVIDIA
4)Завод высокопроизводительных вычислений Blackwell Ultra DGX Super POD
Для тех клиентов, для которых в настоящее время Blackwell Ultra NVL72 не удовлетворяет требования, и которым не нужно строить крупномасштабные ИИ-кластеры, решением от NVIDIA является фабрика искусственного интеллекта DGX Super POD, основанная на Blackwell Ultra и готовая к использованию.
Как фабрика искусственного интеллекта, готовая к использованию, DGX Super POD в основном ориентирован на сценарии искусственного интеллекта, такие как генеративный ИИ, ИИ-агент и физическое моделирование, покрывая потребности в расширении вычислительных мощностей на всем пути от предварительного обучения до производственной среды. Equinix, как первый поставщик услуг, предоставляет поддержку жидкостного/воздушного охлаждения инфраструктуры.
DGX Super POD, основанный на кастомизированной версии Blackwell Ultra, представлен в двух вариантах:
DGX SuperPOD с встроенным DGX GB300 (Grace CPU ×1+Blackwell Ultra GPU ×2), в общей сложности 288 Grace CPU + 576 Blackwell Ultra GPU, обеспечивает 300 ТБ быстрой памяти, вычислительная мощность при точности FP4 составляет 11.5 экзафлопс
DGX SuperPOD с встроенным DGX B300, эта версия не содержит процессор Grace CPU, обладает дополнительным пространством для расширения и использует воздушное охлаждение, основное применение - обычные предприятий уровня данных центры
5) DGX Spark и станция DGX
В январе этого года на выставке CES компания NVIDIA продемонстрировала концептуальный продукт искусственного интеллекта под названием Project DIGITS, стоимостью 3000 долларов, который теперь получил официальное название DGX Spark.
В части характеристик продукта, он оснащен чипом GB10, при точности FP4 вычислительная мощность может достигать 1PetaFlops, встроена память 128GB LPDDR5X, сетевая карта CX-7, накопитель 4TB NVMe, работает на операционной системе DGX OS, основанной на Linux, поддерживает такие фреймворки, как Pytorch, и предустановлены некоторые базовые средства разработки программного обеспечения для искусственного интеллекта от NVIDIA, может запускать модели с 2000 миллиардами параметров. Размер всей системы приблизительно такой же, как у Mac mini, две системы DGX Spark могут взаимодействовать, и могут запускать модели с более чем 4000 миллиардами параметров.
Хотя мы называем его AI PC, по сути, он все еще относится к категории суперкомпьютеров, поэтому он был включен в серию продуктов DGX, а не в потребительские продукты, такие как RTX.
Однако некоторые также критикуют этот продукт, утверждая, что производительность FP4 низкая, переведенная в точность FP16, она может сравниться только с RTX 5070 и даже с Arc B580 за 250 долларов, поэтому соотношение цены и качества крайне низкое.
Помимо официально названной DGX Spark, NVIDIA также выпустила рабочую станцию AI на основе Blackwell Ultra, которая включает ЦП Grace и ГПУ Blackwell Ultra, оснащенную 784 ГБ общей памяти, сетевой картой CX-8, предоставляющую 20 PetaFlops вычислительной мощности для искусственного интеллекта (не официально помечено, но теоретически также FP4 точность).
6)RTX сметает AI PC и даже проникает в центр обработки данных
Все, что было представлено выше, основано на продуктовых SKU, оснащенных процессором Grace и графическим ускорителем Blackwell Ultra, и все они представляют собой продукцию уровня предприятия. Учитывая, что многие люди заинтересованы в применении продуктов такого класса, как RTX 4090, в области искусственного интеллекта, компания Nvidia на этой конференции GTC дополнительно укрепила интеграцию серии Blackwell и RTX, представив целый ряд графических процессоров для AI-ПК с встроенной памятью GDDR7, охватывающих ноутбуки, настольные ПК и даже сценарии использования в центрах обработки данных.
Графические процессоры для настольных ПК: включая RTX PRO 6000 Blackwell Workstation Edition, RTX PRO 6000 Blackwell Max-Q Workstation Edition, RTX PRO 5000 Blackwell, RTX PRO 4500 Blackwell и RTX PRO 4000 Blackwell
Графические процессоры для ноутбуков: RTX Pro 5000 Blackwell, RTX PRO 4000 Blackwell, RTX, PRO 3000 Blackwell, RTX PRO 2000 Blackwell, RTX PRO 1000 Blackwell и RTX PRO 500 Blackwell*
Центр обработки данных GPU: NVIDIA RTX PRO 6000 Blackwell, серверная версия
NVIDIA создала «все в одном» решение по искусственному интеллекту для корпоративных вычислений.
Вышеуказанные продукты представляют собой лишь часть SKU, специально разработанных на основе микросхемы Blackwell Ultra для различных сценариев, начиная с рабочих станций и заканчивая кластерами центров обработки данных. NVIDIA называет это "Семейством Blackwell" (семьей Blackwell), а в переводе на китайский это можно назвать "Семейством Blackwell".
Photonics НВИДИА: система CPO, стоящая на плечах товарищей
Концепция модуля совместной упаковки фотонов (CPO) в общем заключается в совместной упаковке чипа коммутатора и оптического модуля, что позволяет преобразовывать оптический сигнал в электрический сигнал и полностью использовать передаточные характеристики оптического сигнала.
До этого в индустрии постоянно обсуждали продукты CPO-сетевого коммутатора от NVIDIA, но они так и не были запущены. Хуан Женьхунь также дал объяснение на месте - из-за массового использования оптоволоконных соединений в центрах обработки данных энергопотребление оптических сетей составляет около 10% от вычислительных ресурсов, а стоимость оптических соединений напрямую влияет на масштабируемую сеть узлов вычислений и повышение плотности производительности искусственного интеллекта.
Параметры кремниевых оптических совместно упакованных микросхем Quantum-X и Spectrum-X, представленных на GTC
В этом году GTC от NVIDIA впервые представила кремниевые оптоэлектронные чипы Quantum-X и Spectrum-X, а также три производных продукта: коммутаторы Quantum 3450-LD, Spectrum SN6810 и Spectrum SN6800.
Quantum 3450-LD: 144 порта 800GB/s, пропускная способность задней панели 115TB/s, жидкостное охлаждение
Spectrum SN6810: 128 портов по 800 ГБ/с, пропускная способность задней панели 102.4 ТБ/с, жидкостное охлаждение
Spectrum SN6800: 512 портов по 800 ГБ/с, пропускная способность задней панели 409.6 ТБ/с, жидкостное охлаждение
Вышеуказанные продукты объединены в «NVIDIA Photonics». NVIDIA говорит, что это платформа, основанная на совместном исследовании и разработке с партнерами по CPO, например, ее модулятор с микрокольцевым резонатором (MRM) оптимизирован на основе оптоволоконного двигателя от TSMC, поддерживает высокую мощность, высокую энергоэффективность модуляции лазера и использует съемные оптоволоконные разъемы.
Интересно, что согласно предыдущим данным отрасли, микрокольцевой модулятор (MRM) от TSMC был разработан на основе их 3-нм технологического процесса и передовых технологий упаковки, таких как CoWoS.
Согласно данным, предоставленным NVIDIA, улучшение производительности коммутатора Photonics, интегрирующего оптические модули, по сравнению с традиционным коммутатором, составляет 3,5 раза, а эффективность развертывания можно увеличить в 1,3 раза, а также обеспечить более чем в 10 раз большую гибкость масштабирования.
Эффективность модели PK DeepSeek: развитие программной экосистемы AI Agent
Хуан Женьсюн на месте описывает «большой пирог» инфраструктуры искусственного интеллекта
Поскольку на этом двухчасовом мероприятии GTC Хуан Цзиньсюнь в общей сложности выступил всего около получаса о программном обеспечении и конкретном искусственном интеллекте. Поэтому многие детали были дополнены официальной документацией, а не полностью взяты со стенда.
1)Nvidia Dynamo, новый CUDA, созданный Nvidia в области вывода
Nvidia Dynamo абсолютно является королевской картой выпущенного программного обеспечения.
Это программное обеспечение с открытым исходным кодом, специально разработанное для ускорения вывода, обучения и перекрестного ускорения по всему центру обработки данных. Данные о производительности Dynamo довольно впечатляющие: на существующей архитектуре Hopper Dynamo может удвоить производительность стандартной модели Llama. Для специализированных моделей вывода, таких как DeepSeek, умная оптимизация вывода NVIDIA Dynamo может увеличить количество токенов, генерируемых каждым GPU, более чем в 30 раз.
Хуань Реньсюй демонстрирует, что Blackwell с Динамо может превысить Хоппера более чем в 25 раз
Улучшения Dynamo в основном обусловлены децентрализацией. Он распределяет различные этапы вычислений LLM (понимание запроса пользователя и генерация лучшего ответа) на разные GPU, что позволяет оптимизировать каждый этап независимо, увеличивая пропускную способность и ускоряя скорость ответа.
Например, на этапе обработки ввода, то есть на этапе предварительного заполнения, Dynamo может эффективно распределять ресурсы GPU для обработки ввода пользователя. Система будет использовать несколько групп GPU параллельно обрабатывать запросы пользователей, надеясь, что обработка GPU будет более разнообразной и быстрой. Dynamo вызывает несколько групп GPU одновременно параллельно "читать" и "понимать" вопросы пользователя в режиме FP4, при этом одна группа GPU обрабатывает фоновые знания о "Второй мировой войне", другая группа обрабатывает исторические материалы, связанные с "причиной", а третья группа обрабатывает временную линию и события, связанные с "процессом", этот этап похож на то, как несколько исследовательских помощников одновременно изучают большое количество материалов.
При генерации выходных токенов, то есть на этапе декодирования, необходимо сделать GPU более фокусированным и последовательным. На этом этапе важнее не количество GPU, а большая пропускная способность для усвоения информации из предыдущего этапа размышлений, поэтому требуется больше операций чтения из кэша. Dynamo оптимизирует коммуникацию и выделение ресурсов между GPU, обеспечивая последовательное и эффективное создание ответов. С одной стороны, он полностью использует высокую пропускную способность NVLink для архитектуры NVL72, максимизируя эффективность генерации токенов. С другой стороны, с помощью «Smart Router» запросы направляются на те GPU, на которых уже закэшированы связанные ключи KV(, что позволяет избежать повторных вычислений и значительно увеличивает скорость обработки. Из-за избежания повторных вычислений некоторые ресурсы GPU освобождаются, и Dynamo может динамически распределять эти свободные ресурсы для новых входящих запросов.
Эта архитектура очень похожа на архитектуру Mooncake Кими, но NVIDIA оказывает больше поддержки на инфраструктурном уровне. Вероятно, Mooncake может увеличиться примерно в 5 раз, но увеличение на уровне вывода Dynamo более заметно.
Например, в нескольких важных нововведениях Dynamo «GPU Planner» может динамически настраивать распределение GPU в зависимости от нагрузки, «библиотека передачи данных с низкой задержкой» оптимизирует передачу данных между GPU, а «менеджер памяти» интеллектуально перемещает данные вывода между устройствами хранения различных уровней стоимости, дополнительно снижая операционные издержки. А умный маршрутизатор, система маршрутизации LLM, направляет запросы на наиболее подходящий GPU, уменьшая повторные вычисления. Этот набор возможностей позволяет достичь оптимальной нагрузки GPU.
С помощью этой системы вывода программного обеспечения можно эффективно расширить до крупных кластеров GPU, что позволяет одному запросу ИИ без проблем масштабироваться до 1000 GPU для полного использования ресурсов центра обработки данных.
Для операторов GPU эти улучшения привели к значительному снижению стоимости миллиона токенов и существенному увеличению производительности. В то же время каждому пользователю в секунду предоставляется больше токенов, увеличивается скорость ответа и улучшается пользовательский опыт.
С помощью Dynamo достигается золотая линия доходности между пропускной способностью сервера и скоростью ответа
В отличие от CUDA, который является основой программирования на GPU, Dynamo — это более высокоуровневая система, сосредоточенная на интеллектуальном распределении и управлении крупными нагрузками вывода. Он отвечает за распределенный уровень планирования вывода, расположенный между приложением и нижним инфраструктурным уровнем. Но подобно тому, как CUDA около десяти лет назад радикально изменила сценарий вычислений на GPU, Dynamo также может успешно создать новую парадигму эффективности вывода в программно-аппаратном обеспечении.
Dynamo полностью открыт и поддерживает все основные фреймворки от PyTorch до Tensor RT. Как и в случае с CUDA, он работает только на GPU от NVIDIA, являясь частью программного стека NVIDIA AI для вывода.
С помощью этого программного обеспечения NVIDIA построила свою защиту против специализированных чипов для推理 AISC, таких как Groq. Необходимо сочетание программного и аппаратного обеспечения, чтобы доминировать в инфраструктуре вывода.
) 2)Llama Nemotron новая модель шоу эффективна, но все равно не может превзойти DeepSeek
Хотя в аспекте использования сервера Dynamo действительно впечатляет, но по обучению модели Nvidia все еще немного уступает настоящим специалистам.
NVIDIA на этой GTC представила новую модель Llama Nemotron, которая выделяется своей эффективностью и точностью. Она происходит из семейства моделей Llama. Благодаря специальной настройке NVIDIA, по сравнению с оригинальной моделью Llama, эта модель была оптимизирована путем обрезки алгоритма, что делает ее более легкой, всего 48B. Она также обладает возможностью рассуждения, подобной o1. Как и модели Claude 3.7 и Grok 3, в модель Llama Nemotron встроен переключатель режима рассуждения, который пользователь может выбрать включить или выключить. Эта серия имеет три уровня: начальный Nano, средний Super и флагманский Ultra, каждый из которых ориентирован на потребности предприятий разного масштаба.
Говоря о эффективности, этот модуль для настройки состоит исключительно из синтетических данных, сгенерированных самими NVIDIA, общим объемом около 60B token. По сравнению с 1,3 миллионами H100 часов полного обучения DeepSeek V3, этот модель с объемом параметров всего 1/15 DeepSeek V3 затратил всего 360,000 H100 часов на настройку. Эффективность обучения ниже, чем у DeepSeek, на один уровень.
В плане эффективности логики модель Llama Nemotron Super 49B действительно проявляет себя намного лучше предыдущей модели, ее пропускная способность по токенам может достигать 5 раз Llama 3 70B, и в одном центре обработки данных на GPU она способна обрабатывать более 3000 токенов в секунду. Однако в данных, опубликованных на последний день открытия DeepSeek, средняя пропускная способность каждого узла H800 во время предварительного заполнения составляет около 73,7 тыс. токенов/сек на ввод (включая попадания в кэш) или около 14,8 тыс. токенов/сек на вывод во время декодирования. Разница между ними все еще очевидна.
С точки зрения производительности Llama Nemotron Super 49B превосходит 70B Llama 70B, дистиллированную DeepSeek R1, во всех аспектах. Однако, учитывая частые выпуски небольших, высокопроизводительных моделей, таких как Qwen QwQ 32B, Llama Nemotron Super, вероятно, будет трудно выделиться среди моделей, способных посоревноваться с R1.
Самое убийственное заключается в том, что эту модель можно считать подтверждением того, что DeepSeek возможно даже лучше понимает обучение GPU в процессе обучения, чем NVIDIA.
) 3) Новая модель всего лишь закуска в экосистеме искусственного интеллекта NVIDIA AI Agent, а NVIDIA AIQ - это основное блюдо
Зачем NVIDIA разрабатывает модель рассуждения? Главным образом, это делается для подготовки к следующему взрывному росту искусственного интеллекта, который так заинтересовал лидера рынка AI. С тех пор как такие гиганты, как OpenAI, Claude и др., постепенно создали базу Agent на основе DeepReasearch и MCP, NVIDIA, очевидно, тоже считает наступление эпохи Agent.
Проект NVIDA AIQ - это попытка NVIDIA. Он предоставляет готовый рабочий процесс AI Agent планировщика, основанный на модели вывода Llama Nemotron. Этот проект относится к уровню Blueprint (Чертеж) NVIDIA, который представляет собой набор предварительно настроенных рабочих процессов, является набором шаблонов, которые помогают разработчикам более легко интегрировать технологии и библиотеки NVIDIA. А AIQ - это шаблонный агент, предоставляемый NVIDIA.
Как и Manus, он интегрирует в себя внешние инструменты, такие как поисковые системы и другие профессиональные агенты искусственного интеллекта, что позволяет самому агенту искать и использовать различные инструменты. Через планирование модели рассуждения Llama Nemotron, пересмотр и оптимизацию методов обработки, чтобы выполнить задачи пользователя. Кроме того, он поддерживает построение рабочего процесса для нескольких агентов.
Более продвинутой, чем Manus, является его сложная система RAG для корпоративных документов. Эта система включает в себя серию шагов, таких как извлечение, встраивание, векторное хранение, перераспределение и, наконец, обработка с помощью LLM, что гарантирует использование корпоративных данных агентом.
Помимо этого, NVIDIA также представила платформу для обработки данных с использованием искусственного интеллекта, подключая модели вывода искусственного интеллекта к системам корпоративных данных, что приводит к созданию DeepReasearch, ориентированного на корпоративные данные. Это приводит к значительному развитию технологий хранения, что делает хранилищные системы не просто хранилищами данных, а интеллектуальной платформой с активными возможностями вывода и анализа.
Кроме того, AIQ очень подчеркивает механизмы наблюдаемости и прозрачности. Это очень важно для безопасности и последующих улучшений. Разработчики могут в реальном времени отслеживать деятельность агента и непрерывно оптимизировать систему на основе данных о производительности.
В целом NVIDA AIQ - это стандартный шаблон рабочего процесса агента, предоставляющий различные возможности агента. Это своего рода программное обеспечение для создания агентов Dify, более подходящее для эпохи рассуждений.
Основная модель человекоподобного робота выпущена, NVIDIA планирует создать полностью закрытую экосистему воплощенной жизни
) 1)Космос, позволяющий интеллекту понимать мир
Если говорить о том, стоит ли сосредоточиться на агентах или же на текущих ставках, то NVIDIA в полной мере может считаться интегратором будущего в области воплощения искусственного интеллекта.
Модель, данные и вычислительная мощность - все эти три основных элемента NVIDIA устроила.
Давайте начнем с модели. На этот раз GTC выпустила обновленную версию базовой модели Cosmos, представленной в январе этого года.
Cosmos - это модель, способная предсказывать будущие изображения по текущим. Она может создавать подробные видео из текстовых/изображенческих входных данных и предсказывать развитие ситуации, объединяя текущее состояние (изображение/видео) с действиями (подсказки/управляющие сигналы). Поскольку для этого необходимо понимание физических причинно-следственных связей в мире, NVIDIA называет Cosmos базовой моделью мира (WFM).
Для интеллектуальных систем с телесным восприятием способность предсказывать поведение машин и его воздействие на внешний мир является ключевым навыком. Только в этом случае модель может планировать действия на основе прогнозов, поэтому модель мира становится основной моделью интеллекта с телесным восприятием. Имея эту базовую модель прогнозирования изменений в мире поведения/времени-физического мира, можно настроить эту модель на различные конкретные потребности практического применения интеллекта с телесным восприятием, такие как автоматическое вождение и набор данных для задач робототехники.
Первая часть модели, Cosmos Transfer, преобразует входной структурированный видеотекст в управляемый фотореалистичный видеовыход и генерирует крупномасштабные синтетические данные из воздуха. Это решает самое большое узкое место воплощенного интеллекта на сегодняшний день – проблему нехватки данных. Более того, эта генерация является «управляемой», что означает, что пользователь может указать конкретные параметры (например, погодные условия, свойства объекта и т. д.), а модель соответствующим образом скорректирует результаты генерации, сделав процесс генерации данных более контролируемым и целенаправленным. Весь процесс также может быть объединен Ominiverse и Cosmos.
Космос строится на реалистичном моделировании Ominiverse
Вторая часть Cosmos Predict способна генерировать виртуальное состояние из многомодальных входных данных, поддерживая генерацию нескольких кадров и прогнозирование траектории движения. Это означает, что при заданных начальном и конечном состояниях модель может создать разумный промежуточный процесс. Это ключевая способность восприятия и построения физического мира.
Третья часть - это Cosmos Reason, открытая и полностью настраиваемая модель, обладающая способностью восприятия времени и пространства, понимающая видеоданные через цепочку мыслей и предсказывающая результаты взаимодействия. Это способность улучшать планируемое и предсказуемое поведение.
Постепенно, с нарастанием этих трех способностей, Cosmos может достичь полной цепочки поведения от ввода токена изображения реальности + токена подсказки текстовой команды до вывода токена действия машины.
Эта базовая модель действительно показывает неплохие результаты. Всего два месяца прошло с момента запуска, и три ведущие компании - 1X, Agility Robotics и Figure AI - уже начали ее использовать. Большой языковой модели не удалось опередить, но искусственный интеллект Nvidia действительно находится в первом эшелоне.
) 2)Исаак GR00T N1, первая в мире базовая модель человекоподобного робота
С помощью Cosmos NVIDIA естественным образом настроил базовую модель Isaac GR00T N1, предназначенную для обучения специализированных человекоподобных роботов.
Он использует двойную систему архитектуры с быстрой реакцией "системы 1" и глубоким рассмотрением "системы 2". Его полное микронастройка позволяет обрабатывать общие задачи, такие как захват, перемещение, движение обеими руками и т. д. Кроме того, он может быть полностью настроен в зависимости от конкретного робота, разработчики роботов могут использовать реальные или синтетические данные для последующего обучения. Это позволяет фактически развертывать эту модель в самых разнообразных формах роботов.
Например, NVIDIA сотрудничает с Google DeepMind и Disney по разработке физического движка Newton, используя Isaac GR00T N1 в качестве платформы для управления очень необычным маленьким роботом BDX от Disney. Это показывает его высокую универсальность. Newton как физический движок очень тонок, поэтому достаточно построить систему физических наград, чтобы обучать интеллектуальные агенты в виртуальной среде.
Хуан Рэнсюй и робот BDX вступили в 'страстное' взаимодействие на сцене
) 4)генерация данных, двойная защита
NVIDIA объединила NVIDIA Omniverse и упомянутую выше модель мира NVIDIA Cosmos Transfer, чтобы создать чертеж Isaac GR00T. Он способен генерировать большое количество синтетических данных о движениях из небольшого числа демонстраций человека для тренировки операций роботов. Первая партия компонентов, использующая чертеж, была создана NVIDIA всего за 11 часов и сгенерировала 780 тысяч синтетических траекторий, что эквивалентно 6500 часам (примерно 9 месяцам) данных демонстраций человека. Значительная часть данных Isaac GR00T N1 исходит отсюда, и эти данные позволили улучшить производительность N1 на 40% по сравнению с использованием только реальных данных.
Для каждой модели NVIDIA может предоставить большое количество высококачественных данных благодаря системе Omniverse, основанной на полностью виртуальной среде, и системе генерации изображений Cosmos Transfer, основанной на реальном мире. NVIDIA также охватывает второй аспект этой модели.
) 3)Трехчастная система вычислительной мощности, создание империи вычислительных роботов от тренировки до конечной точки
С начала прошлого года Лао Хуанг акцентировал внимание на концепции "трех компьютеров" на GTC: один - это DGX, сервер с крупным GPU, предназначенный для обучения искусственного интеллекта, включая воплощенный интеллект. Другой - AGX, встроенная вычислительная платформа, разработанная NVIDIA для краевых вычислений и автономных систем, используемая для развертывания ИИ на конечных узлах, например, в качестве ключевого чипа для автопилота или робота. Третий - это компьютер для генерации данных Omniverse+Cosmos.
Три крупных вычислительных систем с воплощенным искусственным интеллектом
Эта система снова была упомянута старым Хуаном на этой GTC, и особенно отмечено, что благодаря этой системе вычислительной мощности может появиться миллиард уровня роботов. От обучения до развертывания всю вычислительную мощность использует NVIDIA. Эта часть также завершает цикл.
Заключение
Если просто сравнивать с предыдущим поколением чипов Blackwell, то Blackwell Ultra действительно не соответствует в аппаратном плане предыдущим "ядерным бомбам", "королевским флешкам" и даже имеет намек на выдавливание зубной пасты.
Но если с точки зрения планирования дорожной карты все это заложено в планировке Хуан Дженсюня, то в следующем году архитектура Rubin, начиная с технологии чипов и заканчивая транзисторами, интеграцией в стойку, взаимодействием графических процессоров и спецификациями соединений шкафов, будет значительно улучшена, в соответствии с китайской привычкой говорить, что «хорошее шоу еще впереди».
Сравнивая рисование пирога на аппаратном уровне, в последние два года NVIDIA можно сказать, что они бурно продвигаются на программном уровне.
Подробно изучив всю экосистему программного обеспечения NVIDIA, услуги трех уровней Meno, Nim, Blueprint включают в себя оптимизацию моделей, упаковку моделей в решения для разработки приложений на полном стеке. Экосистема облачных сервисов компании NVIDIA полностью совпадает с искусственным интеллектом. Кроме того, с добавлением нового Агента, NVIDIA должна включить в себя все аспекты в области искусственного интеллекта, кроме базовых моделей.
В отношении этой части программного обеспечения аппетит Лао Хуана такой же, как цена акций NVIDIA.
А в рынке робототехники у NVIDIA еще большие амбиции. Они контролируют модели, данные и вычислительную мощность. Не догоняя лидеров в основных языковых моделях, они компенсируют это в области базового искусственного интеллекта. Тень от монопольного гиганта в области базового искусственного интеллекта уже начинает проявляться на горизонте.
Здесь каждое звено, каждый продукт соответствует потенциальному рынку на уровне триллионов. Ранее удачливый гэмблер Вон Ин-Хван, собравший деньги благодаря монополии на GPU, начал сыграть в более крупную игру.
Если в этой игре программное обеспечение или роботы доминируют в какой-либо области рынка, то NVIDIA станет Google эпохи искусственного интеллекта, вершителем вершины пищевой цепи.
Однако, глядя на рентабельность GPU от NVIDIA, мы все же надеемся на такое будущее, не так ли.
К счастью, это большая игра, которую Лао Хуан никогда не проворачивал в своей жизни, и исход ее трудно предсказуем.
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
Награда
лайк
1
Поделиться
комментарий
0/400
IELTS
· 03-19 01:08
#F1极速冲刺,享$50,000大奖##BTC 行情分析##潜力山寨币# bsv Хммм Pepe #MUBARAK Launchpool 开启##多种山寨币ETF申请中# мм
Одна статья позволяет понять выступление Жэньсюнь Хуанга на конференции GTC от NVIDIA: вера в вычислительную мощность, которая никогда не спит
Автор: Су Ян, Хао Боян; Источник: Технологии Tencent
В качестве «людей, продающих лопаты» в эпоху искусственного интеллекта Хуан Жэньсюн и его NVIDIA всегда уверены, что вычислительная мощность никогда не спит.
! Изображение
Хуан Женьсюн в своем выступлении на GTC заявил, что спрос на вычислительную мощность вырос на 100 раз из-за выводов.
На сегодняшней конференции GTC Хуан Реньсюнь представил новейшую видеокарту Blackwell Ultra GPU, а также серверные SKU для вывода и агентов на ее основе, включая полный набор RTX на основе архитектуры Blackwell, все это связано с вычислительной мощностью, но более важно, как эффективно использовать эту мощность.
В глазах Хуан Реньхуна путь к AGI требует вычислительной мощности, физические интеллектуальные роботы требуют вычислительной мощности, построение Omniverse и модели мира требуют постоянного потока вычислительной мощности, а сколько вычислительной мощности нужно человеку, чтобы построить виртуальную "параллельную вселенную", - NVIDIA дал ответ - в 100 раз больше, чем в прошлом.
Для поддержки своей точки зрения Хуан Жень Хунь показал на месте GTC набор данных - к 2024 году четыре крупнейших облачных центра США закупят в общей сложности 1,3 миллиона чипов архитектуры Hopper, а к 2025 году это число вырастет до 3,6 миллиона графических процессоров Blackwell.
Ниже приведены некоторые ключевые моменты конференции GTC 2025 от NVIDIA, подготовленные Tencent Technology.
Набор Blackwell теперь доступен
1)годовой 'ядерный бомбардировщик' Blackwell Ultra в squeeze toothpaste
В прошлом году на конференции GTC компания NVIDIA представила архитектуру Blackwell и выпустила чип GB200. В этом году официальное название немного изменилось: вместо ранее слуховавшегося GB300 он сразу же был назван Blakwell Ultra.
Но с точки зрения аппаратных средств это означает замену памяти HBM на новую по сравнению с прошлым годом. Одним предложением можно сказать, что Blackwell Ultra = версия Blackwell с большим объемом памяти.
Blackwell Ultra состоит из двух чипов TSMC N4P (5нм) и архитектурного чипа Blackwell + процессора Grace CPU, а также более передовой памяти HBM3e со 12 слоями, объем памяти увеличен до 288 ГБ, поддерживает пятое поколение NVLink, обеспечивая межчиповую пропускную способность 1.8 ТБ/с.
! Изображение
Параметры производительности NVLink на протяжении истории
На основе обновлений хранения, вычислительная мощность FP4 Blackwell GPU может достигать 15PetaFLOPS, а скорость вывода на основе механизма ускорения внимания увеличивается в 2,5 раза по сравнению с чипом архитектуры Hopper.
2)Blackwell Ultra NVL72:AI специальный шкаф для вывода
! Изображение
Официальная карта Blackwell Ultra NVL72
Как и GB200 NVL72, NVIDIA в этом году также выпустила аналогичный продукт - стойку Blackwell Ultra NVL72, состоящую из 18 вычислительных лотков. Каждый вычислительный лоток содержит 4 графических процессора Blackwell Ultra и 2 процессора Grace, в общей сложности 72 графических процессора Blackwell Ultra и 36 процессоров Grace. Объем видеопамяти составляет 20 ТБ, общая пропускная способность 576 ТБ/с, а также 9 лотков с коммутационными переключателями NVLink (18 чипов коммутационных переключателей NVLink), с пропускной способностью NVLink между узлами 130 ТБ/с.
В стойке установлены 72 сетевые карты CX-8, обеспечивающие пропускную способность 14,4 ТБ/с, Quantum-X800 InfiniBand и Spectrum-X 800G Ethernet-карты, которые могут снизить задержку и джиттер, поддерживая крупномасштабные AI-кластеры. Кроме того, в стойку также интегрировано 18 карт BlueField-3 DPU для улучшения сети, безопасности и ускорения данных для многопользовательских сетей.
Nvidia заявила, что этот продукт специально настроен «для эры инференса ИИ», а сценарии применения включают в себя логический ИИ, агент и физические AI( для моделирования и синтеза данных ) для роботов и интеллектуального обучения вождению, по сравнению с предыдущим поколением продуктов GB200 Производительность ИИ NVL72 улучшена в 1,5 раза, а по сравнению с шкафными продуктами DGX с тем же позиционированием архитектуры Hopper он может предоставить центрам обработки данных в 50 раз больше возможностей для увеличения дохода.
Согласно официальной информации, выводы 6710 миллиардов параметров DeepSeek-R1 могут достигать 100 токенов в секунду на основе продукта H100, в то время как использование схемы Blackwell Ultra NVL72 позволяет достигать 1000 токенов в секунду.
Переведенный текст
! Изображение
Параметры аппаратного обеспечения Blackwell Ultra NVL72 и GB200 NVL72
Согласно предоставленной информации от NVIDIA, связанные с продукцией Blackwell NVL72, ожидается, что она появится на рынке во второй половине 2025 года. Клиентами будут в основном производители серверов, облачные поставщики и поставщики услуг аренды вычислительной мощности.
15 производителей, таких как Cisco/Dell/HPE/Lenovo/Супермикро
AWS/Google Cloud/Azure/Oracle и другие основные платформы облака
CoreWeave/Lambda/Yotta и т.д.
3) Заранее объявленный настоящий "ядерный" чип GPU Rubin
Согласно дорожной карте NVIDIA, основным местом проведения GTC2025 будет Blackwell Ultra.
Однако Хуан Жэньсюн также использовал эту возможность, чтобы предварительно анонсировать следующее поколение GPU на базе архитектуры Rubin и более мощный серверный шкаф Vera Rubin NVL144 - 72 шт. Vera CPU + 144 шт. Rubin GPU, использующих 288 ГБ памяти HBM4, пропускной способностью памяти 13 Тб/с, с поддержкой шестого поколения NVLink и сетевой карты CX9.
Насколько мощен этот продукт? Вычислительная мощность рекомендательных алгоритмов FP4 достигает 3,6 экзафлопс, а обучающая мощность FP8 достигает 1,2 экзафлопс, что в 3,3 раза превышает производительность Blackwell Ultra NVL72.
Если вы считаете, что этого недостаточно, не беспокойтесь, в 2027 году появится еще более мощный шкаф Rubin Ultra NVL576 с FP4 точностью вывода и обучения с FP8 точностью вычислительной мощности 15ExaFLOPS и 5ExaFLOPS соответственно, что в 14 раз превышает Blackwell Ultra NVL72.
! изображение
Официальные характеристики Rubin Ultra NVL144 и Rubin Ultra NVL576, предоставленные официальным дилером NVIDIA
4)Завод высокопроизводительных вычислений Blackwell Ultra DGX Super POD
Для тех клиентов, для которых в настоящее время Blackwell Ultra NVL72 не удовлетворяет требования, и которым не нужно строить крупномасштабные ИИ-кластеры, решением от NVIDIA является фабрика искусственного интеллекта DGX Super POD, основанная на Blackwell Ultra и готовая к использованию.
Как фабрика искусственного интеллекта, готовая к использованию, DGX Super POD в основном ориентирован на сценарии искусственного интеллекта, такие как генеративный ИИ, ИИ-агент и физическое моделирование, покрывая потребности в расширении вычислительных мощностей на всем пути от предварительного обучения до производственной среды. Equinix, как первый поставщик услуг, предоставляет поддержку жидкостного/воздушного охлаждения инфраструктуры.
! Изображение
DGX SuperPod, построенный на базе Blackwell Ultra
DGX Super POD, основанный на кастомизированной версии Blackwell Ultra, представлен в двух вариантах:
5) DGX Spark и станция DGX
В январе этого года на выставке CES компания NVIDIA продемонстрировала концептуальный продукт искусственного интеллекта под названием Project DIGITS, стоимостью 3000 долларов, который теперь получил официальное название DGX Spark.
В части характеристик продукта, он оснащен чипом GB10, при точности FP4 вычислительная мощность может достигать 1PetaFlops, встроена память 128GB LPDDR5X, сетевая карта CX-7, накопитель 4TB NVMe, работает на операционной системе DGX OS, основанной на Linux, поддерживает такие фреймворки, как Pytorch, и предустановлены некоторые базовые средства разработки программного обеспечения для искусственного интеллекта от NVIDIA, может запускать модели с 2000 миллиардами параметров. Размер всей системы приблизительно такой же, как у Mac mini, две системы DGX Spark могут взаимодействовать, и могут запускать модели с более чем 4000 миллиардами параметров.
Хотя мы называем его AI PC, по сути, он все еще относится к категории суперкомпьютеров, поэтому он был включен в серию продуктов DGX, а не в потребительские продукты, такие как RTX.
Однако некоторые также критикуют этот продукт, утверждая, что производительность FP4 низкая, переведенная в точность FP16, она может сравниться только с RTX 5070 и даже с Arc B580 за 250 долларов, поэтому соотношение цены и качества крайне низкое.
! Изображение
Компьютер DGX Spark и рабочая станция DGX Station
Помимо официально названной DGX Spark, NVIDIA также выпустила рабочую станцию AI на основе Blackwell Ultra, которая включает ЦП Grace и ГПУ Blackwell Ultra, оснащенную 784 ГБ общей памяти, сетевой картой CX-8, предоставляющую 20 PetaFlops вычислительной мощности для искусственного интеллекта (не официально помечено, но теоретически также FP4 точность).
6)RTX сметает AI PC и даже проникает в центр обработки данных
Все, что было представлено выше, основано на продуктовых SKU, оснащенных процессором Grace и графическим ускорителем Blackwell Ultra, и все они представляют собой продукцию уровня предприятия. Учитывая, что многие люди заинтересованы в применении продуктов такого класса, как RTX 4090, в области искусственного интеллекта, компания Nvidia на этой конференции GTC дополнительно укрепила интеграцию серии Blackwell и RTX, представив целый ряд графических процессоров для AI-ПК с встроенной памятью GDDR7, охватывающих ноутбуки, настольные ПК и даже сценарии использования в центрах обработки данных.
! Изображение
NVIDIA создала «все в одном» решение по искусственному интеллекту для корпоративных вычислений.
Вышеуказанные продукты представляют собой лишь часть SKU, специально разработанных на основе микросхемы Blackwell Ultra для различных сценариев, начиная с рабочих станций и заканчивая кластерами центров обработки данных. NVIDIA называет это "Семейством Blackwell" (семьей Blackwell), а в переводе на китайский это можно назвать "Семейством Blackwell".
Photonics НВИДИА: система CPO, стоящая на плечах товарищей
Концепция модуля совместной упаковки фотонов (CPO) в общем заключается в совместной упаковке чипа коммутатора и оптического модуля, что позволяет преобразовывать оптический сигнал в электрический сигнал и полностью использовать передаточные характеристики оптического сигнала.
До этого в индустрии постоянно обсуждали продукты CPO-сетевого коммутатора от NVIDIA, но они так и не были запущены. Хуан Женьхунь также дал объяснение на месте - из-за массового использования оптоволоконных соединений в центрах обработки данных энергопотребление оптических сетей составляет около 10% от вычислительных ресурсов, а стоимость оптических соединений напрямую влияет на масштабируемую сеть узлов вычислений и повышение плотности производительности искусственного интеллекта.
! Изображение
Параметры кремниевых оптических совместно упакованных микросхем Quantum-X и Spectrum-X, представленных на GTC
В этом году GTC от NVIDIA впервые представила кремниевые оптоэлектронные чипы Quantum-X и Spectrum-X, а также три производных продукта: коммутаторы Quantum 3450-LD, Spectrum SN6810 и Spectrum SN6800.
Вышеуказанные продукты объединены в «NVIDIA Photonics». NVIDIA говорит, что это платформа, основанная на совместном исследовании и разработке с партнерами по CPO, например, ее модулятор с микрокольцевым резонатором (MRM) оптимизирован на основе оптоволоконного двигателя от TSMC, поддерживает высокую мощность, высокую энергоэффективность модуляции лазера и использует съемные оптоволоконные разъемы.
Интересно, что согласно предыдущим данным отрасли, микрокольцевой модулятор (MRM) от TSMC был разработан на основе их 3-нм технологического процесса и передовых технологий упаковки, таких как CoWoS.
Согласно данным, предоставленным NVIDIA, улучшение производительности коммутатора Photonics, интегрирующего оптические модули, по сравнению с традиционным коммутатором, составляет 3,5 раза, а эффективность развертывания можно увеличить в 1,3 раза, а также обеспечить более чем в 10 раз большую гибкость масштабирования.
Эффективность модели PK DeepSeek: развитие программной экосистемы AI Agent
! Изображение
Хуан Женьсюн на месте описывает «большой пирог» инфраструктуры искусственного интеллекта
Поскольку на этом двухчасовом мероприятии GTC Хуан Цзиньсюнь в общей сложности выступил всего около получаса о программном обеспечении и конкретном искусственном интеллекте. Поэтому многие детали были дополнены официальной документацией, а не полностью взяты со стенда.
1)Nvidia Dynamo, новый CUDA, созданный Nvidia в области вывода
Nvidia Dynamo абсолютно является королевской картой выпущенного программного обеспечения.
Это программное обеспечение с открытым исходным кодом, специально разработанное для ускорения вывода, обучения и перекрестного ускорения по всему центру обработки данных. Данные о производительности Dynamo довольно впечатляющие: на существующей архитектуре Hopper Dynamo может удвоить производительность стандартной модели Llama. Для специализированных моделей вывода, таких как DeepSeek, умная оптимизация вывода NVIDIA Dynamo может увеличить количество токенов, генерируемых каждым GPU, более чем в 30 раз.
! Изображение
Хуань Реньсюй демонстрирует, что Blackwell с Динамо может превысить Хоппера более чем в 25 раз
Улучшения Dynamo в основном обусловлены децентрализацией. Он распределяет различные этапы вычислений LLM (понимание запроса пользователя и генерация лучшего ответа) на разные GPU, что позволяет оптимизировать каждый этап независимо, увеличивая пропускную способность и ускоряя скорость ответа.
! Изображение
Архитектура системы Dynamo
Например, на этапе обработки ввода, то есть на этапе предварительного заполнения, Dynamo может эффективно распределять ресурсы GPU для обработки ввода пользователя. Система будет использовать несколько групп GPU параллельно обрабатывать запросы пользователей, надеясь, что обработка GPU будет более разнообразной и быстрой. Dynamo вызывает несколько групп GPU одновременно параллельно "читать" и "понимать" вопросы пользователя в режиме FP4, при этом одна группа GPU обрабатывает фоновые знания о "Второй мировой войне", другая группа обрабатывает исторические материалы, связанные с "причиной", а третья группа обрабатывает временную линию и события, связанные с "процессом", этот этап похож на то, как несколько исследовательских помощников одновременно изучают большое количество материалов.
При генерации выходных токенов, то есть на этапе декодирования, необходимо сделать GPU более фокусированным и последовательным. На этом этапе важнее не количество GPU, а большая пропускная способность для усвоения информации из предыдущего этапа размышлений, поэтому требуется больше операций чтения из кэша. Dynamo оптимизирует коммуникацию и выделение ресурсов между GPU, обеспечивая последовательное и эффективное создание ответов. С одной стороны, он полностью использует высокую пропускную способность NVLink для архитектуры NVL72, максимизируя эффективность генерации токенов. С другой стороны, с помощью «Smart Router» запросы направляются на те GPU, на которых уже закэшированы связанные ключи KV(, что позволяет избежать повторных вычислений и значительно увеличивает скорость обработки. Из-за избежания повторных вычислений некоторые ресурсы GPU освобождаются, и Dynamo может динамически распределять эти свободные ресурсы для новых входящих запросов.
Эта архитектура очень похожа на архитектуру Mooncake Кими, но NVIDIA оказывает больше поддержки на инфраструктурном уровне. Вероятно, Mooncake может увеличиться примерно в 5 раз, но увеличение на уровне вывода Dynamo более заметно.
Например, в нескольких важных нововведениях Dynamo «GPU Planner» может динамически настраивать распределение GPU в зависимости от нагрузки, «библиотека передачи данных с низкой задержкой» оптимизирует передачу данных между GPU, а «менеджер памяти» интеллектуально перемещает данные вывода между устройствами хранения различных уровней стоимости, дополнительно снижая операционные издержки. А умный маршрутизатор, система маршрутизации LLM, направляет запросы на наиболее подходящий GPU, уменьшая повторные вычисления. Этот набор возможностей позволяет достичь оптимальной нагрузки GPU.
С помощью этой системы вывода программного обеспечения можно эффективно расширить до крупных кластеров GPU, что позволяет одному запросу ИИ без проблем масштабироваться до 1000 GPU для полного использования ресурсов центра обработки данных.
Для операторов GPU эти улучшения привели к значительному снижению стоимости миллиона токенов и существенному увеличению производительности. В то же время каждому пользователю в секунду предоставляется больше токенов, увеличивается скорость ответа и улучшается пользовательский опыт.
! [Изображение])https://img.gateio.im/social/moments-f8de7caca1c8cdd058d3b932d7d378a1(
С помощью Dynamo достигается золотая линия доходности между пропускной способностью сервера и скоростью ответа
В отличие от CUDA, который является основой программирования на GPU, Dynamo — это более высокоуровневая система, сосредоточенная на интеллектуальном распределении и управлении крупными нагрузками вывода. Он отвечает за распределенный уровень планирования вывода, расположенный между приложением и нижним инфраструктурным уровнем. Но подобно тому, как CUDA около десяти лет назад радикально изменила сценарий вычислений на GPU, Dynamo также может успешно создать новую парадигму эффективности вывода в программно-аппаратном обеспечении.
Dynamo полностью открыт и поддерживает все основные фреймворки от PyTorch до Tensor RT. Как и в случае с CUDA, он работает только на GPU от NVIDIA, являясь частью программного стека NVIDIA AI для вывода.
С помощью этого программного обеспечения NVIDIA построила свою защиту против специализированных чипов для推理 AISC, таких как Groq. Необходимо сочетание программного и аппаратного обеспечения, чтобы доминировать в инфраструктуре вывода.
) 2)Llama Nemotron новая модель шоу эффективна, но все равно не может превзойти DeepSeek
Хотя в аспекте использования сервера Dynamo действительно впечатляет, но по обучению модели Nvidia все еще немного уступает настоящим специалистам.
NVIDIA на этой GTC представила новую модель Llama Nemotron, которая выделяется своей эффективностью и точностью. Она происходит из семейства моделей Llama. Благодаря специальной настройке NVIDIA, по сравнению с оригинальной моделью Llama, эта модель была оптимизирована путем обрезки алгоритма, что делает ее более легкой, всего 48B. Она также обладает возможностью рассуждения, подобной o1. Как и модели Claude 3.7 и Grok 3, в модель Llama Nemotron встроен переключатель режима рассуждения, который пользователь может выбрать включить или выключить. Эта серия имеет три уровня: начальный Nano, средний Super и флагманский Ultra, каждый из которых ориентирован на потребности предприятий разного масштаба.
! [Изображение]###https://img.gateio.im/social/moments-f96380931cf2a144170345b7ec105846(
Конкретные данные Llama Nemotron
Говоря о эффективности, этот модуль для настройки состоит исключительно из синтетических данных, сгенерированных самими NVIDIA, общим объемом около 60B token. По сравнению с 1,3 миллионами H100 часов полного обучения DeepSeek V3, этот модель с объемом параметров всего 1/15 DeepSeek V3 затратил всего 360,000 H100 часов на настройку. Эффективность обучения ниже, чем у DeepSeek, на один уровень.
В плане эффективности логики модель Llama Nemotron Super 49B действительно проявляет себя намного лучше предыдущей модели, ее пропускная способность по токенам может достигать 5 раз Llama 3 70B, и в одном центре обработки данных на GPU она способна обрабатывать более 3000 токенов в секунду. Однако в данных, опубликованных на последний день открытия DeepSeek, средняя пропускная способность каждого узла H800 во время предварительного заполнения составляет около 73,7 тыс. токенов/сек на ввод (включая попадания в кэш) или около 14,8 тыс. токенов/сек на вывод во время декодирования. Разница между ними все еще очевидна.
! [Изображение])https://img.gateio.im/social/moments-8378715743f1e60d041a3cd7d7c219de(
С точки зрения производительности Llama Nemotron Super 49B превосходит 70B Llama 70B, дистиллированную DeepSeek R1, во всех аспектах. Однако, учитывая частые выпуски небольших, высокопроизводительных моделей, таких как Qwen QwQ 32B, Llama Nemotron Super, вероятно, будет трудно выделиться среди моделей, способных посоревноваться с R1.
Самое убийственное заключается в том, что эту модель можно считать подтверждением того, что DeepSeek возможно даже лучше понимает обучение GPU в процессе обучения, чем NVIDIA.
) 3) Новая модель всего лишь закуска в экосистеме искусственного интеллекта NVIDIA AI Agent, а NVIDIA AIQ - это основное блюдо
Зачем NVIDIA разрабатывает модель рассуждения? Главным образом, это делается для подготовки к следующему взрывному росту искусственного интеллекта, который так заинтересовал лидера рынка AI. С тех пор как такие гиганты, как OpenAI, Claude и др., постепенно создали базу Agent на основе DeepReasearch и MCP, NVIDIA, очевидно, тоже считает наступление эпохи Agent.
Проект NVIDA AIQ - это попытка NVIDIA. Он предоставляет готовый рабочий процесс AI Agent планировщика, основанный на модели вывода Llama Nemotron. Этот проект относится к уровню Blueprint (Чертеж) NVIDIA, который представляет собой набор предварительно настроенных рабочих процессов, является набором шаблонов, которые помогают разработчикам более легко интегрировать технологии и библиотеки NVIDIA. А AIQ - это шаблонный агент, предоставляемый NVIDIA.
! [Изображение]###https://img.gateio.im/social/moments-97ea77b03ad4a4fe4b1b1fede25596a4(
Архитектура NVIDA AIQ
Как и Manus, он интегрирует в себя внешние инструменты, такие как поисковые системы и другие профессиональные агенты искусственного интеллекта, что позволяет самому агенту искать и использовать различные инструменты. Через планирование модели рассуждения Llama Nemotron, пересмотр и оптимизацию методов обработки, чтобы выполнить задачи пользователя. Кроме того, он поддерживает построение рабочего процесса для нескольких агентов.
! [Изображение])https://img.gateio.im/social/moments-075dfe522598ad052ab2907c048fb015(
Система servicenow, основанная на этом шаблоне
Более продвинутой, чем Manus, является его сложная система RAG для корпоративных документов. Эта система включает в себя серию шагов, таких как извлечение, встраивание, векторное хранение, перераспределение и, наконец, обработка с помощью LLM, что гарантирует использование корпоративных данных агентом.
Помимо этого, NVIDIA также представила платформу для обработки данных с использованием искусственного интеллекта, подключая модели вывода искусственного интеллекта к системам корпоративных данных, что приводит к созданию DeepReasearch, ориентированного на корпоративные данные. Это приводит к значительному развитию технологий хранения, что делает хранилищные системы не просто хранилищами данных, а интеллектуальной платформой с активными возможностями вывода и анализа.
! [изображение])https://img.gateio.im/social/moments-a39ee6ec030b38226c1811e5d14a2348(
Состав платформы AI Data
Кроме того, AIQ очень подчеркивает механизмы наблюдаемости и прозрачности. Это очень важно для безопасности и последующих улучшений. Разработчики могут в реальном времени отслеживать деятельность агента и непрерывно оптимизировать систему на основе данных о производительности.
В целом NVIDA AIQ - это стандартный шаблон рабочего процесса агента, предоставляющий различные возможности агента. Это своего рода программное обеспечение для создания агентов Dify, более подходящее для эпохи рассуждений.
Основная модель человекоподобного робота выпущена, NVIDIA планирует создать полностью закрытую экосистему воплощенной жизни
) 1)Космос, позволяющий интеллекту понимать мир
Если говорить о том, стоит ли сосредоточиться на агентах или же на текущих ставках, то NVIDIA в полной мере может считаться интегратором будущего в области воплощения искусственного интеллекта.
Модель, данные и вычислительная мощность - все эти три основных элемента NVIDIA устроила.
Давайте начнем с модели. На этот раз GTC выпустила обновленную версию базовой модели Cosmos, представленной в январе этого года.
Cosmos - это модель, способная предсказывать будущие изображения по текущим. Она может создавать подробные видео из текстовых/изображенческих входных данных и предсказывать развитие ситуации, объединяя текущее состояние (изображение/видео) с действиями (подсказки/управляющие сигналы). Поскольку для этого необходимо понимание физических причинно-следственных связей в мире, NVIDIA называет Cosmos базовой моделью мира (WFM).
! [изображение]###https://img.gateio.im/social/moments-96eed5a18a4c78811de012d7353fe71d(
Основная структура Cosmos
Для интеллектуальных систем с телесным восприятием способность предсказывать поведение машин и его воздействие на внешний мир является ключевым навыком. Только в этом случае модель может планировать действия на основе прогнозов, поэтому модель мира становится основной моделью интеллекта с телесным восприятием. Имея эту базовую модель прогнозирования изменений в мире поведения/времени-физического мира, можно настроить эту модель на различные конкретные потребности практического применения интеллекта с телесным восприятием, такие как автоматическое вождение и набор данных для задач робототехники.
Первая часть модели, Cosmos Transfer, преобразует входной структурированный видеотекст в управляемый фотореалистичный видеовыход и генерирует крупномасштабные синтетические данные из воздуха. Это решает самое большое узкое место воплощенного интеллекта на сегодняшний день – проблему нехватки данных. Более того, эта генерация является «управляемой», что означает, что пользователь может указать конкретные параметры (например, погодные условия, свойства объекта и т. д.), а модель соответствующим образом скорректирует результаты генерации, сделав процесс генерации данных более контролируемым и целенаправленным. Весь процесс также может быть объединен Ominiverse и Cosmos.
! [Изображение])https://img.gateio.im/social/moments-e6b5268dffdd018830e53f9ae2c2515(
Космос строится на реалистичном моделировании Ominiverse
Вторая часть Cosmos Predict способна генерировать виртуальное состояние из многомодальных входных данных, поддерживая генерацию нескольких кадров и прогнозирование траектории движения. Это означает, что при заданных начальном и конечном состояниях модель может создать разумный промежуточный процесс. Это ключевая способность восприятия и построения физического мира.
Третья часть - это Cosmos Reason, открытая и полностью настраиваемая модель, обладающая способностью восприятия времени и пространства, понимающая видеоданные через цепочку мыслей и предсказывающая результаты взаимодействия. Это способность улучшать планируемое и предсказуемое поведение.
Постепенно, с нарастанием этих трех способностей, Cosmos может достичь полной цепочки поведения от ввода токена изображения реальности + токена подсказки текстовой команды до вывода токена действия машины.
Эта базовая модель действительно показывает неплохие результаты. Всего два месяца прошло с момента запуска, и три ведущие компании - 1X, Agility Robotics и Figure AI - уже начали ее использовать. Большой языковой модели не удалось опередить, но искусственный интеллект Nvidia действительно находится в первом эшелоне.
) 2)Исаак GR00T N1, первая в мире базовая модель человекоподобного робота
С помощью Cosmos NVIDIA естественным образом настроил базовую модель Isaac GR00T N1, предназначенную для обучения специализированных человекоподобных роботов.
! [Изображение]###https://img.gateio.im/social/moments-03f9b90d7d4337d4b49542337c32cccf(
Двухсистемная архитектура Isaac GR00T N1
Он использует двойную систему архитектуры с быстрой реакцией "системы 1" и глубоким рассмотрением "системы 2". Его полное микронастройка позволяет обрабатывать общие задачи, такие как захват, перемещение, движение обеими руками и т. д. Кроме того, он может быть полностью настроен в зависимости от конкретного робота, разработчики роботов могут использовать реальные или синтетические данные для последующего обучения. Это позволяет фактически развертывать эту модель в самых разнообразных формах роботов.
Например, NVIDIA сотрудничает с Google DeepMind и Disney по разработке физического движка Newton, используя Isaac GR00T N1 в качестве платформы для управления очень необычным маленьким роботом BDX от Disney. Это показывает его высокую универсальность. Newton как физический движок очень тонок, поэтому достаточно построить систему физических наград, чтобы обучать интеллектуальные агенты в виртуальной среде.
! [Изображение])https://img.gateio.im/social/moments-cb2f7f01e71700f7175d3a81f75d38b9(
Хуан Рэнсюй и робот BDX вступили в 'страстное' взаимодействие на сцене
) 4)генерация данных, двойная защита
NVIDIA объединила NVIDIA Omniverse и упомянутую выше модель мира NVIDIA Cosmos Transfer, чтобы создать чертеж Isaac GR00T. Он способен генерировать большое количество синтетических данных о движениях из небольшого числа демонстраций человека для тренировки операций роботов. Первая партия компонентов, использующая чертеж, была создана NVIDIA всего за 11 часов и сгенерировала 780 тысяч синтетических траекторий, что эквивалентно 6500 часам (примерно 9 месяцам) данных демонстраций человека. Значительная часть данных Isaac GR00T N1 исходит отсюда, и эти данные позволили улучшить производительность N1 на 40% по сравнению с использованием только реальных данных.
! [Изображение]###https://img.gateio.im/social/moments-4a7651bbdc8a83e0c1d4c39e114d730a(
Система симуляции близнецов
Для каждой модели NVIDIA может предоставить большое количество высококачественных данных благодаря системе Omniverse, основанной на полностью виртуальной среде, и системе генерации изображений Cosmos Transfer, основанной на реальном мире. NVIDIA также охватывает второй аспект этой модели.
) 3)Трехчастная система вычислительной мощности, создание империи вычислительных роботов от тренировки до конечной точки
С начала прошлого года Лао Хуанг акцентировал внимание на концепции "трех компьютеров" на GTC: один - это DGX, сервер с крупным GPU, предназначенный для обучения искусственного интеллекта, включая воплощенный интеллект. Другой - AGX, встроенная вычислительная платформа, разработанная NVIDIA для краевых вычислений и автономных систем, используемая для развертывания ИИ на конечных узлах, например, в качестве ключевого чипа для автопилота или робота. Третий - это компьютер для генерации данных Omniverse+Cosmos.
! [Изображение]###https://img.gateio.im/social/moments-7dba53ee823059c29b6b23fb6e0a86f5(
Три крупных вычислительных систем с воплощенным искусственным интеллектом
Эта система снова была упомянута старым Хуаном на этой GTC, и особенно отмечено, что благодаря этой системе вычислительной мощности может появиться миллиард уровня роботов. От обучения до развертывания всю вычислительную мощность использует NVIDIA. Эта часть также завершает цикл.
Заключение
Если просто сравнивать с предыдущим поколением чипов Blackwell, то Blackwell Ultra действительно не соответствует в аппаратном плане предыдущим "ядерным бомбам", "королевским флешкам" и даже имеет намек на выдавливание зубной пасты.
Но если с точки зрения планирования дорожной карты все это заложено в планировке Хуан Дженсюня, то в следующем году архитектура Rubin, начиная с технологии чипов и заканчивая транзисторами, интеграцией в стойку, взаимодействием графических процессоров и спецификациями соединений шкафов, будет значительно улучшена, в соответствии с китайской привычкой говорить, что «хорошее шоу еще впереди».
Сравнивая рисование пирога на аппаратном уровне, в последние два года NVIDIA можно сказать, что они бурно продвигаются на программном уровне.
Подробно изучив всю экосистему программного обеспечения NVIDIA, услуги трех уровней Meno, Nim, Blueprint включают в себя оптимизацию моделей, упаковку моделей в решения для разработки приложений на полном стеке. Экосистема облачных сервисов компании NVIDIA полностью совпадает с искусственным интеллектом. Кроме того, с добавлением нового Агента, NVIDIA должна включить в себя все аспекты в области искусственного интеллекта, кроме базовых моделей.
В отношении этой части программного обеспечения аппетит Лао Хуана такой же, как цена акций NVIDIA.
А в рынке робототехники у NVIDIA еще большие амбиции. Они контролируют модели, данные и вычислительную мощность. Не догоняя лидеров в основных языковых моделях, они компенсируют это в области базового искусственного интеллекта. Тень от монопольного гиганта в области базового искусственного интеллекта уже начинает проявляться на горизонте.
Здесь каждое звено, каждый продукт соответствует потенциальному рынку на уровне триллионов. Ранее удачливый гэмблер Вон Ин-Хван, собравший деньги благодаря монополии на GPU, начал сыграть в более крупную игру.
Если в этой игре программное обеспечение или роботы доминируют в какой-либо области рынка, то NVIDIA станет Google эпохи искусственного интеллекта, вершителем вершины пищевой цепи.
Однако, глядя на рентабельность GPU от NVIDIA, мы все же надеемся на такое будущее, не так ли.
К счастью, это большая игра, которую Лао Хуан никогда не проворачивал в своей жизни, и исход ее трудно предсказуем.