Выступление Дженсена Хуана на GTC: Эра рассуждений наступила, выручка к 2027 году составит как минимум триллион долларов, омары - это новая операционная система

CycleProphet · 2026-03-17T01:12:05+00:00

Nvidia разрабатывает развертываемый в космосе компьютер центра обработки данных "Vera Rubin Space-1", полностью открывая пространство воображения для расширения вычислительных мощностей AI за пределы Земли.Источник: Wall Street News16 марта 2026 года официально открылась конференция Nvidia GTC 2026, где основатель и генеральный директор Nvidia Джен-Сюнь Хуанг произнес экстренную речь.На конференции, рассматриваемой как "ежегодное паломничество в индустрию AI", Хуанг описал трансформацию Nvidia из "компании по производству микросхем" в "компанию по инфраструктуре и производству AI". Отвечая на волнующие рынок вопросы о устойчивости показателей и пространстве роста, Хуанг детально разобрал базовую коммерческую логику, стимулирующую будущий рост — "экономику токен-факторий".Прогноз результатов деятельности крайне оптимистичен, "спрос не менее 1 триллиона долларов с 2027 года"

CycleProphet

2026-03-17 01:12:05

Нvidia разрабатывает и внедряет в космосе дата-центр-вычислитель «Vera Rubin Space-1», полностью открывая пространство для воображения о расширении AI-вычислительных мощностей за пределы Земли.

Источник: 华尔街见闻

16 марта 2026 года официально стартовала конференция GTC 2026 Nvidia, на которой основатель и CEO Jensen Huang выступил с ключевой речью.

На этой мероприятии, считающемся «паломничеством в индустрии AI», Huang рассказал о трансформации Nvidia с компании «чипов» в «инфраструктурную и фабричную компанию AI». В условиях, когда рынок особенно озабочен устойчивостью показателей и ростом, Huang подробно разобрал базовую бизнес-логику, движущую будущим ростом — «Token фабричная экономика».

Очень оптимистичный прогноз по результатам: «к 2027 году спрос составит как минимум 1 триллион долларов»

За последние два года глобальный спрос на вычисления AI взорвался экспоненциально. По мере эволюции больших моделей от «восприятия» и «генерации» к «выводам» и «исполнению задач», расход вычислительных ресурсов резко вырос. В ответ на высокую заинтересованность рынка в потолке заказов и доходов Huang дал очень сильные ожидания.

В своей речи Huang прямо заявил:

«В прошлом году я говорил, что мы видим спрос с высокой уверенностью на 500 миллиардов долларов, охватывающий Blackwell и Rubin до 2026 года. А сейчас, прямо здесь и сейчас, я вижу спрос как минимум на 1 триллион долларов к 2027 году.»

Прогноз Huang о триллионе долларов ранее вызвал рост акций Nvidia более чем на 4,3%.

Более того, он добавил:

«Это ли разумно? Об этом я сейчас и расскажу. На самом деле, спрос даже превысит предложение. Я уверен, что реальные потребности в вычислениях будут гораздо выше этого.»

Huang отметил, что системы Nvidia уже доказали свою позицию как «самая недорогая инфраструктура в мире». Благодаря тому, что Nvidia способна запускать практически все модели AI в различных сферах, эта универсальность позволяет клиентам эффективно использовать вложенные в это 1 триллион долларов и сохранять долгий жизненный цикл.

На данный момент 60% бизнеса Nvidia приходится на крупнейших пяти облачных провайдеров, остальные 40% распределены между суверенными облаками, корпоративным сектором, промышленностью, робототехникой и периферийными вычислениями.

Token фабричная экономика: мощность за ватт — ключ к бизнесу

Чтобы объяснить обоснованность этого спроса в 1 триллион долларов, Huang представил глобальным CEO новую бизнес-модель. Он отметил, что будущие дата-центры перестанут быть хранилищами файлов, а станут «фабриками» производства Token (базовых единиц AI).

Huang подчеркнул:

«Каждый дата-центр, каждая фабрика по определению ограничена электропитанием. Фабрика мощностью 1 ГВт (гигаватт) никогда не станет 2 ГВт — это законы физики и атомов. При фиксированной мощности тот, у кого на ватт больше throughput Token, будет иметь самые низкие издержки производства.»

Huang разделил будущие AI-сервисы на четыре бизнес-уровня:

Бесплатный уровень (высокий throughput, низкая скорость)
Средний уровень (~3 доллара за миллион токенов)
Продвинутый уровень (~6 долларов за миллион токенов)
Высокоскоростной уровень (~45 долларов за миллион токенов)
Уровень сверхвысокой скорости (~150 долларов за миллион токенов)

Он отметил, что по мере увеличения размера моделей и длины контекста AI становится умнее, но скорость генерации токенов снижается. Huang сказал:

«В этой Token фабрике ваш throughput и скорость генерации токенов напрямую влияют на ваш точный доход в следующем году.»

Huang подчеркнул, что архитектура Nvidia позволяет клиентам достигать очень высокой пропускной способности на бесплатном уровне, одновременно повышая производительность в самом ценном уровне — выводе (Inference) — в 35 раз.

За два года Vera Rubin достигла ускорения в 350 раз, а компания Groq заполнила нишу сверхбыстрого вывода

В условиях физических ограничений Huang представил самую сложную в истории систему AI — Vera Rubin. Он сказал:

«Ранее я показывал Hopper, я поднимал чип — это было мило. Но говоря о Vera Rubin, все думают о всей системе. В этой системе, полностью жидкостное охлаждение и отказ от традиционных кабелей, р rack, который раньше требовал два дня для установки, теперь занимает всего два часа.»

Huang отметил, что благодаря экстремальному совместному проектированию аппаратного и программного обеспечения Vera Rubin за два года увеличила скорость генерации токенов с 22 миллиона до 700 миллионов — рост в 350 раз. Закон Мура за тот же период дал лишь 1,5-кратный прирост.

Для решения узких мест при сверхскоростном выводе (например, 1000 токенов/сек) Nvidia предложила интеграцию приобретенной компании Groq: асимметрический разделенный вывод. Huang объяснил:

«Эти два процессора имеют кардинально разные характеристики. Чип Groq обладает 500 МБ SRAM, а Rubin — 288 ГБ памяти.»

Huang отметил, что Nvidia через систему Dynamo объединяет необходимость огромных вычислений и памяти для этапа «предзаполнения» (Pre-fill) и «декодирования» (Decoding) — на Vera Rubin, а для чувствительной к задержкам стадии «декодирования» (decode) — на Groq. Huang также дал рекомендации по конфигурации вычислительных мощностей:

«Если ваша работа — высокая пропускная способность, используйте 100% Vera Rubin; если у вас много задач с высокой ценностью токенов, создавайте 25% дата-центра под Groq.»

По информации, чипы Groq LP30, произведенные Samsung, уже массово выпускаются и ожидаются поставки в третьем квартале, а первый rack Vera Rubin уже работает в облаке Microsoft Azure.

Кроме того, Huang продемонстрировал технологию оптического соединения — Spectrum X, первый в мире серийный оптический коммутатор CPO, и развеял опасения по поводу «медных кабелей против оптики»:

«Нам нужно больше производства медных кабелей, больше чипов для оптики и больше мощностей CPO.»

Agent: конец эпохи SaaS, «зарплата + Token» — стандарт Кремниевой долины

Помимо аппаратных барьеров, Huang уделил много внимания революции в программном обеспечении AI и экосистеме, особенно — взрыву Agent (умных агентов).

Он назвал проект OpenClaw «самым популярным open-source проектом в истории человечества», отметив, что за несколько недель он превзошел достижения Linux за 30 лет. Huang прямо заявил, что OpenClaw — это «операционная система» для Agent-вычислений.

Huang уверен:

«Каждая SaaS-компания станет AaaS (Agent-as-a-Service, агент как услуга). Чтобы обеспечить безопасность таких агентов, имеющих доступ к чувствительным данным и способных выполнять код, Nvidia выпустила корпоративный образец NeMo Claw, включающий стратегический движок и маршрутизатор конфиденциальности.»

Для обычных работников эта революция тоже уже близка. Huang описал будущее рабочего места:

«В будущем каждый инженер нашей компании будет иметь годовой бюджет токенов. Их базовая зарплата может составлять десятки тысяч долларов, а я выделю примерно половину этой суммы в виде Token-лимита, чтобы повысить их эффективность в 10 раз. Это уже новый способ найма в Кремниевой долине: сколько токенов входит в ваше предложение?»

В заключение Huang «пророчески» анонсировал следующую архитектуру — Feynman, которая впервые реализует совместное масштабирование по медным кабелям и CPO. Более того, Nvidia разрабатывает и внедряет в космосе дата-центр-вычислитель «Vera Rubin Space-1», полностью открывая пространство для расширения AI-вычислений за пределы Земли.

Полный перевод речи Huang на GTC 2026 (с помощью AI-инструментов) приведен ниже:

Ведущий: Добро пожаловать на сцену основателя и CEO Nvidia Jensen Huang.

Jensen Huang, основатель и CEO:

Добро пожаловать на GTC. Хочу напомнить, что это технологическая конференция. Мне очень приятно видеть столько людей, стоящих в очереди с раннего утра, видеть присутствующих здесь — это очень радует.

На GTC мы сосредоточимся на трех основных темах: технологиях, платформах и экосистеме. В настоящее время Nvidia обладает тремя крупными платформами: CUDA-X, системной платформой и нашей новейшей платформой AI-фабрики.

Перед началом хочу поблагодарить наших ведущих — Sarah Guo из Conviction, Alfred Lin из Sequoia Capital (первого венчурного инвестора Nvidia), а также нашего первого крупного институционального инвестора Gavin Baker. Эти три человека обладают глубокими знаниями в области технологий и имеют огромное влияние в технологической экосистеме. Также благодарю всех уважаемых гостей, которых я лично пригласил. Благодарю звездную команду.

Также благодарю всех компаний, присутствующих сегодня. Nvidia — это платформа, у нас есть технологии, платформа и богатая экосистема. Представители компаний, присутствующие здесь, — это практически все участники индустрии на сумму в 100 триллионов долларов. В этом мероприятии участвуют 450 компаний — спасибо вам.

Конференция включает 1000 технических сессий и 2000 спикеров, охватывающих все уровни архитектуры AI «пятислойного пирога» — от инфраструктуры (земля, электроснабжение, серверные комнаты) до чипов, платформ, моделей и приложений, движущих индустрию вперед.

CUDA: двадцать лет технологического наследия

Все началось здесь. Этот год — двадцатилетие CUDA.

За эти двадцать лет мы постоянно развивали эту архитектуру. CUDA — революционное изобретение — технология SIMT (Single Instruction Multiple Threads), которая позволяет разработчикам писать программы на скалярном коде и расширять их до многопоточных приложений, значительно проще, чем предыдущие SIMD-архитектуры. Недавно мы добавили функцию Tiles, которая облегчает программирование тензорных ядер (Tensor Core) и математических структур, на которых основан современный AI. В настоящее время CUDA включает тысячи инструментов, компиляторов, фреймворков и библиотек, а в открытом сообществе — сотни тысяч публичных проектов, глубоко интегрированных во все технологические экосистемы.

Эта диаграмма показывает всю стратегию Nvidia — я постоянно рассказываю о ней. Самое сложное и важное — это нижняя часть диаграммы «установка» (install base). За двадцать лет мы накопили сотни миллионов GPU и вычислительных систем, работающих на CUDA.

Наши GPU охватывают все облачные платформы и обслуживают практически всех производителей компьютеров и отраслей. Огромный объем установленных GPU — это движущая сила этого «флювия»: привлечение разработчиков, создание новых алгоритмов, прорывы, появление новых рынков, формирование новых экосистем и привлечение новых компаний — и так по кругу, ускоряя рост.

Загрузка программных библиотек Nvidia растет с невероятной скоростью, масштаб огромен и продолжает расти. Этот «флювий» позволяет нашей вычислительной платформе поддерживать огромное количество приложений и постоянных новых прорывов.

Более того, он обеспечивает очень долгий срок службы инфраструктуры: приложения, работающие на CUDA, очень разнообразны — от всех этапов жизненного цикла AI, платформ обработки данных до научных расчетов. Поэтому, установив GPU Nvidia, вы получаете очень высокую ценность. Именно поэтому цена облачных GPU архитектуры Ampere, выпущенной шесть лет назад, даже выросла.

Все это происходит благодаря огромному объему установленных GPU, мощному «флювию» и широкой экосистеме разработчиков. Когда эти факторы работают вместе, и мы постоянно обновляем программное обеспечение, стоимость вычислений снижается. Ускоренные вычисления повышают производительность приложений, а долгосрочное обновление программного обеспечения позволяет пользователям не только получать прирост производительности в начале, но и постоянно снижать издержки. Мы готовы поддерживать каждую GPU по всему миру, потому что архитектура совместима и долговечна.

Мы делаем так, потому что объем установленных GPU огромен — каждое обновление приносит пользу миллионам пользователей. Эта динамика расширяет охват Nvidia, ускоряет рост и снижает издержки, стимулируя новые возможности. CUDA — это сердце всей этой системы.

От GeForce к CUDA: двадцать пять лет эволюции

Наш путь с CUDA начался еще двадцать пять лет назад.

Многие из вас выросли с GeForce. GeForce — самый успешный маркетинговый проект Nvidia. Мы начали формировать будущих клиентов еще тогда, когда вы не могли позволить себе купить наши продукты — ваши родители становились первыми пользователями Nvidia, покупая наши продукты год за годом, пока не выросли и не стали настоящими специалистами и разработчиками.

Это заложило основу для GeForce двадцать пять лет назад. Тогда мы изобрели программируемый шейдер — очевидное, но очень важное изобретение, которое сделало ускорители программируемыми, — первый в мире программируемый ускоритель, пиксельный шейдер. Через пять лет мы создали CUDA — одно из наших самых важных вложений. Тогда у нас было ограниченное финансирование, но мы вложили большую часть прибыли в развитие CUDA, чтобы расширить его с GeForce на все компьютеры. Мы были убеждены в его потенциале. Вначале было трудно, но мы придерживались этой идеи 13 поколений и 20 лет — и сегодня CUDA повсюду.

Пиксельный шейдер стал движущей силой революции GeForce. А около восьми лет назад мы выпустили RTX — полностью революционизировавший архитектуру для современного компьютерного графика. GeForce принес CUDA всему миру, и благодаря этому ученые вроде Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton, Andrew Ng поняли, что GPU — это мощный инструмент для ускорения глубокого обучения, что вызвало взрыв искусственного интеллекта десять лет назад.

Десять лет назад мы решили объединить программируемое шейдерное моделирование с двумя новыми концепциями: во-первых, аппаратным трассированием лучей (Ray Tracing), что было очень сложно; во-вторых, — предвидением, что примерно десять лет назад мы предсказали, что AI полностью изменит способы создания компьютерной графики. Как GeForce принес AI всему миру, так и AI сейчас меняет подходы к реализации графики.

Сегодня я хочу показать будущее. Это наше новое поколение графических технологий — нейронное рендеринг (Neural Rendering), глубокое слияние 3D-графики и AI. Вот DLSS 5, смотрите.

Нейронное рендеринг: слияние структурированных данных и генеративного AI

Это впечатляет? Компьютерная графика засияет новой жизнью.

Что мы сделали? Мы соединили управляемую 3D-графику (реальную основу виртуальных миров) с ее структурированными данными и внедрили генеративный AI и вероятностные вычисления. Одно — детерминированное, другое — вероятностное, но очень реалистичное — мы объединили эти идеи, реализуя точное управление через структурированные данные и генерацию в реальном времени. В итоге контент получается красивым, впечатляющим и полностью управляемым.

Идея объединения структурированных данных и генеративного AI будет повторяться во многих отраслях. Структурированные данные — основа доверенного AI.

Платформы ускорения структурированных и неструктурированных данных

Теперь я покажу вам схему архитектуры.

Структурированные данные — это знакомые SQL, Spark, Pandas, Velox, а также важные платформы Snowflake, Databricks, Amazon EMR, Azure Fabric, Google BigQuery — все работают с Data Frame. Эти Data Frame — как огромные таблицы, хранящие всю бизнес-информацию, — базовая реальность для предприятий.

В эпоху AI нам нужно, чтобы AI использовал структурированные данные и делал это максимально быстро. В прошлом ускорение обработки структурированных данных помогало бизнесу работать эффективнее. А в будущем AI будет использовать эти структуры с гораздо большей скоростью, а агенты AI — обращаться к базам данных.

Что касается неструктурированных данных, то это в основном векторные базы данных, PDF, видео, аудио — большинство данных в мире. Ежегодно создаваемых данных — около 90% — это неструктурированные. Раньше эти данные почти не использовались: мы просто читали их, сохраняли в файлы, и всё. Мы не могли их искать или быстро получать, потому что у них нет простых индексов, нужно понимать смысл и контекст. А сейчас AI умеет это делать — с помощью мультимодальных технологий восприятия и понимания, он может читать PDF, понимать их содержание и встраивать их в структуру, пригодную для поиска.

Для этого Nvidia создала два базовых библиотеки:

cuDF — для ускоренной обработки структурированных данных и Data Frame
cuVS — для хранения векторов, семантических данных и неструктурированных AI-данных

Эти платформы станут одними из важнейших базовых.

Сегодня мы объявляем о сотрудничестве с несколькими компаниями. IBM — создатель SQL — будет использовать cuDF для ускорения платформы WatsonX Data. Dell совместно с нами создает платформу Dell AI Data, объединяя cuDF и cuVS, и уже показывает значительный прирост производительности в проектах NTT Data. Google Cloud ускоряет не только Vertex AI, но и BigQuery, а также снизил затраты на вычисления в Snapchat почти на 80%.

Преимущества ускоренных вычислений — скорость, масштаб и стоимость. Это продолжение закона Мура — ускорение производительности и снижение стоимости за счет оптимизации алгоритмов, что позволяет всем получать выгоду.

Nvidia создала платформу ускоренных вычислений, объединяющую множество библиотек: RTX, cuDF, cuVS и другие. Эти библиотеки интегрированы в глобальные облака и OEM-экосистемы, охватывая весь мир.

Глубокое сотрудничество с облачными провайдерами

Партнерство с ведущими облачными платформами

Google Cloud: мы ускоряем Vertex AI и BigQuery, глубоко интегрируемся с JAX/XLA, а также показываем отличные результаты в PyTorch — Nvidia единственная компания, которая хорошо работает и с PyTorch, и с JAX/XLA. Мы привлекаем клиентов, таких как Base10, CrowdStrike, Puma, Salesforce, — все они входят в экосистему Google Cloud.

AWS: мы ускоряем EMR, SageMaker и Bedrock, глубоко интегрируемся с AWS. В этом году особенно радостно, что мы привлекли OpenAI в AWS — это значительно увеличит потребление облачных ресурсов AWS и поможет OpenAI расширить региональные развертывания и масштабирование.

Microsoft Azure: первый в мире суперкомпьютер Nvidia мощностью 100 PFLOPS — это наш первый суперкомпьютер, развернутый в Azure, что стало важной основой для сотрудничества с OpenAI. Мы ускоряем облачные сервисы Azure и AI Foundry, расширяем регионы Azure и активно сотрудничаем в Bing Search. Важный момент — наши возможности Confidential Computing (конфиденциальных вычислений), которые позволяют даже операторам не видеть пользовательские данные и модели — Nvidia GPU — первые в мире поддерживающие такие функции, что позволяет безопасно запускать модели OpenAI и Anthropic в облаке по всему миру. Например, мы ускоряем весь цикл EDA и CAD для Synopsys, размещая его в Microsoft Azure.

Oracle: мы — первый клиент Oracle в области AI, и я горжусь, что смог впервые объяснить Oracle концепцию AI в облаке. После этого Oracle быстро развился, и мы внедрили для них Cohere, Fireworks, OpenAI и других партнеров.

CoreWeave: первая в мире облачная платформа, созданная специально для GPU и AI, с отличной клиентской базой и быстрым ростом.

Palantir + Dell: совместно создали новую AI-платформу на базе платформы Palantir Ontology и AI, которая может быть развернута в любой стране, в любой изолированной среде, полностью локально — от обработки данных (векторизация или структурированные данные) до полного ускорения AI.

Nvidia создала уникальную экосистему с глобальными облаками и OEM-партнерами, что обеспечивает взаимовыгодное развитие.

Стратегия вертикальной интеграции и горизонтальной открытости

Nvidia — первая в мире вертикально интегрированная и одновременно открытая компания.

Это очень просто: ускоренные вычисления — не только чипы или системы, а — применение. CPU позволяют компьютеру работать быстрее, но этот путь достиг предела. В будущем только специализированное ускорение в конкретных приложениях или областях сможет обеспечить дальнейший рост производительности и снижение стоимости.

Именно поэтому Nvidia должна глубоко развивать библиотеки, области и вертикальные отрасли. Мы — вертикально интегрированная вычислительная компания, другого пути нет. Мы должны понимать приложения, области, алгоритмы и уметь внедрять их в любые сценарии — дата-центры, облака, локальные системы, периферийные устройства и роботы.

При этом Nvidia остается открытой для интеграции технологий в платформы партнеров, чтобы весь мир мог получать выгоду от ускоренных вычислений.

Структура участников GTC отлично отражает эту стратегию. Среди участников — больше всего представителей финансового сектора — это разработчики, а не трейдеры. Наша экосистема охватывает всю цепочку поставок. Компании, существующие 50, 70 или 150 лет, в прошлом году показали рекордные результаты. Мы на пороге очень важных событий.

CUDA-X: движки ускоренных вычислений для разных отраслей

В каждом вертикале Nvidia уже глубоко внедрилась:

Автопилот: широкий охват, глубокое влияние
Финансы: количественные инвестиции переходят от ручных признаков к глубокому обучению на суперкомпьютерах, наступает «Transformer момент»
Медицина: наступает «ChatGPT момент» — AI помогает в разработке лекарств, диагностике, обслуживании пациентов
Промышленность: идет крупнейшая в истории стройка — AI-фабрики, чиповые заводы, дата-центры
Развлечения и игры: платформы реального времени для переводов, стриминга, интерактивных игр и умных шоппинг-агентов
Робототехника: более 10 лет работы, три архитектуры (обучение, симуляция, бортовые системы), на выставке — 110 роботов
Телеком: отрасль на 2 трлн долларов, базовые станции превращаются в AI-инфраструктуру — платформа Aerial, партнерство с Nokia, T-Mobile и др.

Все эти области объединяет библиотека CUDA-X — основа алгоритмической компании Nvidia. Эти библиотеки — ключевые активы, позволяющие платформе приносить реальную пользу в разных сферах.

Особое место занимает cuDNN — библиотека глубоких нейронных сетей CUDA, которая произвела революцию в AI и вызвала современный бум.

(демонстрационное видео CUDA-X)

Все, что вы видели, — моделирование, физические решатели, AI-модели физических систем и роботов — все это симуляции, без ручных анимаций или связок суставов. Это — ядро Nvidia: глубокое понимание алгоритмов и органичное сочетание с вычислительной платформой, открывающее новые возможности.

AI-родные компании и новая эпоха вычислений

Вы видели гигантов — Walmart, L’Oréal, JPMorgan, Roche, Toyota — и множество компаний, о которых вы никогда не слышали — мы называем их AI-родными компаниями. Их список очень длинный: OpenAI, Anthropic и множество новых предприятий, обслуживающих разные вертикали.

За последние два года эта индустрия взорвалась. В венчурных инвестициях в стартапы зафиксировано 150 миллиардов долларов — рекорд за всю историю. И впервые инвестиции выросли с миллионов до миллиардов и десятков миллиардов. Причина — все эти компании требуют огромных ресурсов и токенов. Они создают, генерируют токены или увеличивают их стоимость — в партнерстве с Anthropic, OpenAI и другими.

Как революции ПК, интернета и мобильных технологий породили эпохальные компании, так и эта новая платформа создаст новых гигантов, которые станут важной силой будущего.

Три ключевых прорыва за последние два года

Что же произошло за эти два года? Три события.

Первое: ChatGPT — начало эпохи генеративного AI (конец 2022 — 2023)

Он умеет воспринимать, понимать и создавать уникальный контент. Я показывал слияние генеративного AI и графики. Генеративный AI кардинально меняет подходы к вычислениям — от поиска к генерации, что влияет на архитектуру, развертывание и смысл всей системы.

Второе: Reasoning AI (AI-вывод), с примером o1

Способность к выводу позволяет AI размышлять, планировать, разбивать задачи — делить сложные вопросы на понятные шаги. o1 делает генеративный AI надежным, способным оперировать реальной информацией. Для этого увеличивается объем входных токенов и выходных для размышлений, что значительно повышает вычислительные требования.

Третье: Claude Code — первый агентный модель

Он умеет читать файлы, писать код, компилировать, тестировать и улучшать. Claude Code полностью меняет софтверную инженерию — все инженеры Nvidia используют хотя бы один из инструментов: Claude Code, Codex или Cursor. Это — новый рубеж: теперь AI не просто отвечает на вопросы «что», «где», «как», а «создает», «исполняет», «строит», использует инструменты, читает файлы, разбирается в задачах и действует. AI — от восприятия и генерации — до реальной работы.

За два года вычислительные требования для вывода выросли примерно в 10 000 раз, а объем использования — в 100 раз. Я всегда считал, что за эти два года спрос вырос в миллион раз — это ощущают все, OpenAI, Anthropic. Чем больше мощностей — тем больше токенов, тем выше доходы, тем умнее AI. Поворот к выводу уже наступил.

Триллионный эпоха AI-инфраструктуры

В прошлом году я говорил, что у нас есть высокая уверенность в спросе и заказах на Blackwell и Rubin до 2026 года — около 500 миллиардов долларов. Сегодня, через год, я говорю: к 2027 году я вижу минимум 1 триллион долларов, и уверен, что реальные потребности будут гораздо выше.

2025: год вывода Nvidia

2025 — год вывода (Year of Inference). Мы хотим обеспечить, чтобы на всех этапах жизненного цикла AI — от обучения до постобработки — инфраструктура работала эффективно, а срок службы был максимально долгим и дешевым.

В то же время, Anthropic и Meta присоединились к платформе Nvidia, что составляет треть глобальных потребностей в AI. Открытые модели приближаются к передовым уровням, и AI становится повсюду.

Nvidia — единственная платформа, способная запускать все виды AI-моделей — языковые, биологические, графические, компьютерное зрение, речь, белки, химия, робототехника — в облаке и на периферии, на любом языке. Архитектура Nvidia универсальна для всех сценариев, что делает ее самой дешевой и надежной.

60% бизнеса — крупнейшие облачные провайдеры, остальные 40% — региональные облака, суверенные облака, предприятия, промышленность, роботы, периферия. Область AI — это сама по себе новая платформа, и это — революция.

Grace Blackwell и NVLink 72: смелое архитектурное обновление

Когда еще был актуален Hopper, мы решили полностью перестроить систему — расширить NVLink с 8 до 72 линий, провести масштабную переработку. Grace Blackwell NVLink 72 — это крупная технологическая ставка, и я благодарю всех партнеров за поддержку.

Также мы представили NVFP4 — новый тип тензорных ядер и вычислительных блоков. Мы доказали, что NVFP4 может выполнять вывод без потери точности, обеспечивая огромную производительность и энергоэффективность, и подходит для обучения. Также появились новые алгоритмы — Dynamo, TensorRT-LLM, и мы построили суперкомпьютер DGX Cloud для оптимизации ядра.

Результаты впечатляют: по данным Semi Analysis — самой полной оценки AI-выводных показателей — Nvidia лидирует по эффективности на ватт и стоимости токена. В то время как закон Мура давал 1,5-кратный прирост H200, мы достигли 35-кратного. Dylan Patel из Semi Analysis даже сказал: «Jensen сдержал обещание, это — 50 раз.»

Я цитирую его: «Jensen sandbagged (сдержал обещание).»

Стоимость одного токена Nvidia — самая низкая в мире, и это — результат экстремального совместного проектирования.

Например, Fireworks — перед обновлением — около 700 токенов в секунду, после — почти 5000, рост в 7 раз. Это — сила совместного проектирования.

AI-фабрика: от дата-центра к фабрике токенов

Раньше дата-центры хранили файлы, а теперь — производят токены. Каждая облачная и AI-компания в будущем будет измерять эффективность именно по «фабрике токенов».

Мое главное утверждение:

Вертикальная ось: throughput — количество токенов в секунду при фиксированной мощности
Горизонтальная ось: скорость отклика — время реакции на запрос, чем быстрее, тем больше моделей и контекст, тем умнее AI

Токен — это новая товарная единица, и при зрелости она будет иметь многоуровневое ценообразование:

Бесплатный уровень (высокий throughput, низкая скорость)
Средний (~3 доллара за миллион токенов)
Продвинутый (~6 долларов)
Высокоскоростной (~45 долларов)
Сверхвысокой скорости (~150 долларов)

В сравнении с Hopper, Grace Blackwell увеличила throughput в 35 раз на самом ценном уровне и добавила новые уровни. При равномерном распределении мощности по четырем уровням, Grace Blackwell даст в 5 раз больше дохода, чем Hopper.

Vera Rubin: новая эпоха AI-вычислений

(видео о системе Vera Rubin)

Vera Rubin — полностью оптимизированная система «от конца до конца», специально для агентных задач:

Обучение больших языковых моделей: кластер из GPU NVLink 72, обработка Pre-fill и KV Cache
Новый процессор Vera: для высокой однопоточной производительности, с LPDDR5, — единственный в мире дата-центровый CPU с LPDDR5, идеально подходит для вызова AI-инструментов
Система хранения: BlueField 4 + CX 9 — новая платформа хранения для AI, все ведущие компании в отрасли присоединились
CPO Spectrum X — первый в мире серийный оптический коммутатор CPO, уже массовое производство
Kyber: новая рама, поддерживающая 144 GPU в единой NVLink-сети, объединяет вычисление и обмен NVLink, превращая в гигантский суперкомпьютер
Rubin Ultra: новая суперкомпьютерная нода, вертикальная, с поддержкой масштабирования NVLink

Vera Rubin полностью жидкостное охлаждение, установка занимает 2 часа вместо 2 дней, охлаждение — горячей водой 45°C, что значительно снижает нагрузку на охлаждение дата-центров. Satya Nadella подтвердил, что первая Vera Rubin уже работает в Azure, и я очень этим горжусь.

Интеграция Groq: максимальный вывод

Мы приобрели команду Groq и получили лицензию на их технологии. Groq — это детерминированный потоковый процессор (Deterministic Dataflow Processor), использующий статическую компиляцию и планирование, с большим объемом SRAM, оптимизированный под вывод — с очень низкой задержкой и высокой скоростью генерации токенов.

Но у Groq ограничена память (500 МБ SRAM), что затрудняет работу с большими моделями и KV Cache, ограничивая масштаб.

Решение — Dynamo — программное обеспечение для управления выводом. Мы объединили выводные процессы через Dynamo:

Предзаполнение (Pre-fill) и механизм внимания (Attention) — на Vera Rubin (требует много ресурсов и памяти)
Генерация токенов (Feed-Forward Network) — на Groq (нужна высокая пропускная способность и низкая задержка)

Эти компоненты связаны через Ethernet, что уменьшает задержку примерно вдвое. В рамках единой системы Dynamo, которая управляет всей AI-фабрикой, производительность выросла в 35 раз, и достигнут новый уровень вывода, ранее недоступный для NVLink 72.

Рекомендации по конфигурации:

Для задач с высокой пропускной способностью — 100% Vera Rubin
Для задач с высокой ценностью токенов — 25% Groq + 75% Vera Rubin

LP30 от Samsung уже в массовом производстве, поставки начнутся в Q3. Благодарю Samsung за поддержку.

Исторический скачок в выводных вычислениях

За два года скорость генерации токенов в 1 ГВт AI-фабрике выросла с 22 миллионов до 700 миллионов в секунду — в 350 раз. Это — результат экстремального совместного проектирования.

Дорожная карта

Blackwell: в производстве, стандартный rack Oberon, расширение NVLink с 8 до 72 линий, опционально — до 576 линий через оптику
Vera Rubin (текущая): rack Kyber, NVLink 144 (медные кабели); rack Oberon, NVLink 72 + оптика, расширение до 576; Spectrum 6 — первый в мире CPO-коммутатор
Vera Rubin Ultra (предстоящая): новая версия Rubin Ultra с LP35, в несколько раз быстрее
Feynman (следующее поколение): новый GPU с LP40, совместно разработанный Nvidia и Groq, с NVFP4; новый CPU — Rosa; BlueField 5; CX 10; поддержка как медных кабелей, так и CPO — в новых Kyber-рамках

План — параллельное развитие трех направлений: расширение медных кабелей, оптическое масштабирование (Scale-Up) и масштабирование по сети (Scale-Out). Требуются все партнеры для расширения производства кабелей, оптики и CPO.

Nvidia DSX: цифровой двойник AI-фабрики

AI-фабрики становятся все сложнее, и раньше поставщики технологий не взаимодействовали на этапе проектирования — только в дата-центре. Это — недостаточно.

Для этого мы создали Omniverse и платформу Nvidia DSX — платформу для совместного проектирования и эксплуатации гигабитных AI-фабрик в виртуальной среде. DSX включает:

Механические, тепловые, электросетевые и сетевые симуляции

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateAIGateClawOfficiallyLaunches
340.42K Популярность
#
BitcoinBoomsAbove$75K
49.97M Популярность
#
IsraelStrikesIranBTCPlunges
14.3K Популярность
#
NvidiaGTC2026ConferenceBegins
2.11M Популярность
#
IranDeploysMinesInStraitOfHormuz
181.34K Популярность

Горячее на Gate Fun
Подробнее

1
Grok
xAI投行分析
РК:$2.5KДержатели:1
0.00%
2
享自由币
aAsss
РК:$2.5KДержатели:1
0.00%
3
ARST
虾虾币
РК:$2.49KДержатели:1
0.00%
4
ISPP
自动短剧生产
РК:$2.49KДержатели:1
0.00%
5
100000000
Amrit
РК:$2.52KДержатели:1
0.00%

Закрепить

Карта сайта

Выступление Дженсена Хуана на GTC: Эра рассуждений наступила, выручка к 2027 году составит как минимум триллион долларов, омары - это новая операционная система

Token фабричная экономика: мощность за ватт — ключ к бизнесу

За два года Vera Rubin достигла ускорения в 350 раз, а компания Groq заполнила нишу сверхбыстрого вывода

Agent: конец эпохи SaaS, «зарплата + Token» — стандарт Кремниевой долины

CUDA: двадцать лет технологического наследия

От GeForce к CUDA: двадцать пять лет эволюции

Нейронное рендеринг: слияние структурированных данных и генеративного AI

Платформы ускорения структурированных и неструктурированных данных

Глубокое сотрудничество с облачными провайдерами

Стратегия вертикальной интеграции и горизонтальной открытости

CUDA-X: движки ускоренных вычислений для разных отраслей

AI-родные компании и новая эпоха вычислений

Три ключевых прорыва за последние два года

Триллионный эпоха AI-инфраструктуры

2025: год вывода Nvidia

Grace Blackwell и NVLink 72: смелое архитектурное обновление

AI-фабрика: от дата-центра к фабрике токенов

Vera Rubin: новая эпоха AI-вычислений

Интеграция Groq: максимальный вывод

Исторический скачок в выводных вычислениях

Дорожная карта

Nvidia DSX: цифровой двойник AI-фабрики

Популярные темы

GateAIGateClawOfficiallyLaunches

BitcoinBoomsAbove$75K

IsraelStrikesIranBTCPlunges

NvidiaGTC2026ConferenceBegins

IranDeploysMinesInStraitOfHormuz

Горячее на Gate Fun

Grok

xAI投行分析

享自由币

aAsss

ARST

虾虾币

ISPP

自动短剧生产

100000000

Amrit

Закрепить