Pelo menos 1 trilião de dólares em receitas! O discurso de Jensen Huang surpreende o público no GTC, a Nvidia retoma o controlo da situação de vida ou morte da IA (com transcrição completa de 20 mil palavras)

MaticHoleFiller

2026-03-23 01:05:28

Escrita | Coluna “Observando o Vale do Silício” Zheng Jun

O centro SAP de San José, no Vale do Silício, quase completamente lotado.

Este estádio, normalmente sede do time de hóquei NHL San Jose Sharks, transformou-se hoje na “Meca da IA” anual. Desenvolvedores, engenheiros, compradores empresariais e investidores de 190 países lotaram cada assento, todos atentos a uma figura familiar: aquele homem de jaqueta de couro, de meia-idade.

O CEO da Nvidia, Huang Renxun, subiu ao palco e sua primeira frase foi: “It all starts here.” — Tudo começa aqui. Nos mais de dois horas seguintes, ele confirmou o peso dessas palavras. Sorrindo, disse que hoje aqui é como o Super Bowl.

Ele prevê que a nova geração de chips de aceleração de IA da Nvidia, Blackwell, e o próximo produto Rubin, gerarão pelo menos 1 trilhão de dólares em receita até o final de 2027. Este número supera em muito a previsão de 500 bilhões de dólares feita por Huang em outubro de 2025, reforçando que a onda de investimentos em infraestrutura de IA ainda está em rápida expansão.

Pedidos bilionários: uma nova escala na narrativa de demanda

O impacto mais direto na fala veio dos pedidos. Huang estima que, até o final do próximo ano, os pedidos de compra da Nvidia para as arquiteturas Blackwell e Vera Rubin ultrapassarão 1 trilhão de dólares — o dobro do esperado no ano passado.

A Nvidia já havia elevado suas expectativas anteriormente. No mês passado, a CFO Colette Kress sugeriu que as vendas de chips superariam as previsões, e hoje Huang quantificou isso em números concretos.

Este otimismo é sustentado pelos resultados financeiros mais recentes: receita do data center no último trimestre atingiu US$ 62,3 bilhões, aumento de 75% ano a ano; porém, o preço das ações da Nvidia não acompanhou essa alta, recuando cerca de 11% desde o pico histórico de US$ 207 em outubro passado. O mercado questiona se a Nvidia conseguirá manter esse ritmo até 2027, pois o espaço de crescimento determina o potencial de valorização das ações. O número de um trilhão de dólares responde diretamente a essas dúvidas vazias.

Produto principal: Vera Rubin em destaque completo

Vera Rubin foi a protagonista absoluta do evento, embora Huang só tenha anunciado oficialmente após uma hora e meia de apresentação. Este sistema foi revelado no final do ano passado em Washington, detalhado na CES 2026 no início deste ano, e hoje foi lançado oficialmente na sua versão completa. Os principais destaques:

Vera Rubin NVL72 é o modelo topo de linha atual, com 72 GPUs interligadas via NVLink 6, todo refrigerado a líquido. Huang enfatizou: “Todos os cabos desapareceram” — usando bandejas modulares, o tempo de instalação caiu de duas horas para cinco minutos. O sistema funciona com água quente a 45°C. Huang chamou-o de “o motor da era de IA de alta performance”.

O Rubin Ultra expande para 144 GPUs em um único gabinete, usando a nova estrutura Kyber, com instalação vertical, com cálculo na frente e NVLink na parte de trás. Em comparação com a geração Hopper, a capacidade de inferência do Vera Rubin pode teoricamente atingir 7 milhões de tokens por segundo, enquanto a combinação Hopper x86 chega a 2 milhões. Huang afirmou que essa é “a figura mais importante para a fábrica de IA do futuro”, e divide a capacidade de inferência em quatro níveis de serviço — Free, High, Premium, Ultra — com preços baseados em tokens por segundo, onde “Token é a nova commodity”.

O Vera CPU será vendido como produto independente, criando uma nova fonte de receita na área de CPUs. A Nvidia estima que esse negócio possa gerar “bilhões de dólares” em receita. O primeiro sistema Vera Rubin já opera na nuvem Azure da Microsoft, com progresso de amostragem promissor — contrastando com os problemas de rendimento enfrentados na geração Blackwell no início.

Aquisição da Groq: LPU integrado oficialmente

Na véspera do Natal passado, a Nvidia adquiriu por cerca de US$ 20 bilhões os ativos principais da Groq, incorporando sua equipe central, incluindo o fundador Jonathan Ross. Hoje, Huang anunciou o produto tecnológico dessa aquisição: Groq 3 LPU (Unidade de Processamento de Linguagem).

O Groq 3 é um acelerador de inferência para Vera Rubin, não um substituto de GPU. Sua arquitetura é otimizada para o processamento de grandes modelos de linguagem, que passam por duas fases: prefill, intensivo em cálculo, e decode, intensivo em largura de banda. GPUs são excelentes em prefill, enquanto o LPU, com 22 TB/s de largura de banda HBM4, é especializado em decode, sendo cerca de 7 vezes mais rápido que GPUs similares. Ambos operam em uma arquitetura de inferência dissociada: GPU cuida do prefill, LPU do decode, coordenados pelo sistema Dynamo da Nvidia.

Para isso, a Nvidia lançou o rack dedicado LPX, com 256 LPUs Groq 3 em um único gabinete, ao lado do NVL72 Vera Rubin, conectados via Spectrum-X personalizado. Cada LPU possui 500MB de memória on-chip, fabricada pela Samsung, com previsão de entrega no terceiro trimestre. Dados oficiais indicam que a combinação Vera Rubin NVL72 + Groq 3 LPX pode aumentar em 35 vezes a taxa de tokens por megawatt em comparação ao Blackwell.

Executivos da Nvidia afirmaram que essa arquitetura permitirá oferecer inferência de “milhares de tokens por segundo” com latência extremamente baixa — nível antes dominado por chips dedicados como Cerebras e SambaNova.

Nvidia investe na criação de uma era de agentes de IA

Fora do hardware, Huang dedicou bastante tempo à estratégia de software da Nvidia. O foco é na onda de agentes de IA (AI Agents), especialmente na plataforma open source OpenClaw, que ele elogiou como o projeto open source mais bem-sucedido de todos os tempos.

Huang comparou o OpenClaw a um sistema operacional: “Ele é o sistema operacional que gerencia os computadores de agentes, assim como Windows tornou possível o PC.” Chegou a afirmar que “todas as empresas do mundo precisam de uma estratégia OpenClaw”, equiparando-a ao que foi a adoção do Linux ou HTTP/HTML na era da internet.

Para isso, a Nvidia lançou o NemoClaw — uma pilha de software de referência open source para agentes de IA. Seu foco principal é segurança corporativa: proteger dados sensíveis ao implantar agentes de IA, evitando vazamentos durante operações autônomas. Na mesma data, a equipe de segurança da Microsoft anunciou parceria com a Nvidia para desenvolver proteção em tempo real baseada em Nemotron e NemoClaw.

Além disso, a Nvidia posiciona produtos como DGX Spark e DGX Station como plataformas locais para desenvolvimento e implantação de agentes de IA, levando a capacidade do NemoClaw para o edge.

Roteiro: de Feynman ao data center espacial

No aspecto de hardware, Huang esboçou pela primeira vez o próximo passo após Vera Rubin: a arquitetura Feynman, prevista para 2028. Feynman incluirá uma nova GPU, uma nova LPU (LP40), um CPU chamado Rosa (homenagem à descobridora de DNA Rosalind Franklin), além de DPU BlueField-5, NIC CX10, e suporte a cabos de cobre e à plataforma de interconexão Kyber com CPO.

Surpreendentemente, Huang anunciou que a Nvidia está desenvolvendo uma versão espacial do sistema Vera Rubin — Space-1, com objetivo de implantar data centers em órbita. Reconhece que a radiação no espaço é o maior desafio, mas já estão trabalhando nisso. Essa estratégia se alinha às iniciativas de SpaceX, Google, Amazon e outros gigantes de data centers espaciais.

Além disso, foi apresentado o projeto DSX AI Factory, um design de referência que, junto com o Omniverse DSX Blueprint, ajuda empresas a planejar, simular e gerenciar o ciclo de vida completo de grandes data centers de IA. A AWS anunciou expansão de parceria, prometendo implantar mais de um milhão de GPUs Nvidia, incluindo Blackwell, Rubin e Groq 3 LPU, ainda neste ano, em várias regiões globais.

Carros autônomos e robôs: expansão de parcerias em larga escala

A terceira linha de foco na apresentação foi veículos autônomos. Huang anunciou que o Nvidia Drive AV, com suporte da Uber, entrará em fase de implementação: até 2028, a Uber implantará frotas autônomas apoiadas por Nvidia em 28 cidades ao redor do mundo, começando por Los Angeles e São Francisco, com início em 2027.

Simultaneamente, fabricantes como BYD, Geely, Nissan e Hyundai estão desenvolvendo veículos de nível L4 na plataforma Drive Hyperion da Nvidia. Além disso, Isuzu e a chinesa Tier IV trabalham em ônibus autônomos usando o chip AGX Thor. Huang citou: “A era do ChatGPT dos carros autônomos já chegou.”

Na área de robótica, o robô Olaf, da Disney (de Frozen), apareceu no palco e interagiu com Huang. Treinado em ambientes de simulação da Nvidia, o Olaf demonstra aplicações de IA física (Physical AI) em entretenimento.

Segundo Patrick Moorhead, da Moor Insights & Strategy, a Nvidia deixou de ser apenas uma fabricante de chips: “É uma plataforma.”

Nos primeiros 90 minutos, Huang falou principalmente de plataformas e infraestrutura. Reforçou que a Nvidia não é mais só uma fabricante de chips, mas uma empresa de ecossistema e infraestrutura. Sua estratégia abrange treinamento, inferência, orquestração, segurança de software, IA física, veículos autônomos, robótica e até data centers espaciais.

De forma mais concreta, a Nvidia constrói uma barreira de proteção em três níveis: pilha de hardware (GPU + LPU + CPU + DPU + rede), ecossistema de software (CUDA, NemoClaw, Dynamo, Omniverse) e implementação setorial (automotivo, saúde, industrial, entretenimento). Destaca-se que o software é uma vantagem competitiva cada vez mais difícil de copiar, justamente o diferencial que os concorrentes como AMD têm mais dificuldade em replicar.

A expansão de parcerias em veículos autônomos e a integração da plataforma OpenClaw indicam que as fontes de crescimento da Nvidia se ampliarão de hardware de data center para uma infraestrutura de IA mais ampla. Huang descreve seu futuro: a IA evoluirá de ferramentas de geração de texto para sistemas autônomos capazes de raciocinar, planejar e executar tarefas, alimentados por data centers de IA baseados em “fábricas de tokens” — a Nvidia quer ser o fornecedor completo dessa fábrica.

Reação do mercado e analistas: confirmação de confiança, mas divergências persistem

Durante o evento, as ações da Nvidia fecharam em alta de cerca de 1,65%, subindo de US$ 181 para aproximadamente US$ 183, com volume de 217 milhões de ações — acima da média diária de 177 milhões — e valor de mercado de US$ 4,45 trilhões, indicando que a apresentação impulsionou a confiança do mercado no curto prazo.

O analista Dan Ives, da Wedbush, foi um dos mais otimistas após o evento. Chamou Huang de “padrinho da IA” e descreveu o GTC como um “impulso de confiança necessário para investidores em tecnologia”, afirmando que a Nvidia “só sobe no topo da IA”. Reiterou que a revolução da IA está acelerando, com previsão de demanda de um trilhão de dólares de múltiplos setores — empresas, governos e startups nativas de IA — todos investindo simultaneamente. Estima que cada dólar gasto em chips Nvidia gera um multiplicador de 8 a 10 dólares em software, segurança e centros de dados.

O analista C.J. Muse, da Cantor Fitzgerald, já tinha fixado o alvo de US$ 300 por ação antes do evento, mantendo recomendação de compra, e afirmou que “estamos em um ponto crítico de reconstrução de confiança”. Ele acredita que a mensagem de Huang reforçará a estratégia de Nvidia como “empresa de infraestrutura de IA de sistema completo”, com foco na demanda de 2027.

Por outro lado, Gene Munster, da Deepwater Asset Management, foi mais cauteloso. Antes do evento, ele alertou que o verdadeiro desafio não é o lançamento de hoje, mas as preocupações de longo prazo com a desaceleração do crescimento em 2027 — uma narrativa relacionada ao possível pico de gastos em capital de IA.

Na última year, a bolha de IA e o grande investimento em infraestrutura criaram um cenário de otimismo, e Huang deu um forte impulso ao setor, apresentando uma visão de ecossistema de IA mais amplo. Assim, a Nvidia mantém sua posição de liderança nesse futuro de IA.

Bolha de IA? O homem de jaqueta de couro acha que tudo está apenas começando.

【Anexo: Transcrição completa do discurso】

Bem-vindos ao GTC! Gostaria de lembrar que este é um evento de tecnologia. Muitas pessoas já estão na fila cedo, é ótimo ver todos aqui presentes. No GTC, discutiremos tecnologia e plataformas. A Nvidia possui três grandes plataformas: talvez vocês pensem que falamos principalmente de CUDA X, mas o sistema é nossa outra plataforma, e agora temos uma nova chamada IA Fábricas (AI Factories). Discutiremos tudo isso, mas o mais importante é o ecossistema.

Antes de começar, agradeço ao apresentador Sarah Go e ao Alfred Lin, além do Gavin Baker, da Sequoia Capital, nossa primeira investidora de risco. Como principal investidor institucional, eles têm profundo conhecimento técnico e visão de mercado, além de uma vasta rede de ecossistemas. Também agradeço aos convidados VIP que convidei pessoalmente, e a todas as empresas patrocinadoras presentes. A Nvidia é uma plataforma com tecnologia, ecossistema e uma vasta rede de parceiros. Hoje, aqui, representam-se setores de trilhões de dólares, com 450 empresas patrocinando, mais de 1.000 sessões técnicas e 2.000 palestrantes. O evento cobre cada camada da arquitetura de IA de cinco níveis, desde infraestrutura básica (terra, energia, edifícios) até chips, plataformas, modelos, e, por fim, aplicações que farão toda a indústria decolar.

Tudo começa aqui, neste ano comemoramos 20 anos do CUDA. Desde então, trabalhamos na sua evolução. Essa invenção revolucionária permite escrever código scalar com múltiplas threads usando instruções únicas, mais fácil que SIMD. Recentemente, adicionamos Tiles para facilitar a programação de Tensor Cores e das estruturas matemáticas de IA atuais. Hoje, há milhares de ferramentas, compiladores, frameworks, bibliotecas e dezenas de milhares de projetos open source integrados ao CUDA. A maior dificuldade é a escala de instalação.

Ao longo de 20 anos, construímos bilhões de GPUs e sistemas de computação com CUDA, em todos os provedores de nuvem e empresas de hardware, atendendo quase todos os setores. Essa escala de instalação é o motor que impulsiona o ciclo de crescimento: atrai desenvolvedores, que criam algoritmos inovadores, como os de deep learning. Esses avanços geraram novos mercados e ecossistemas, atraindo mais empresas, aumentando ainda mais a instalação. Esse efeito de ciclo está acelerando: downloads de nossas bibliotecas crescem exponencialmente. Essa dinâmica sustenta a plataforma, prolonga sua vida útil e reduz custos. Quanto mais aplicações rodando na Nvidia CUDA, maior o impacto, maior a eficiência, maior a longevidade da infraestrutura.

Com tantos aplicativos na Nvidia CUDA, apoiamos todas as fases do ciclo de vida da IA e plataformas de processamento de dados, acelerando resolvers científicos. Essa abrangência faz com que a vida útil das GPUs seja longa: até modelos de seis anos atrás, como Ampere, continuam valorizados na nuvem. A alta escala, o efeito de ciclo, a ampla base de desenvolvedores e as atualizações contínuas de software reduzem custos e aumentam desempenho. Essa aceleração de cálculo melhora aplicações e reduz custos ao longo do ciclo de vida. Com uma instalação tão grande, nossas otimizações beneficiam milhões de GPUs globalmente. Essa combinação de escala, inovação e software reforça a influência do CUDA.

Mas nossa jornada começou há 25 anos, com o lançamento do GeForce. GeForce foi nossa maior campanha de marketing, e muitos cresceram com ela. Antes de você poder pagar por uma GPU, seus pais já investiram nisso, e você se tornou um cientista da computação e desenvolvedor de verdade. GeForce criou a Nvidia de hoje e deu origem ao CUDA. Há 20 anos, criamos o primeiro acelerador programável — o pixel shader, que permitia programar aceleradores gráficos. Cinco anos depois, nasceu o CUDA. Nosso maior investimento foi levar CUDA a cada PC, usando GeForce. Após 13 gerações, CUDA está em tudo. Dez anos atrás, lançamos a RTX, redesenhando a arquitetura para a era moderna de gráficos. GeForce levou o CUDA ao mundo, e muitos pioneiros perceberam que GPUs aceleram deep learning, iniciando a explosão de IA. Dez anos atrás, fundimos técnicas de sombreamento programável com hardware de ray tracing, prevendo que IA revolucionaria gráficos. Assim como GeForce trouxe IA ao mundo, IA agora transforma gráficos.

Hoje, apresentarei a próxima geração de gráficos — renderização neural, a fusão de gráficos 3D e IA, o DLSS 5.0. Combinamos controle de ambientes 3D, dados estruturados de mundos virtuais e IA generativa baseada em probabilidade. Dados estruturados sob controle, combinados com IA generativa, criam conteúdos belíssimos e controláveis. Essa fusão impactará diversos setores, pois dados estruturados são a base confiável para IA.

Vamos explorar os dados estruturados. Conhecemos SQL, Spark, Pandas, Velox, Snowflake, Databricks, Amazon EMR, Azure Fabric, Google BigQuery — todos lidam com DataFrames, grandes planilhas que representam a verdade única de negócios e cálculos. Antes, aceleramos o processamento de dados estruturados para reduzir custos e aumentar a frequência de atualização. No futuro, IA usará esses bancos de dados estruturados em velocidades extremas. Além disso, há bancos de dados não estruturados que representam a maior parte da informação global — vetores, PDFs, vídeos, áudios. 90% dos dados gerados anualmente são não estruturados. Até agora, eram difíceis de consultar por falta de indexação simples e compreensão do conteúdo.

Agora, a IA resolve esse problema. Com percepção multimodal, ela lê PDFs, entende seu conteúdo e os incorpora em estruturas pesquisáveis. Para isso, criamos duas bibliotecas: cuDF para dados estruturados, e cuVS para vetores e dados não estruturados. Essas plataformas serão essenciais no futuro, integradas às redes globais de processamento de dados complexos.

Hoje, anunciamos parcerias importantes. A IBM, criadora da linguagem SQL, usa cuDF para acelerar o WatsonX. Há 60 anos, a IBM lançou o System/360, que deu início à era da computação moderna, com SQL e data warehouses. Agora, a IBM e Nvidia usam GPUs para acelerar o WatsonX.data, redefinindo o processamento de dados na era da IA. Como sistemas baseados em CPU não atendem mais às demandas de acesso rápido a grandes volumes de dados, as empresas precisam se transformar. Por exemplo, a Nestlé faz milhares de decisões de supply chain por dia, com atualizações que levam horas em CPU, enquanto na Nvidia GPU, a velocidade é 5 vezes maior e o custo 83% menor.

A era do cálculo acelerado chegou. Não só na nuvem, mas também no edge. A Dell, líder mundial em sistemas e armazenamento, integra cuDF e cuVS em sua plataforma de IA. Google Cloud também acelera Vertex AI e BigQuery. Com Snapchat, reduzimos custos em quase 80%. Acelerar o processamento traz velocidade, escala e custos menores. A Lei de Moore, que prometia aumento de 1,5x a cada poucos anos, já perdeu força. A aceleração de cálculo nos permite ultrapassar esses limites.

Como uma empresa de algoritmos, a Nvidia, com sua vasta instalação e otimizações contínuas, reduz custos e aumenta velocidade, expandindo sua influência global. Criamos plataformas de aceleração como RTX, cuDF, cuVS, integradas a nuvens e OEMs. Essa colaboração se repete em Google Cloud, Snapchat, etc. Nosso trabalho com JAX, XLA, PyTorch é destaque. Somos o único acelerador de ponta nesses frameworks. Clientes como Baseten, CrowdStrike, Puma, Salesforce usam nossas tecnologias.

Integramos Nvidia em seus produtos, levando-os à nuvem. Nossas parcerias com provedores de nuvem visam trazer clientes. A maioria deles trabalha com nossos aceleradores para acelerar cargas de trabalho de IA, como recomendação e busca, migrando para GPUs Nvidia. Com colaboração com laboratórios de IA e ecossistemas nativos, levamos capacidade de cálculo ao cloud, que é rapidamente consumida. Outros 40% atuam em regiões, setores industriais, robótica, edge e supercomputação. Essa diversidade reforça a resiliência da IA, que se torna uma tecnologia fundamental e uma nova plataforma de computação.

Nosso papel é avançar a tecnologia. No ano passado, como ano da inferência, reformulamos completamente a arquitetura Hopper, com riscos altos. Decidimos elevar o padrão, criando NVLINK-72, mudando toda a construção, fabricação e programação. O sistema Grace Blackwell e NVLINK-72 representam um grande risco, mas graças aos parceiros, foi um sucesso. NVFP4 não é só uma melhoria de precisão, mas uma nova classe de TensorCores. Demonstramos inferência sem perda de precisão, com desempenho e eficiência energética muito superiores, podendo também treinar. Com NVLINK-72, NVFP4, Dynamo, TensorRT-LLM e novas algoritmos, construímos o DGX Cloud para otimizar o núcleo e o software. Muitos pensavam que inferência era simples, mas é o núcleo da receita. A análise de energia por token é crucial: cada data center tem limite de potência, e 1 GW não vira 2 GW. Assim, produzimos o máximo de tokens com energia limitada, no topo da curva de eficiência.

A velocidade de inferência define a resposta, a interatividade. Quanto mais rápido, maior o contexto e os tokens que a IA consegue processar, mais inteligente ela fica. Quanto mais inteligente, mais tempo ela leva, e menor a taxa de processamento. A partir de agora, CEOs pensarão suas operações como fábricas de tokens, ligadas à receita. Melhor eficiência por watt significa maior throughput e mais tokens. A Nvidia lidera com desempenho máximo, superando a Lei de Moore, que prometia 1,5x, mas conseguimos 35x.

Quando Huang falou que Vera Rubin e NVLINK-72 aumentaram 35x a eficiência por watt, muitos não acreditaram, alguns estimaram até 50x. Assim, o custo por token é o menor do mundo. Se a arquitetura for ruim, até de graça fica caro, pois construir uma fábrica de 1 GW custa US$ 40 bilhões. É preciso usar os sistemas mais avançados para obter o melhor custo-benefício. Com design extremo, integração vertical e abertura horizontal, entregamos toda a tecnologia para provedores globais de inferência.

Plataformas como Fireworks e Together crescem rápido, pois produtividade é tudo. Com software atualizado, a velocidade média passou de 700 para quase 5.000 tokens por segundo — sete vezes mais. Data centers de armazenamento viraram fábricas de tokens limitadas por energia. Inferência virou nova carga de trabalho, tokens, a nova mercadoria, o cálculo, a receita. Cada provedor de nuvem e IA pensará na sua fábrica de tokens, que será alimentada por tokens.

Revisando os últimos dez anos: em 2016, lançamos o DGX-1, o primeiro computador de deep learning, com 8 GPUs Pascal conectadas por NVLink, com 170 TFLOPS. Depois, com Volta, criamos switches NVLink, com 16 GPUs em um único sistema. Com o crescimento dos modelos, data centers precisaram se tornar unidades únicas, e Mellanox entrou na Nvidia. Em 2020, o DGX A100 SuperPOD combinou escalabilidade vertical e horizontal. Depois, com Hopper, com FP8, e Blackwell, com NVLINK-72, redefinimos o supercomputador de IA, atingindo 130 TB/s de largura de banda total.

Hoje, a demanda por capacidade de agentes inteligentes cresce exponencialmente. Vera Rubin impulsionou os pilares do cálculo, com 3,6 exaflops e 260 TB/s de largura de banda total. Com o VeraCPU, BlueField-4, Spectrum-X e Groq-3LPX, atingimos 35x mais throughput por megawatt. Essa plataforma, com sete chips e cinco racks, elevou o desempenho em 40 milhões de vezes em 10 anos.

Antes, ao falar de Hopper, mostrava uma única GPU. Agora, Vera Rubin é um sistema complexo que precisa de otimização total. O mais importante é o raciocínio de grandes modelos de linguagem, que consomem muita memória e armazenamento. Recriar o sistema de armazenamento foi essencial. Criamos o VeraCPU, otimizado para alta performance de thread única, com LPDDR5, eficiência superior. Ele integra-se ao rack, com instalação de duas horas, usando água quente a 45°C, reduzindo custos e energia. É o único sistema de sexta geração com troca de escalabilidade vertical, com tecnologia revolucionária de CPO. O VeraCPU é um negócio de bilhões de dólares.

Esse sistema de quatro racks usa cabos estruturados, altamente eficiente. O nó de cálculo Vera Rubin conecta 144 GPUs em um rack Kyber, com conexão NVLINK. Os nós ficam em placas verticais, ligados por switches NVLINK, formando um supercomputador gigante. Para uma fábrica de tokens de um trilhão de parâmetros, podemos usar um cluster de Groq, com Vera Rubin ao lado, para armazenar grandes caches KV. A estratégia de inferência dissociada divide tarefas: Vera Rubin faz prefill, Groq faz decode. O attention pesado fica na Vera Rubin, o feedforward e geração de tokens, no Groq. Eles se conectam por Ethernet, com transmissão otimizada, e rodam o sistema Dynamo, criado para IA, com desempenho 35x maior, atingindo níveis inéditos de inferência.

Agradeço à Samsung, que fabrica os chips Groq LP30, agora em produção em massa. Prevemos lançar o LPX na terceira fase do ano. O desenvolvimento do sistema Vera Rubin foi desafiador, mas a produção está acelerada, com a primeira rack já em Azure. Estamos construindo uma cadeia de suprimentos global, capaz de entregar milhares de sistemas por mês, equivalentes a gigawatts de infraestrutura de IA.

O Vera CPU também é um sucesso: projetado para tarefas complexas, como chamadas a ferramentas, integra-se a BlueField e CX10, com suporte ao ecossistema de rede da Nvidia. Todos os principais fornecedores de armazenamento do mundo estão integrados. No passado, consultas SQL eram feitas por humanos; no futuro, agentes de IA farão isso em escala massiva, acessando armazenamento com cuDF, cuVS e caches KV.

Em um ano, revolucionamos a arquitetura, com o Vera Rubin, que aumentou 35x o throughput por watt. Essa inovação permite gerar tokens a uma taxa sem precedentes, com custos mínimos. Cada data center tem limite de energia, e a eficiência por watt é crucial. Nosso desempenho de 35x supera a expectativa de Moore, que era 1,5x. Assim, o custo por token é o menor do mundo. Se a arquitetura for ruim, até de graça fica caro, pois uma fábrica de 1 GW custa US$ 40 bilhões. Precisamos dos sistemas mais avançados para obter o melhor custo-benefício. Com design extremo, integração vertical e abertura horizontal, entregamos toda a tecnologia para provedores globais de inferência.

Por exemplo, plataformas como Fireworks e Together crescem rápido, pois produtividade é tudo. Com software atualizado, a velocidade de geração de tokens aumentou sete vezes, de 700 para quase 5.000 por segundo. Data centers de armazenamento viraram fábricas de tokens limitadas por energia. Inferência virou nova carga de trabalho, tokens, a nova mercadoria, o cálculo, a receita. Cada provedor de nuvem e IA pensará na sua fábrica de tokens, que será alimentada por tokens.

Revisando os últimos dez anos: em 2016, lançamos o DGX-1, com 8 GPUs Pascal, 170 TFLOPS. Depois, com Volta, criamos switches NVLink, com 16 GPUs. Com modelos maiores, data centers precisaram se tornar unidades únicas, e Mellanox entrou na Nvidia. Em 2020, o DGX A100 SuperPOD combinou escalabilidade vertical e horizontal. Com Hopper, com FP8, e Blackwell, com NVLINK-72, redefinimos o supercomputador de IA, atingindo 130 TB/s de largura de banda total.

Hoje, a demanda por IA aumenta exponencialmente. Vera Rubin oferece 3,6 exaflops e 260 TB/s de largura de banda. Com VeraCPU, BlueField-4, Spectrum-X e Groq-3LPX, atingimos 35x mais throughput por megawatt. Essa plataforma, com sete chips e cinco racks, elevou o desempenho em 40 milhões de vezes em 10 anos.

A arquitetura Vera Rubin é um sistema complexo que exige otimização total. O raciocínio de grandes modelos de linguagem consome muita memória e armazenamento. Recriar o sistema de armazenamento foi fundamental. Criamos o VeraCPU, otimizado para alta performance de thread única, com LPDDR5, eficiência superior. Ele integra-se ao rack, com instalação de duas horas, usando água quente a 45°C, reduzindo custos e energia. É o único sistema de sexta geração com troca de escalabilidade vertical, com tecnologia revolucionária de CPO. O VeraCPU é um negócio de bilhões de dólares.

Esse sistema de quatro racks usa cabos estruturados, altamente eficiente. O nó de cálculo Vera Rubin conecta 144 GPUs em um rack Kyber, com conexão NVLINK. Os nós ficam em placas verticais, ligados por switches NVLINK, formando um supercomputador gigante. Para uma fábrica de tokens de um trilhão de parâmetros, podemos usar um cluster de Groq, com Vera Rubin ao lado, para armazenar grandes caches KV. A inferência dissociada divide tarefas: Vera Rubin faz prefill, Groq faz decode. O attention pesado fica na Vera Rubin, o feedforward e geração de tokens, no Groq. Eles se conectam por Ethernet, com transmissão otimizada, e rodam o sistema Dynamo, criado para IA, com desempenho 35x maior, atingindo níveis inéditos de inferência.

Em um ano, revolucionamos a arquitetura, com o Vera Rubin, que aumentou 35x o throughput por watt. Essa inovação permite gerar tokens a uma taxa sem precedentes, com custos mínimos. Cada data center tem limite de energia, e a eficiência por watt é crucial. Nosso desempenho de 35x supera a expectativa de Moore, que era 1,5x, atingindo 35x. Assim, o custo por token é o menor do mundo. Se a arquitetura for ruim, até de graça fica caro, pois uma fábrica de 1 GW custa US$ 40 bilhões. Precisamos dos sistemas mais avançados para obter o melhor custo-benefício. Com design extremo, integração vertical e abertura horizontal, entregamos toda a tecnologia para provedores globais de inferência.

Hoje, a demanda por IA cresce exponencialmente. Vera Rubin oferece 3,6 exaflops e 260 TB/s de largura de banda. Com VeraCPU, BlueField-4, Spectrum-X e Groq-3LPX, atingimos 35x mais throughput por megawatt. Essa plataforma, com sete chips e cinco racks, elevou o desempenho em 40 milhões de vezes em 10 anos.

Esse sistema de quatro racks usa cabos estruturados, altamente eficiente. O nó de cálculo Vera Rubin conecta 144 GPUs em um rack Kyber, com conexão NVLINK. Os nós ficam em placas verticais, ligados por switches NVLINK, formando um supercomputador gigante. Para uma fábrica de tokens de um trilhão de parâmetros, podemos usar um cluster de Groq, com Vera Rubin ao lado, para armazenar grandes caches KV. A inferência dissociada divide tarefas: Vera Rubin faz prefill, Groq faz decode. O attention pesado fica na Vera Rubin, o feedforward e geração de tokens, no Groq. Eles se conectam por Ethernet, com transmissão otimizada, e rodam o sistema Dynamo, criado para IA, com desempenho 35x maior, atingindo níveis inéditos de inferência.

Em um ano, revolucionamos a arquitetura, com o Vera Rubin, que aumentou 35x o throughput por watt. Essa inovação permite gerar tokens a uma taxa sem precedentes, com custos mínimos. Cada data center tem limite de energia, e a eficiência por watt é crucial. Nosso desempenho de 35x supera a expectativa de Moore, que era 1,5x, atingindo 35x. Assim, o custo por token é o menor do mundo. Se a arquitetura for ruim, até de graça fica caro, pois uma fábrica de 1 GW custa US$ 40 bilhões. Precisamos dos sistemas mais avançados para obter o melhor custo-benefício. Com design extremo, integração vertical e abertura horizontal, entregamos toda a tecnologia para provedores globais de inferência.

NVDAX-1,12%

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

1 gostos