Jensen Huang molda a “Economia de Tokens”; a Nvidia abraça a era dos agentes inteligentes

17 de março, de madrugada, na abertura do GTC da NVIDIA, a “Super Bowl” da IA e a “spring fest” da IA, o “culto da IA” e fundador e CEO da NVIDIA, Huang Renxun, voltou a subir ao palco, com uma tempestade tecnológica que está a redefinir os limites físicos.

A NVIDIA anunciou que a Vera Rubin (a mais recente arquitectura de chips) já tem sete novos chips a ser produzidos em larga escala, com a plataforma Vera Rubin a dar início a uma nova era de Agentic AI, construindo a maior fábrica de IA do mundo.

Em termos concretos, estes produtos de chips incluem: NVIDIA Vera CPU (a NVIDIA já entrou no mercado de CPUs para servidores), NVIDIA Rubin GPU (produto “estrela” em GPUs), NVIDIA NVLink 6 (chip de switch NVLink de sexta geração, interconexão interna entre chips), NVIDIA ConnectX-9 SuperNIC (SuperNIC), NVIDIA BlueField-4 DPU (chip de armazenamento), NVIDIA Spectrum-6 (chip de switch Ethernet, suportando a tecnologia CPO) e ainda a nova NVIDIA Groq 3 LPU integrada (primeiro chip após a aquisição da Groq).

Como se pode ver, a família de chips não inclui apenas os produtos de CPU e GPU que todos conhecem bem no dia a dia; inclui também a LPU vinda da Groq, bem como um conjunto completo de produtos como chips de armazenamento e chips de switch. Estes chips podem ainda formar 5 racks, operando num centro de dados.

“Vera Rubin é uma mudança de geração — sete chips de ruptura, cinco racks e um supercomputador gigante — a fornecer energia para cada etapa da IA”, afirmou Huang Renxun, “com o lançamento da Vera Rubin, o ponto de viragem da Agentic AI já chegou e dará início à maior construção de infraestruturas de que há memória.”

No discurso, Huang Renxun também previu que, até ao final de 2027, as receitas dos chips de IA da Blackwell e da Rubin atingirão 1 bilião de dólares; face à previsão de vendas de 500 mil milhões de dólares em outubro do ano passado, já duplicaram.

Esta conferência pode dizer-se “sem precedentes”; isto não é apenas uma questão de GPU, nem apenas uma actualização de uma tecnologia específica. Huang Renxun reforçou novamente a “economia dos Tokens” e aplicou a teoria do “bolo em cinco camadas” da IA.

Uma tendência é que os gigantes estão a concentrar capacidades, a colmatar lacunas, a estender-se para jusante e montante, formando barreiras ainda mais fortes. A fase de competição individual — apenas chips, desempenho e outras variáveis isoladas — já passou; está a desenrolar-se uma concorrência intensa a nível de sistema, em múltiplas frentes.

Revolução total da Vera Rubin: da era do chip único à era do sistema

Como sucessora intergeracional de Blackwell, a NVIDIA está programada para iniciar produção em massa da arquitectura Rubin (R100) no segundo semestre de 2026. Na camada de base do núcleo, esta arquitectura muda integralmente para o processo de 3 nm da TSMC (N3P). A sua marcante Vera CPU (assente numa arquitectura Olympus proprietária de 88 núcleos) e a Rubin GPU alcançam uma integração em “mesma embalagem” com significado físico através da tecnologia NVLink-C2C de 1,8 TB/s.

Este desenho de acoplamento “des-PClE” (de PCIe) elimina a limitação do poder de computação às ligações tradicionais. A capacidade de inferência de um único GPU em precisão NVFP4 aumenta para 50 PFlops; a capacidade de treino atinge 35 PFlops. No dimensionamento, a eficiência energética da inferência é superior em até 5 vezes à da Blackwell.

No nível das aplicações, a Rubin é o coração de uma fábrica digital criada especificamente para “Agentic AI” (Agentic AI) e inferência de longos contextos. Introduz o Transformer Engine 3.0 e a plataforma de memória de Inference Context Memory, descarregando a carga de gestão de armazenamento para o BlueField-4 DPU. Assim, os agentes de IA podem lidar com relações de contexto de dezenas de milhares de Tokens e realizar raciocínio lógico de múltiplos passos e decisões em tempo real. A plataforma é equipada com uma rede Spectrum-X Ethernet Photonics que suporta a tecnologia de fotónica com silício (CPO). A largura de banda total de interconexão interna do armário único NVL72 atinge 260 TB/s, o equivalente a várias vezes o total da largura de banda de cross-border da Internet global.

A NVIDIA também lançou racks de Vera CPU. Trata-se de uma infra-estrutura líquida de alta densidade construída com base na MGX da NVIDIA, integrando 256 Vera CPU, para fornecer capacidade expansível e energeticamente eficiente, com desempenho de thread único de nível mundial. Em conjunto com racks de computadores GPU, fornecem a base de CPU para Agentic AI e aprendizagem por reforço em larga escala — a eficiência da Vera é o dobro da de CPUs tradicionais, com uma aceleração de 50%.

Neste momento, entre os clientes que colaboram com a NVIDIA para implementar Vera CPU incluem-se a Alibaba, a ByteDance, a Meta e a Oracle Cloud Infrastructure, bem como a CoreWeave, a Lambda, a Nebius e a Nscale. A Vera já está em produção plena e será fornecida no segundo semestre deste ano.

Os centros de dados tradicionais e a infra-estrutura de IA estão a enfrentar uma nova transformação. Huang Renxun disse: “Na era da IA, os Tokens inteligentes são a nova moeda, e as fábricas de IA são a infra-estrutura que gera esses Tokens. Através do desenho de referência Vera Rubin DSX AI Factory e do Omniverse DSX Blueprint (blueprint de gémeos digitais), estamos a fornecer a base para construir as fábricas de IA com a mais alta produtividade do mundo, acelerando o tempo até à primeira receita e maximizando a escala e a eficiência energética.”

Chip de inferência Groq LPU: construir um império de capacidade híbrida com GPUs

Agora, vejamos os chips Groq, que têm gerado muita atenção.

No final de 2025, por meio de uma autorização estratégica de 20 mil milhões de dólares e integração profunda, a arquitectura Groq LPU (Language Processing Unit) da NVIDIA — “um caçador supersónico de interceptação cirúrgica” — visa atingir de forma precisa a latência, abrindo a era da interacção em tempo real.

A NVIDIA afirmou que o Groq 3 LPX (rack) agora lançado representa um marco para a computação acelerada. O rack LPX contém 256 processadores LPU, com 128GB de SRAM on-chip e uma largura de banda expansível de 640 TB/s. Quando implantado em conjunto com a Rubin GPU e a Vera Rubin NVL72, o Rubin GPU e a LPU melhoram a velocidade de descodificação ao fazer a computação de cada camada do modelo de IA em conjunto, fornecendo computação para cada Token de saída.

Em simultâneo, o LPX adopta um design totalmente arrefecido a líquido e é construído com base na infra-estrutura MGX, integrando-se de forma perfeita na próxima geração de fábricas de IA Vera Rubin e sendo disponibilizado no segundo semestre deste ano.

Ao entrar na era da inferência, para além das GPUs, a NVIDIA fundiu uma nova arquitectura, aumentando significativamente a eficiência.

Em termos de arquitectura técnica, a Groq LPU abandona o desenho “especulativo” de hardware complexo nas GPUs tradicionais, como a gestão de cache, a previsão de ramificações e o reordenamento de instruções, passando para uma arquitectura de pipeline determinística. Este desenho remove completamente a complexidade do hardware para a camada do compilador, permitindo que os dados fluam dentro do chip como uma passadeira de transporte de precisão, sem qualquer oscilação incontrolável (Jitter).

Em cenários de aplicação reais, o rack LPX reforçado pela tecnologia da NVIDIA está a tornar-se o único salvador para “Agentic AI” (Agentic AI) e “interacção de voz em tempo real”. Em sistemas de assistência à condução automóvel ou em robôs de trading de alta frequência, qualquer oscilação de cálculo ao nível de milissegundos pode levar a falhas de decisão; a capacidade de computação determinística da LPU garante que o tempo de execução de tarefas é sempre constante.

Para cadeias de agentes complexas que exigem inferência em múltiplos passos e até envolvem chamadas a centenas de modelos, a LPU consegue reduzir o encadeamento de raciocínio que antes levaria minutos para apenas alguns segundos, permitindo que a IA faça conversas e colaboração em tempo real naturais e fluidas, como os humanos. Para suportar este novo paradigma de computação, a NVIDIA integra as unidades LPU de forma perfeita no seu vasto ecossistema CUDA através da tecnologia NVFusion. Ao mesmo tempo, através de uma arquitectura desagregada (decoupled), transfere rapidamente os pesos treinados das GPUs para a matriz de inferência da LPU.

Com esta capacidade, a NVIDIA separa treino e inferência, construindo um império de capacidade híbrida: as GPUs ficam na retaguarda, a aprofundar o treino de modelos com biliões de parâmetros e a pré-processar texto longo; e as matrizes de LPU mantêm a linha da frente, com uma razão de eficiência energética 10 vezes superior à dos adversários e uma resposta ultra-rápida, dominando o mercado de inferência em tempo real ao nível de biliões. Assim, é anunciado oficialmente a chegada da era de “inferência imediata”.

A “lagosta” da NVIDIA chega ao mercado: abraçar a era dos agentes

Entretanto, a NVIDIA lançou uma série de avanços importantes em torno de agentes de IA (Agent), modelos abertos e aplicações transversais a várias indústrias. A mais aguardada pelos programadores é o stack de software NemoClaw, destinado à comunidade OpenClaw. Recentemente, o projecto open-source OpenClaw ganhou rapidamente destaque na comunidade de developers, sendo visto por muitos profissionais como um embrião do que virá a ser “um sistema operativo pessoal de IA”.

Huang Renxun também avaliou muito positivamente o OpenClaw. “O OpenClaw abre a todos o próximo front da IA e tornou-se o projecto open-source que mais cresce na história”, disse Huang Renxun. “Ao contrário das aplicações tradicionais de IA, o objectivo do OpenClaw é permitir que os agentes de IA funcionem continuamente como se fossem aplicações, conseguindo planear tarefas de forma autónoma, chamar ferramentas e completar fluxos de trabalho complexos.”

Com base nesta estrutura, o NemoClaw disponibiliza um conjunto completo de capacidades de software base, permitindo que os programadores instalem o modelo NVIDIA Nemotron e o novo ambiente de runtime OpenShell lançado através de um único comando, e acrescentando capacidades de controlo de segurança e privacidade aos agentes de IA. Graças ao ambiente de isolamento do sandbox fornecido pelo OpenShell, os agentes de IA podem seguir políticas de segurança e regras de privacidade estabelecidas ao aceder a ferramentas e dados, garantindo a segurança dos dados enquanto aumentam a eficiência.

O NemoClaw também suporta chamadas mistas entre modelos locais e modelos em nuvem. Os programadores podem correr o modelo Nemotron em dispositivos dedicados do utilizador, e ao mesmo tempo aceder aos modelos de ponta na nuvem através de um roteador de privacidade, obtendo assim maior capacidade de computação mantendo a privacidade dos dados. A NVIDIA afirma que o NemoClaw pode ser executado em várias plataformas de computação dedicadas, incluindo PCs e portáteis com GPUs GeForce RTX, workstations RTX PRO e sistemas DGX Station e DGX Spark, fornecendo capacidade de computação estável para agentes de IA operarem 24 horas por dia.

Em paralelo com o avanço do desenvolvimento da plataforma de agentes de IA, a NVIDIA também acelera a construção de um ecossistema de modelos abertos. Nesta conferência, a NVIDIA anunciou a criação da Nemotron Coalition (Aliança Nemotron), juntando várias das mais avançadas salas de laboratório de IA e instituições de desenvolvimento de modelos no mundo, para promover em conjunto o desenvolvimento de modelos abertos na fronteira tecnológica.

Para além da colaboração ao nível do ecossistema, a NVIDIA também expandiu várias linhas de produtos de modelos abertos, para apoiar o desenvolvimento em diferentes áreas, como agentes de IA, inteligência física e investigação médica. Entre eles, os modelos da série NVIDIA Nemotron 3 reforçam ainda mais as capacidades de compreensão multimodal, lançando várias versões como Ultra, Omni e VoiceChat. Estes modelos conseguem tratar simultaneamente informação de linguagem, visão e voz, permitindo que os agentes de IA não só façam conversas naturais, como também concluam tarefas de raciocínio complexas, extraindo informações-chave de múltiplas fontes de dados, como vídeos e documentos.

Para além dos agentes de IA no mundo digital, a NVIDIA está também a empurrar a inteligência artificial para o mundo real. Os novos modelos lançados incluem vários modelos de base para robôs e sistemas de condução autónoma. Por exemplo, o NVIDIA Isaac GR00T N1.7 é um modelo de linguagem-visual para acção orientada a robôs do tipo humano, capaz de suportar os robôs na percepção, raciocínio e tomada de decisões de acção em ambientes reais.

O NVIDIA Alpamayo 1.5, por sua vez, é para cenários de condução autónoma, melhorando a capacidade de inferência do veículo através de orientações de navegação, suporte a múltiplas câmaras e parâmetros configuráveis de câmaras; já o NVIDIA Cosmos 3, a ser lançado brevemente, é descrito como o primeiro modelo base unificado de “geração do mundo, inferência física e simulação de acção”. Espera-se que ajude robôs e sistemas de condução autónoma a completar treino e tomada de decisão em ambientes complexos.

Do ecossistema de agentes de IA à ecologia de modelos abertos, passando por domínios de aplicação como robótica, condução autónoma e ciências da vida, a NVIDIA está a construir gradualmente uma arquitectura de tecnologia de IA que abrange tanto o mundo digital como o mundo físico. Com mais programadores e empresas a entrarem no ecossistema de modelos abertos e de agentes de IA, espera-se que este sistema continue a impulsionar a inovação e a adopção da inteligência artificial a nível global.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar