Nvidia lança o modelo de código aberto mais poderoso Nemotron 3 Ultra! Focado em tarefas de IA, desempenho cinco vezes maior, redução de custos em 30%

Chip gigante NVIDIA (NVIDIA) anunciou hoje (4) o lançamento do novo modelo de código aberto de ponta "Nemotron 3 Ultra".
O modelo foi projetado especificamente para agentes de IA (AI Agents) de longa duração e fluxos de trabalho complexos de múltiplos agentes, com até 550 bilhões de parâmetros totais.
Através da introdução de arquiteturas híbridas e várias inovações tecnológicas, o Nemotron 3 Ultra não só apresenta desempenho excelente em diversos testes de referência, mas também oferece até 5 vezes mais throughput, além de reduzir 30% dos custos de tarefas de agentes.
(Resumindo: Nvidia investe 400 milhões de dólares na aquisição da Kumo AI! Completa o quebra-cabeça do "modelo preditivo empresarial", acelerando a transformação em um gigante de IA de ponta)
(Complemento de contexto: Nvidia faz parceria com a startup chinesa Yushu Technology Unitree! Huang Renxun promove "Plataforma de IA para Robôs Humanóides", mirando o mercado físico de IA de dezenas de trilhões de dólares)

Índice deste artigo

Alternar

  • 55 bilhões de parâmetros ativos, transformando-se no "cérebro" do fluxo de trabalho de IA
  • Cinco grandes inovações tecnológicas: aumento de 5 vezes no throughput, redução de custos de 30%
  • Totalmente de código aberto, acelerando a implementação de IA empresarial

Na tendência de inteligência artificial (IA) avançando para automação elevada e fluxos de trabalho complexos, os custos de computação e gargalos de eficiência de "sistemas de múltiplos agentes" tornaram-se o maior desafio para empresas ao adotarem IA.
Para resolver esse problema, a NVIDIA lançou oficialmente em 4 de junho de 2026 a linha de produtos flagship da família Nemotron 3 — Nemotron 3 Ultra.

Este é um modelo de código aberto poderoso, projetado especificamente para "agentes de IA de longa duração".
Em fluxos de trabalho tradicionais de múltiplos agentes, devido à necessidade de repetir continuamente planejamento, chamadas de ferramentas, delegação de subagentes e manutenção de contextos extensos, o consumo de tokens (Tokens) costuma disparar, levando a custos elevados e riscos de desvio de objetivos.
O Nemotron 3 Ultra foi criado para superar esses desafios.

55 bilhões de parâmetros ativos, transformando-se no "cérebro" do fluxo de trabalho de IA

O Nemotron 3 Ultra utiliza uma arquitetura de especialistas mistos (Mixture-of-Experts, MoE), com um total de 550 bilhões de parâmetros, mas apenas 55 bilhões de parâmetros ativos por execução, garantindo máxima eficiência operacional.
Em fluxos de trabalho de múltiplos agentes, o modelo é precisamente posicionado como "Orquestrador" ou motor de raciocínio avançado, especializado em tarefas de planejamento profundo, análise complexa e verificação lógica de alta carga, delegando tarefas rotineiras e chamadas de ferramentas a modelos leves.

Em termos de desempenho, o Nemotron 3 Ultra destacou-se em diversos testes de referência focados em agentes de IA.
Por exemplo, obteve 91% de pontuação no PinchBench, uma métrica de produtividade de agentes, e alcançou 40% e 67% de desempenho em planejamento de longo prazo (EnterpriseOps-Gym) e codificação (Terminal-Bench 2.0), respectivamente.
Apesar de ativar menos parâmetros, sua capacidade geral de raciocínio já supera ou iguala modelos de código aberto de grande porte no mercado, como GLM 5.1, Kimi K2.6 e Qwen3.5.

Cinco grandes inovações tecnológicas: aumento de 5 vezes no throughput, redução de custos de 30%

Para alcançar esse desempenho e velocidade impressionantes, a NVIDIA incorporou cinco inovações tecnológicas centrais no Nemotron 3 Ultra.
Primeiro, a "Camada Mista Mamba-Transformer", que combina de forma inteligente a eficiência de processamento de sequências longas do Mamba com a precisão na recuperação de fatos do Transformer.
Segundo, o suporte a "quantização NVFP4", permitindo que os pesos do modelo sejam implantados de forma transparente em GPUs com arquiteturas Hopper, Blackwell e Ampere, oferecendo até 5 vezes mais throughput em Blackwell em comparação ao formato tradicional BF16.

Além disso, o modelo integra LatentMoE (roteamento eficiente de especialistas para cargas de trabalho complexas), previsão de múltiplos tokens (MTP, que prevê vários tokens futuros em uma única passagem para acelerar a geração de textos longos) e destilação online multi-docente (MOPD), entre outras tecnologias de ponta.
Essas inovações reduzem significativamente o consumo total de tokens durante a execução de tarefas, levando a uma economia de até 30% nos custos de tarefas de agentes para empresas.

Totalmente de código aberto, acelerando a implementação de IA empresarial

Em termos de dados de treinamento, o Nemotron 3 Ultra foi fundamentado em uma base de pré-treinamento com mais de 10 trilhões de tokens, além de incluir mais de 212 bilhões de tokens específicos de domínio (incluindo documentos legais, textos no estilo Wikipedia e o código mais recente do GitHub).
A NVIDIA enfatiza que o modelo é totalmente de código aberto, adotando a licença OpenMDW-1.1 altamente flexível, e disponibiliza para a comunidade o peso completo do modelo, fórmulas de treinamento e pipelines de dados.

Atualmente, desenvolvedores podem obter e implantar o Nemotron 3 Ultra nas principais plataformas como Hugging Face, NVIDIA Build e NIM.
Com sua excelente capacidade de processamento de textos longos (atingindo 95% no teste Ruler @1M) e alta relação custo-benefício, espera-se que este modelo se torne uma ferramenta essencial para empresas impulsionarem automação de atendimento ao cliente, gestão de supply chain, segurança de TI e validação de design de chips.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado