Nvidia lança o Nemotron3NanoOmni, integrando raciocínio multimodal em um único modelo eficiente de código aberto, substituindo as pilhas fragmentadas de tecnologia visual, de áudio e de texto, melhorando a consistência do raciocínio e a relação custo-benefício. Nos testes de compreensão de documentos, vídeos e áudio e no benchmark MediaPerf, lidera em todos, além de apresentar uma capacidade e throughput significativamente superiores na inferência de vídeos e múltiplos documentos, com o objetivo de impulsionar aplicações multimodais nos setores financeiro, médico, de pesquisa científica e mídia.

BlockBeatNews

2026-04-28 16:35:44

Geração de resumo em curso

BlockBeats notícia, 29 de abril, a Nvidia lançou oficialmente o Nemotron 3 Nano Omni, que é um novo membro da série Nemotron 3, integrando raciocínio multimodal unificado em um único modelo eficiente e de código aberto. A Nvidia afirmou que os sistemas agentic geralmente precisam realizar raciocínio de ciclo de percepção a ação entre tela, documentos, áudio, vídeo e texto, mas ainda dependem de cadeias de modelos fragmentadas — tecnologias separadas para visão, áudio e texto. Isso aumenta o número de saltos de raciocínio e a complexidade de orquestração, elevando o custo do raciocínio, ao mesmo tempo que enfraquece a consistência do contexto entre modalidades.

O Nemotron 3 Nano Omni visa substituir essa pilha fragmentada de tecnologias de visão-língua-áudio, atuando como um subagente de percepção multimodal e contexto em sistemas agentic.

No nível de precisão, o Nemotron 3 Nano Omni alcançou resultados de liderança na lista de inteligência de documentos, e também lidera nas listas de compreensão de vídeo e áudio. Na avaliação do benchmark aberto do setor de modelos de compreensão de vídeo MediaPerf, o Nemotron 3 Nano Omni atingiu a maior taxa de processamento em todas as tarefas, e obteve o menor custo de raciocínio em tarefas de anotação de vídeo.

No nível de desempenho, sob um limite fixo de interação por usuário, para raciocínio de vídeo, o Nemotron 3 Nano Omni mantém uma maior taxa de throughput total do sistema, podendo alcançar até aproximadamente 9,2 vezes a capacidade efetiva do sistema em comparação com outros modelos omni de código aberto; para raciocínio de múltiplos documentos, pode alcançar até aproximadamente 7,4 vezes a capacidade efetiva do sistema. A Nvidia afirmou que esse modelo visa substituir arquiteturas tradicionais de montagem de múltiplos modelos, reduzindo a complexidade e o custo do raciocínio, impulsionando a aplicação de IA multimodal em cenários como finanças, saúde, pesquisa científica e mídia.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WCTCTradingKingPK
340.25K Popularidade
#
CryptoMarketsDipSlightly
244.84K Popularidade
#
IsraelStrikesIranBTCPlunges
35.53K Popularidade
#
#DailyPolymarketHotspot
683.65K Popularidade
#
StrategyAccumulates2xMiningRate
139.46M Popularidade

Fixar

Nvidia lança o modelo Nemotron3 Nano Omni: capaz de processar unificadamente vídeo, áudio, imagens e texto, melhorando a eficiência da inferência multimodal

Tópicos em destaque

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

StrategyAccumulates2xMiningRate

Fixar