Nvidia lança o modelo Nemotron3 Nano Omni: capaz de processar unificadamente vídeo, áudio, imagens e texto, melhorando a eficiência da inferência multimodal

robot
Geração de resumo em curso

BlockBeats notícia, 29 de abril, a Nvidia lançou oficialmente o Nemotron 3 Nano Omni, que é um novo membro da série Nemotron 3, integrando raciocínio multimodal unificado em um único modelo eficiente e de código aberto. A Nvidia afirmou que os sistemas agentic geralmente precisam realizar raciocínio de ciclo de percepção a ação entre tela, documentos, áudio, vídeo e texto, mas ainda dependem de cadeias de modelos fragmentadas — tecnologias separadas para visão, áudio e texto. Isso aumenta o número de saltos de raciocínio e a complexidade de orquestração, elevando o custo do raciocínio, ao mesmo tempo que enfraquece a consistência do contexto entre modalidades.

O Nemotron 3 Nano Omni visa substituir essa pilha fragmentada de tecnologias de visão-língua-áudio, atuando como um subagente de percepção multimodal e contexto em sistemas agentic.

No nível de precisão, o Nemotron 3 Nano Omni alcançou resultados de liderança na lista de inteligência de documentos, e também lidera nas listas de compreensão de vídeo e áudio. Na avaliação do benchmark aberto do setor de modelos de compreensão de vídeo MediaPerf, o Nemotron 3 Nano Omni atingiu a maior taxa de processamento em todas as tarefas, e obteve o menor custo de raciocínio em tarefas de anotação de vídeo.

No nível de desempenho, sob um limite fixo de interação por usuário, para raciocínio de vídeo, o Nemotron 3 Nano Omni mantém uma maior taxa de throughput total do sistema, podendo alcançar até aproximadamente 9,2 vezes a capacidade efetiva do sistema em comparação com outros modelos omni de código aberto; para raciocínio de múltiplos documentos, pode alcançar até aproximadamente 7,4 vezes a capacidade efetiva do sistema. A Nvidia afirmou que esse modelo visa substituir arquiteturas tradicionais de montagem de múltiplos modelos, reduzindo a complexidade e o custo do raciocínio, impulsionando a aplicação de IA multimodal em cenários como finanças, saúde, pesquisa científica e mídia.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar