NVIDIA lance le modèle Nemotron3 Nano Omni : capable de traiter unifié vidéo, audio, images et texte, améliorant l'efficacité de l'inférence multimodale

robot
Création du résumé en cours

BlockBeats message, le 29 avril, Nvidia a officiellement lancé Nemotron 3 Nano Omni, le nouveau membre de la série Nemotron 3, qui intègre une inférence multimodale unifiée dans un seul modèle open source efficace. Nvidia indique que les systèmes agentic nécessitent généralement une boucle de perception à action unique entre l’écran, les documents, l’audio, la vidéo et le texte, mais dépendent encore de chaînes de modèles fragmentées — des stacks technologiques séparés pour la vision, l’audio et le texte. Cela augmente le nombre de sauts d’inférence et la complexité de l’orchestration, ce qui accroît le coût de l’inférence tout en affaiblissant la cohérence du contexte multimodal. Nemotron 3 Nano Omni vise à remplacer cette stack technologique fragmentée de vision-langage-audio, en tant que sous-agent de perception multimodale et de contexte dans les systèmes agentic.

En termes de précision, Nemotron 3 Nano Omni a obtenu des résultats de premier plan sur le classement de l’intelligence documentaire, tout en étant également en tête dans les classements de compréhension vidéo et audio. Sur le benchmark industriel ouvert MediaPerf pour l’évaluation des modèles de compréhension vidéo, Nemotron 3 Nano Omni a atteint le débit maximal dans chaque tâche, et a obtenu le coût d’inférence le plus bas dans la tâche de annotation vidéo à l’échelle.

Au niveau des performances, pour une limite d’interaction utilisateur fixe, en ce qui concerne l’inférence vidéo, Nemotron 3 Nano Omni maintient un débit total du système plus élevé, permettant une capacité système efficace jusqu’à environ 9,2 fois supérieure par rapport à d’autres modèles omni open source ; pour l’inférence multi-document, il peut atteindre une capacité système efficace jusqu’à environ 7,4 fois supérieure. Nvidia indique que ce modèle vise à remplacer l’architecture traditionnelle de concaténation multi-modèles, à réduire la complexité et le coût de l’inférence, et à promouvoir l’application de l’IA multimodale dans des scénarios tels que la finance, la santé, la recherche scientifique et les médias.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler