NVIDIA a publié Nemotron3NanoOmni, intégrant le raisonnement multimodal en un seul modèle open source efficace, remplaçant les stacks technologiques fragmentés en vision, audio et texte, améliorant la cohérence du raisonnement et le rapport coût-efficacité. Dans les évaluations de compréhension de documents, vidéos et audio ainsi que dans la référence MediaPerf, il se classe en tête, avec des performances de débit et de capacité significativement supérieures pour le raisonnement vidéo et multi-documents, visant à promouvoir les applications multimodales dans les domaines de la finance, de la santé, de la recherche et des médias.

BlockBeatNews

2026-04-28 16:35:44

Création du résumé en cours

BlockBeats message, le 29 avril, Nvidia a officiellement lancé Nemotron 3 Nano Omni, le nouveau membre de la série Nemotron 3, qui intègre une inférence multimodale unifiée dans un seul modèle open source efficace. Nvidia indique que les systèmes agentic nécessitent généralement une boucle de perception à action unique entre l’écran, les documents, l’audio, la vidéo et le texte, mais dépendent encore de chaînes de modèles fragmentées — des stacks technologiques séparés pour la vision, l’audio et le texte. Cela augmente le nombre de sauts d’inférence et la complexité de l’orchestration, ce qui accroît le coût de l’inférence tout en affaiblissant la cohérence du contexte multimodal. Nemotron 3 Nano Omni vise à remplacer cette stack technologique fragmentée de vision-langage-audio, en tant que sous-agent de perception multimodale et de contexte dans les systèmes agentic.

En termes de précision, Nemotron 3 Nano Omni a obtenu des résultats de premier plan sur le classement de l’intelligence documentaire, tout en étant également en tête dans les classements de compréhension vidéo et audio. Sur le benchmark industriel ouvert MediaPerf pour l’évaluation des modèles de compréhension vidéo, Nemotron 3 Nano Omni a atteint le débit maximal dans chaque tâche, et a obtenu le coût d’inférence le plus bas dans la tâche de annotation vidéo à l’échelle.

Au niveau des performances, pour une limite d’interaction utilisateur fixe, en ce qui concerne l’inférence vidéo, Nemotron 3 Nano Omni maintient un débit total du système plus élevé, permettant une capacité système efficace jusqu’à environ 9,2 fois supérieure par rapport à d’autres modèles omni open source ; pour l’inférence multi-document, il peut atteindre une capacité système efficace jusqu’à environ 7,4 fois supérieure. Nvidia indique que ce modèle vise à remplacer l’architecture traditionnelle de concaténation multi-modèles, à réduire la complexité et le coût de l’inférence, et à promouvoir l’application de l’IA multimodale dans des scénarios tels que la finance, la santé, la recherche scientifique et les médias.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
WCTCTradingKingPK
336.75K Popularité
#
CryptoMarketsDipSlightly
238.88K Popularité
#
IsraelStrikesIranBTCPlunges
35.36K Popularité
#
#DailyPolymarketHotspot
680.09K Popularité
#
StrategyAccumulates2xMiningRate
139.45M Popularité

Épingler

NVIDIA lance le modèle Nemotron3 Nano Omni : capable de traiter unifié vidéo, audio, images et texte, améliorant l'efficacité de l'inférence multimodale

Sujets populaires

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

StrategyAccumulates2xMiningRate

Épingler