NVIDIA NVIDIA lance Nemotron 3 Nano Omni pour faire progresser l'IA multimodale unifiée pour les applications d'entreprise

En Bref

NVIDIA lance Nemotron 3 Nano Omni, un modèle d’IA multimodal ouvert unifiant la vision, la parole et le langage pour améliorer la performance, l’efficacité et le déploiement évolutif de l’IA d’entreprise.

NVIDIA LNVIDIA Launches Nemotron 3 Nano Omni To Advance Unified Multimodal AI For Enterprise ApplicationsLa société technologique NVIDIA a annoncé la sortie de Nemotron 3 Nano Omni, un modèle d’intelligence artificielle multimodal ouvert conçu pour unifier les capacités de vision, de parole et de langage au sein d’un seul système. Le modèle vise à permettre aux agents d’IA de traiter et de raisonner sur plusieurs types de données, y compris la vidéo, l’audio, les images, les documents et le texte, tout en fournissant des réponses plus rapides et plus efficaces.

Selon l’annonce, le modèle est positionné comme une solution prête pour l’entreprise, visant à améliorer le développement et le déploiement d’agents d’IA multimodaux. Il est décrit comme offrant une grande précision tout en réduisant les coûts opérationnels, tout en fournissant une flexibilité et un contrôle de déploiement pour les développeurs et les organisations. Le système aurait atteint des performances de pointe sur plusieurs benchmarks liés à l’intelligence documentaire ainsi qu’à la compréhension audio et vidéo.

L’adoption par l’industrie a déjà commencé parmi une gamme d’entreprises axées sur l’IA, avec des premiers utilisateurs tels que Aible, Applied Scientific Intelligence (ASI), Ekacare, H Company et Pyler. D’autres organisations telles qu’Amdocs, Dell, DocuSign, Infosys, IQVIA, Oracle, Palantir Technologies, Quantiphi, Tata Consultancy Services et Zefr seraient en train d’évaluer le modèle pour une intégration potentielle dans les flux de travail d’entreprise.

Traitement multimodal de l’IA pour améliorer l’efficacité, la conscience du contexte et la flexibilité du déploiement en entreprise

Dans les applications techniques, Nemotron 3 Nano Omni est conçu pour réduire la fragmentation qui se produit généralement lorsque des modèles séparés sont utilisés pour différentes modalités. Les systèmes traditionnels s’appuient souvent sur des composants distincts pour le traitement de la vision, de la parole et du langage, ce qui peut augmenter la latence, le coût et les incohérences dans le raisonnement intermodal. En intégrant l’encodage visuel et audio dans une architecture unique basée sur un design hybride de mélange d’experts, le modèle vise à rationaliser l’inférence et à améliorer le débit.

Le système est également destiné à fonctionner comme une couche de perception au sein de cadres agentiques plus larges, en travaillant aux côtés d’autres modèles de la famille Nemotron. Dans les applications pratiques, il peut soutenir des agents utilisant des ordinateurs qui interprètent des interfaces graphiques, des systèmes d’intelligence documentaire qui analysent des données d’entreprise en formats mixtes, et des outils de raisonnement audio-vidéo qui maintiennent une compréhension contextuelle à travers plusieurs flux d’entrée.

L’architecture du modèle est conçue pour gérer des entrées haute résolution et un traitement de contexte long, permettant une interprétation plus détaillée d’environnements complexes tels que des enregistrements d’écran ou une analyse multi-documents. Cette capacité vise à améliorer les performances dans les tâches nécessitant une conscience situationnelle continue dans le temps.

NVIDIA a publié Nemotron 3 Nano Omni en tant que modèle ouvert, offrant l’accès aux poids, aux ensembles de données et aux méthodologies d’entraînement. La société indique que cette approche permet aux organisations de personnaliser et de déployer le système dans différents environnements, y compris le cloud, sur site et à la périphérie, en fonction des exigences réglementaires ou de gouvernance des données. Le modèle est disponible via plusieurs canaux de distribution, notamment des plateformes pour développeurs et des écosystèmes partenaires, facilitant son intégration dans les pipelines d’IA existants.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler