Modèle d'inférence AI physique de Nvidia Cosmos-Reason2 open source avec poids phares de 32 milliards

Selon le monitoring Beating de Dongcha, NVIDIA a publié les poids du modèle Cosmos-Reason2-32B.
Cosmos Reason 2 est un modèle d’IA physique de raisonnement visuel (VLM, traitant simultanément images, vidéos et textes) que NVIDIA a lancé à la fin de l’année dernière, spécialement conçu pour aider les robots et les systèmes de conduite autonome à comprendre l’espace, le temps et les lois physiques fondamentales.
À l’époque, seuls deux petits modèles avec 2 milliards et 8 milliards de paramètres ont été rendus publics, la version phare de 32 milliards de paramètres n’étant dévoilée pour la première fois qu’à présent.
La base est le modèle Qwen3-VL-32B-Instruct de Tongyi Qianwen, sous licence NVIDIA Open Model License, utilisable commercialement.

Fournissez-lui une vidéo de conduite, il peut regarder tout en raisonnant pour juger si un virage à droite est sûr ;
Donnez-lui une photo d’un entrepôt, il peut indiquer les coordonnées 2D/3D et les cadres de délimitation de chaque marchandise.
Trois usages principaux : analyser les flux vidéo urbains et industriels, annoter en masse des données de capteurs, servir de cerveau de planification pour les robots humanoïdes et véhicules autonomes.
Par rapport à la génération précédente, il a ajouté la détection d’objectifs et la localisation précise par horodatage, avec une fenêtre de contexte étendue à 256K tokens.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler