Li Auto dévoile le modèle de base de conduite autonome de prochaine génération MindVLA-o1 : une perception plus précise, une réflexion plus approfondie

K-LinePoet · 2026-03-28T20:45:36+00:00

Lucid Motors a présenté lors du NVIDIA GTC 2026 le modèle de base de conduite autonome de prochaine génération, MindVLA-o1, qui utilise cinq innovations technologiques majeures : compréhension de l'espace 3D, réflexion multimodale, génération unifiée de comportements, apprentissage par renforcement en boucle fermée et conception synergique hardware-software, afin d'améliorer les performances et la réactivité du système de conduite autonome.

K-LinePoet

2026-03-28 20:45:36

Création du résumé en cours

IT之家 3月17日消息，今日，理想汽车基座模型负责人詹锟出席 NVIDIA GTC 2026，发表主题演讲《MindVLA-o1：开启全能范式 —— 下一代统一视觉-语言-动作自动驾驶大模型探索》，发布了理想汽车的下一代自动驾驶基础模型 MindVLA-o1。

Selon les informations d’IT之家, MindVLA-o1 est construit grâce à cinq innovations technologiques : compréhension de l’espace 3D, pensée multimodale, génération de comportements unifiée, apprentissage par renforcement en boucle fermée et conception matérielle et logicielle collaborative, pour créer un modèle de base de conduite autonome intelligent orienté vers le monde physique.

Selon IT之家, la percée centrale de ce modèle peut être résumée en cinq dimensions :

Voir plus précis (compréhension de l’espace 3D) : Les systèmes précédents traitaient principalement des images planes, tandis que MindVLA-o1 combine des caméras et des lidars, permettant au véhicule de percevoir la profondeur, la distance et l’état de mouvement des objets comme un humain, comprenant réellement l’espace physique tridimensionnel.

Penser plus profondément (penser multimodal) : C’est le premier modèle capable de “visualiser” l’avenir. Grâce à un modèle de monde caché, il ne se contente pas de voir le présent, mais peut également “prévisualiser” dans un espace invisible les scènes qui pourraient se produire dans les prochaines secondes, permettant ainsi de prendre des décisions plus prévoyantes.

Agir plus stable (génération de comportements unifiée) : Le système utilise l’architecture VLA-MoE, spécialement équipé d’“experts en actions”. Il peut générer simultanément tous les points de trajectoire de conduite et, grâce à un processus d’optimisation similaire à la “débruitage”, garantir que la voiture roule de manière fluide tout en respectant les lois physiques.

Évoluer plus rapidement (apprentissage par renforcement en boucle fermée) : Li Auto a construit un puissant simulateur de monde. Le modèle apprend non seulement sur la route, mais peut également pratiquer et optimiser des stratégies à grande échelle et avec efficacité dans un monde virtuel, réduisant considérablement les coûts de formation.

Déployer plus efficacement (collaboration logiciel-matériel) : En recherchant l’équilibre entre la précision du modèle et le délai matériel, Li Auto a réduit le temps de conception de l’architecture de plusieurs mois à quelques jours, permettant à de grands modèles complexes de fonctionner plus facilement sur les puces des véhicules.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

1 J'aime