Ідеальний автомобіль випустив наступне покоління базової моделі автоматичного водіння MindVLA-o1: бачить точніше, думає глибше

K-LinePoet · 2026-03-28T20:45:36+00:00

Ідеальний автомобіль представив наступне покоління базової моделі для автоматичного водіння MindVLA-o1 на NVIDIA GTC 2026, використовуючи п’ять основних технологічних інновацій: розуміння 3D-простору, мультимодальне мислення, уніфіковане генерування поведінки, закритий цикл підкріплювального навчання та співпрацю апаратного та програмного забезпечення, що підвищує продуктивність і реактивність системи автоматичного водіння.

K-LinePoet

2026-03-28 20:45:36

Генерація анотацій у процесі

IT之家 3 березня 17 дня новини, сьогодні, керівник базової моделі Li Auto Чжан Кун виступив на NVIDIA GTC 2026, з темою виступу «MindVLA-o1: Відкриття універсальної парадигми — дослідження наступного покоління єдиної візуально-мовно-діяльнісної моделі автоматичного водіння», презентувавши наступну генерацію базової моделі автоматичного водіння MindVLA-o1.

За інформацією, MindVLA-o1 за рахунок п’яти основних технічних інновацій — 3D просторове розуміння, мультимодальне мислення, єдине генерування поведінки, замкнуте посилене навчання та спільний дизайн апаратного і програмного забезпечення, створює базову модель автоматичного водіння, орієнтовану на інтелект фізичного світу.

За інформацією IT之家, основні прориви цієї моделі можна узагальнити за наступними п’ятьма вимірами:

Бачити точніше (3D просторове розуміння): Раніше системи більше зосереджувалися на обробці двомірних зображень, тоді як MindVLA-o1 поєднує в собі камери та лазерні радіолокатори, завдяки 3D кодеру дозволяє автомобілю сприймати об’єкти так, як це робить людина, розуміючи глибину, відстань та стан руху, справді розуміючи тривимірний фізичний простір.

Думати глибше (мультимодальне мислення): Це перша модель, яка може «задумувати» майбутнє. Завдяки моделі прихованого світу вона не лише бачить теперішнє, а й може в прихованому просторі заздалегідь «пробігти» можливі сцени, які можуть статися через кілька секунд, що дозволяє приймати більш передбачувані рішення.

Рухатися стабільніше (єдине генерування поведінки): Система використовує архітектуру VLA-MoE, спеціально обладнану «експертами з дій». Вона може одночасно генерувати всі точки траєкторії руху і через подібний до «денаошення» оптимізаційний процес забезпечувати, щоб автомобіль рухався як плавно, так і відповідно до фізичних законів.

Еволюціонувати швидше (замкнуте посилене навчання): Li Auto побудував потужний світовий симулятор. Модель навчається не тільки на дорогах, але й може проводити масштабне, високоефективне самонавчання та оптимізацію стратегій у віртуальному світі, значно знижуючи витрати на навчання.

Розгортати ефективніше (спільний дизайн апаратного та програмного забезпечення): Досліджуючи баланс між точністю моделі та затримкою апаратного забезпечення, Li Auto скоротив час проектування архітектури з кількох місяців до кількох днів, що дозволяє складним великим моделям більш плавно працювати на чіпах автомобіля.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

1 лайків