Li Auto merilis model dasar mengemudi otomatis generasi berikutnya MindVLA-o1: melihat lebih akurat, berpikir lebih dalam

K-LinePoet

2026-03-28 20:45:36

Pembuatan abstrak sedang berlangsung

IT之家 3 Maret 17 berita, hari ini, kepala model dasar Li Auto, Zhan Kun, hadir di NVIDIA GTC 2026, memberikan pidato utama berjudul “MindVLA-o1: Memulai Paradigma Serba Bisa - Eksplorasi Model Besar Mengemudi Otomatis Visual-Bahasa-Aksi Generasi Selanjutnya”, meluncurkan model dasar mengemudi otomatis generasi berikutnya dari Li Auto, MindVLA-o1.

Menurut informasi, MindVLA-o1 dibangun dengan lima inovasi teknologi - pemahaman ruang 3D, pemikiran multimodal, generasi perilaku terpadu, pembelajaran penguatan tertutup, dan desain kolaboratif perangkat keras dan perangkat lunak, untuk membangun model dasar mengemudi otomatis yang cerdas dalam dunia fisik.

Menurut IT之家, terobosan inti model ini dapat diringkas dalam lima dimensi berikut:

Melihat lebih akurat (pemahaman ruang 3D): Sistem sebelumnya lebih banyak menangani gambar datar, sementara MindVLA-o1 menggabungkan kamera dan lidar, memungkinkan mobil untuk merasakan kedalaman, jarak, dan status gerakan objek seperti manusia, benar-benar memahami ruang fisik tiga dimensi.

Berpikir lebih dalam (pemikiran multimodal): Ini adalah model pertama yang dapat “memvisualisasikan” masa depan. Melalui model dunia tersembunyi, ia tidak hanya melihat saat ini tetapi juga dapat “mempersiapkan” skenario yang mungkin terjadi dalam beberapa detik ke depan di ruang tersembunyi, sehingga membuat keputusan yang lebih tepat.

Berkendara lebih stabil (generasi perilaku terpadu): Sistem ini menggunakan arsitektur VLA-MoE, khusus dilengkapi dengan “ahli gerakan”. Ia dapat sekaligus menghasilkan semua titik jalur berkendara, dan melalui proses optimasi yang mirip dengan “pengurangan noise”, memastikan bahwa mobil berjalan dengan halus dan sesuai dengan hukum fisika.

Berkembang lebih cepat (pembelajaran penguatan tertutup): Li Auto membangun simulator dunia yang kuat. Model ini tidak hanya belajar di jalan, tetapi juga dapat melakukan latihan sendiri dan optimasi strategi dalam dunia virtual secara besar-besaran dan efisien, secara signifikan mengurangi biaya pelatihan.

Menerapkan lebih efisien (kolaborasi perangkat keras dan perangkat lunak): Dengan meneliti keseimbangan antara akurasi model dan latensi perangkat keras, Li Auto telah memperpendek waktu desain arsitektur dari beberapa bulan menjadi beberapa hari, memungkinkan model besar yang kompleks berjalan lebih lancar di chip kendaraan.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

1 Suka