Meta AI merilis model dunia prediksi embedding gabungan untuk perencanaan fisik JEPA-WMs

Berita ME, 3 April (UTC+8), tim Meta AI Research merilis model dunia JEPA-WMs dengan prediksi embedding gabungan untuk perencanaan fisik serta penelitian terkait. Penelitian ini membahas faktor-faktor kunci yang menentukan keberhasilan model, dan menyediakan implementasi PyTorch yang lengkap, kumpulan data, serta model pra-latih. Model yang dirilis mencakup JEPA-WM inti serta model DINO-WM dan V-JEPA-2-AC(fixed) sebagai baseline, mencakup berbagai lingkungan robot untuk operasi dan navigasi seperti DROID & RoboCasa, Metaworld, Push-T, PointMaze, dan Wall. Model menggunakan encoder visual seperti DINOv3 ViT-L/16, DINOv2 ViT-S/14, dan V-JEPA-2 ViT-G/16; resolusi input gambar utamanya adalah 224×224 atau 256×256. Proyek ini juga menyediakan kepala decoder VM2M opsional untuk visualisasi dan decoding lintasan, tetapi menekankan bahwa decoder tersebut tidak diperlukan untuk melatih model dunia atau melakukan evaluasi perencanaan. Semua sumber daya telah dipublikasikan di GitHub, Hugging Face, dan arXiv. (Sumber: InFoQ)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan