Kolaborasi Dana Terkemuka Silicon Valley! Goldman Sachs Menjelaskan Secara Rinci Dalam Puluhan Ribu Kata Tentang Frontier AI Berikutnya — "World Model"

SnapshotLaborer · 2026-03-23T06:09:43+00:00

Model besar telah mengikuti jalur "bahasa" hingga hari ini, dan batas-batasnya semakin jelas: mereka ahli dalam menulis, mencari, mengedit, dan pemrograman, tetapi begitu pertanyaan melibatkan ruang tiga dimensi, evolusi waktu, dan batasan fisik, paradigma yang sudah ada mulai kesulitan. Morgan Stanley menempatkan pertumbuhan berikutnya pada "model dunia" — membiarkan AI belajar memahami, mensimulasikan, dan membuat keputusan di lingkungan, aplikasi tidak hanya pada robot dan kendaraan otonom, tetapi juga akan mengubah bentuk industri konten digital seperti game, desain, dan produksi film dan televisi.Menurut trading desk yang mengikuti tren, analis saham tim Amerika Utara Morgan Stanley Adam Jonas dalam laporannya yang terbaru menulis dengan jelas: "AI is moving beyond language toward models that understand, simulate and navigate the physical

SnapshotLaborer

2026-03-23 06:09:43

Model besar telah menapaki jalan “bahasa” hingga hari ini, batasnya semakin jelas: mereka mahir menulis, mencari, mengedit, dan pemrograman, tetapi begitu masalah menyentuh ruang tiga dimensi, evolusi waktu, dan batasan fisik, paradigma yang ada mulai kewalahan. Morgan Stanley menaruh harapan pertumbuhan berikutnya pada “model dunia”—mengajarkan AI untuk memahami, mensimulasikan, dan membuat keputusan dalam lingkungan, aplikasi tidak hanya di robot dan mengemudi otomatis, tetapi juga akan merombak industri konten digital seperti game, desain, dan produksi film.

Menurut Wind Trader, analis saham tim Amerika Utara Morgan Stanley, Adam Jonas, dalam laporan terbarunya secara langsung menulis: “AI sedang melampaui bahasa menuju model yang memahami, mensimulasikan, dan menavigasi dunia fisik.” Makna tersirat dari kalimat ini adalah: dalam kompetisi berikutnya, bukan siapa yang lebih mirip manusia dalam chatting, tetapi siapa yang mampu mengompresi hukum-hukum dunia nyata ke dalam representasi internal yang dapat digunakan, lalu mengubahnya menjadi “mesin imajinasi” yang dapat berinteraksi.

Bukti yang disajikan dalam laporan ini bukan sekadar narasi visi, melainkan praktik rekayasa yang sudah terjadi: Waymo menggunakan model dunia berbasis DeepMind Genie 3 untuk melakukan “puluhan miliar mil” pengujian virtual; Microsoft menggunakan Muse untuk mengubah “Quake II” tahun 1997 menjadi versi yang sepenuhnya dirender AI dan dapat dimainkan; Roblox juga mempublikasikan penelitian tentang penggunaan model dunia buatan sendiri untuk menghasilkan lingkungan imersif dan melakukan iterasi game menggunakan bahasa alami. Perusahaan besar seperti DeepMind, Meta, Microsoft, Tesla, Nvidia sedang mengerjakan ini, dan perusahaan baru juga bersaing merekrut orang dan dana.

Lebih menarik lagi, Morgan Stanley dalam dokumen ini memfokuskan perhatian pada dua startup baru: World Labs milik Fei-Fei Li yang berorientasi “menghasilkan dunia 3D yang dapat dinavigasi”, dan AMI Labs milik Likun Yang yang berorientasi “belajar representasi ruang tersembunyi yang efisien untuk prediksi dan inferensi”. Di balik kedua jalur ini, terdapat satu masalah yang sama: bagaimana AI “memahami dunia” dalam bentuk apa, dan kapan pemahaman ini bisa bertransformasi dari demo menjadi produktivitas.

Dari bahasa ke fisika: yang perlu dilengkapi oleh model dunia adalah kekurangan keras dari LLM

Laporan menggambarkan “dunia fisik” sebagai medan yang lebih menantang: dibatasi oleh hukum materi, termodinamika, fluida, pencahayaan, dan lain-lain, yang beroperasi dalam ruang tiga dimensi yang terus berubah. Objek pelatihan LLM sebagian besar adalah teks dan variannya, sangat kuat dalam tugas-tugas pekerja kantoran (pengkodean, pencarian, penulisan), tetapi untuk pertanyaan seperti “apa yang akan terjadi dalam satu detik ke depan”, “apa konsekuensi dari tindakan ini”, yang kurang bukanlah data, melainkan representasi lingkungan yang konsisten dalam jangka panjang dan kemampuan prediksi.

Oleh karena itu, model dunia didefinisikan sebagai “representasi lingkungan internal yang dapat digunakan”: tidak hanya harus mampu mereproduksi apa yang terlihat saat ini, tetapi juga dapat memajukan keadaan ke depan, dan saat “kondisi aksi” berubah, memberikan cabang masa depan yang berbeda—alias metafora yang sering digunakan dalam laporan: “mesin imajinasi” AI.

Model dunia bukan satu entitas tunggal: lima jalur utama berjalan paralel

Morgan Stanley mengklasifikasikan pendekatan saat ini secara kasar (dan menekankan bahwa batasnya akan semakin kabur):

Model dunia interaktif, berbasis aksi: seperti “mesin game yang dipelajari”, lingkungan berubah secara real-time sesuai tindakan agen cerdas (contoh: DeepMind Genie).
Generator dunia 3D konsisten: menekankan kesesuaian geometris ruang dan kemampuan eksplorasi dari berbagai sudut pandang (contoh: World Labs Marble).
Representasi abstrak/non-generatif: tidak berusaha menghasilkan gambar pixel-per-pixel, melainkan memprediksi struktur ruang tersembunyi dan dinamika tingkat tinggi, lebih fokus efisiensi dan inferensi (contoh: Meta V-JEPA, AMI Labs).
Model dunia prediktif: lebih mirip “memperkirakan frame/keadaan berikutnya”, digunakan untuk perencanaan, prediksi, dan inferensi mengemudi (contoh: Wayve GAIA, NVIDIA Cosmos Predict).
Mesin simulasi berbatasan fisik: menggabungkan model dunia dengan simulasi/mesin fisika dan pipeline data, menghasilkan data sintetis yang lebih “fisik konsisten” untuk pelatihan robot (contoh: Transfer dari NVIDIA Cosmos).

Pengelompokan ini memiliki makna praktis: meskipun sama-sama disebut model dunia, ada yang berorientasi “menghasilkan dunia yang dapat dijelajahi”, dan ada yang berorientasi “mengompresi dunia menjadi keadaan yang dapat dihitung”, bentuk produk, struktur komputasi, dan jalur komersialisasi berbeda.

Dimulai dari game dan produksi konten: pengganti mesin sangat menggoda, tapi belum secepat itu

Game adalah contoh paling “langsung” dalam laporan ini: model dunia dapat menghasilkan lingkungan interaktif dari sedikit petunjuk, mempercepat produksi konten ke tingkat yang berbeda. Contohnya, Microsoft menggunakan Muse untuk membuat “Quake II” yang dapat dimainkan—yang tidak lagi bergantung pada mesin tradisional untuk rendering frame demi frame, melainkan model memprediksi setiap frame berdasarkan input pemain.

Namun, tim analis game Morgan Stanley (mengutip kerangka Matt Cost dalam materi) tidak berandai-andai: dalam jangka panjang, ada dua skenario—raksasa yang ada memasukkan AI ke dalam rantai alat untuk “menyesuaikan”, atau digantikan/diganggu oleh paradigma baru. Penggantian tampak lebih sederhana karena model saat ini sudah mampu “menghasilkan dunia yang dapat dimainkan dengan bahasa alami”;

Tantangannya ada di belakang: kecepatan dan biaya komputasi mungkin bisa diatasi, tetapi “sistem meta, latensi” akan lebih sulit, dan masalah seperti “determinisme, memori, pembaruan” mungkin menjadi tantangan keras dalam paradigma model dunia. Ini berarti bahwa batasan jangka pendek memberi peluang bagi pemain lama, tetapi ancaman jangka panjang tetap nyata.

Mengemudi otomatis dan robot lebih pragmatis: dunia virtual digunakan dulu untuk “mengisi data” dan “berpikir dulu, bertindak kemudian”

Pendekatan untuk mengemudi otomatis lebih jelas: memindahkan skenario berbahaya, langka, dan mahal di dunia nyata ke virtual secara skala besar. Laporan menyebutkan Waymo menggunakan model dunia berbasis DeepMind Genie 3 untuk melakukan “puluhan miliar mil” pengujian virtual, guna melatih dan memverifikasi performa sistem dalam situasi ekstrem yang jarang ditemui—yang di jalan nyata sulit ditemukan atau berisiko tinggi.

Untuk robot, logikanya lebih seperti rekayasa: model dunia mungkin menyelesaikan dua hal—jumlah data pelatihan dan prediksi sebelum eksekusi. Laporan menyebutkan ada studi yang menunjukkan bahwa data yang dihasilkan model dunia untuk melatih robot dapat setara dengan data interaksi nyata. Tetapi Morgan Stanley juga menegaskan batasnya: dalam jangka pendek, model dunia dan data simulasi lebih sebagai pelengkap pipeline data nyata, bukan pengganti.

Detail yang benar-benar penting berasal dari “sentuhan dan gesekan”: contoh yang diberikan menekankan bahwa kuantitas fisik kecil yang sering diabaikan justru paling krusial—gaya kecil yang diterapkan jari, perbedaan status aktuator lama dan baru, gesekan permukaan dan perubahan sifat material, bahkan gesekan statis pada sendi—semua ini bisa menyebabkan perbedaan besar saat mentransfer dari simulasi ke dunia nyata.

Yang paling sulit adalah “stabilitas jangka panjang” dan “dapat dikendalikan”: ada beberapa hambatan

Laporan merinci tantangan ini secara spesifik dan tanpa basa-basi:

Akumulasi kesalahan dan drift waktu: semakin lama interaksi, semakin tinggi kemungkinan objek bergeser, bentuk geometris berubah, dan aturan fisika menyimpang. Genie 3 yang dianggap canggih saat ini hanya mampu mendukung “beberapa menit” interaksi berkelanjutan.
Kurangnya kontrol: sekecil apa pun keindahan visualnya, jika ruang gerak terbatas pada gerakan dasar, nilai produk akan terbatas.
Multi-agen dan dinamika sosial: interaksi banyak orang/banyak mobil/banyak robot jauh lebih kompleks daripada satu kamera, dan DeepMind menyebut ini sebagai salah satu tantangan Genie 3.
Skala dan keragaman data: terutama di bidang robot, pengumpulan data sensor nyata mahal dan lambat.
Kurangnya standar tunggal: bagaimana mengukur kualitas interaksi jangka panjang, tidak ada standar yang diakui, dan kemajuan sering bergantung pada demo dan pengujian tugas.

Batasan-batasan ini menentukan ritme nyata: model dunia kemungkinan besar akan terlebih dahulu menyebar di bidang konten digital yang toleran terhadap kesalahan dan iterasi cepat, lalu secara bertahap merembes ke industri yang membutuhkan kesesuaian fisik yang ketat.

Fei-Fei Li bertaruh: membuat AI “mengerti” ruang tiga dimensi

Morgan Stanley menempatkan World Labs di posisi mewakili “menghasilkan dunia 3D yang konsisten dan dapat dibuat”. Perusahaan ini didirikan oleh Fei-Fei Li dan timnya pada 2023, dan akan muncul dari mode tersembunyi pada 2024; produk unggulan Marble diumumkan pada November 2025, dengan tujuan dari input teks, gambar, video singkat, atau model 3D kasar menghasilkan lingkungan 3D yang “tahan lama dan dapat dieksplorasi”, serta mendukung pengeditan dan perluasan.

Fungsi yang tercantum lebih mirip workspace untuk kreasi dan produksi: dapat menghapus dan mengubah objek, menggunakan “Chisel” untuk membangun model kasar lalu menambahkan detail, memperluas area pilihan, menggabungkan beberapa dunia menjadi satu skenario yang lebih besar, mengekspor ke perangkat lunak/mesin 3D eksternal, dan menyediakan API untuk integrasi pengembang.

Selain itu, mereka menekankan antarmuka dengan alat industri: ekspor ke Unreal Engine dan Unity; integrasi dengan platform simulasi seperti NVIDIA Isaac Sim; serta demonstrasi penggunaannya dalam desain arsitektur dan simulasi robot.

Minat modal juga tercantum dalam laporan: PitchBook memperkirakan World Labs telah mengumpulkan sekitar 1,29 miliar dolar AS, dan setelah putaran pendanaan Februari 2026, valuasi pasca-investasi sekitar 5,4 miliar dolar.

Jalur lain dari Yang Likun: tanpa rendering visual, hanya prediksi struktur

Cerita AMI Labs lebih “metodologis”: perusahaan ini keluar dari mode tersembunyi pada Maret 2026, didirikan bersama Yann LeCun, dan mengadopsi kerangka JEPA—bukan membangun ulang setiap piksel, tetapi memprediksi representasi potensial dari bagian yang tertutup atau masa depan (latent embeddings), menggunakan struktur abstrak untuk mempelajari evolusi dunia. Morgan Stanley mengklasifikasikan ini sebagai “representasi abstrak/non-generatif”, menekankan nilai potensialnya dalam inferensi, perencanaan, dan sistem AI fisik (terutama robot).

Informasi tentang produk spesifik AMI sangat terbatas, hanya bisa diperkirakan penggunaannya di bidang robot, mengemudi otomatis, pemahaman/analisis video, serta AR/VR dengan kamera dan asisten pintar. Dalam hal pendanaan, laporan menyebutkan AMI Labs mengumumkan pendanaan benih lebih dari 1 miliar dolar, dan valuasi pasca-investasi menurut PitchBook di atas 4,5 miliar dolar.

Modal dan talenta sudah berkumpul: kompetisi kecerdasan ruang mulai “mempercepat”

Pesan terpenting dari dokumen Morgan Stanley ini mungkin bukan parameter model tertentu atau demo tertentu, melainkan perubahan pola yang digambarkan: dari DeepMind, Meta, Microsoft, Tesla, Nvidia, hingga startup baru, model dunia sedang menjadi “bahasa bersama tahap berikutnya”. Ini menjelaskan mengapa game, film, desain mengalami lonjakan produktivitas, dan juga mengapa otomatisasi mengemudi dan robot semakin banyak memindahkan pelatihan, verifikasi, dan perencanaan ke dunia virtual.

Model dunia bukanlah komponen yang plug-and-play dan serba guna. Kesimpulan yang diberikan lebih seperti peta jalan: skenario yang bisa dijalankan sudah muncul, tantangan nyata ada di depan mata—stabilitas jangka panjang, kendali, multi-agen, detail fisik, dan sistem evaluasi. Siapa yang mampu mengubah tantangan keras ini menjadi siklus rekayasa tertutup, akan menentukan seberapa jauh perjalanan “dari digital ke fisik” ini dapat melangkah.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.