Deep Tide Panduan: Artikel ini berasal dari peneliti a16z Oliver Hsu, merupakan peta investasi “AI Fisik” paling sistematis sejak 2026. Penilaiannya adalah: garis utama bahasa/kode masih dalam skala, tetapi kemampuan generasi berikutnya yang benar-benar mampu mengganggu adalah tiga bidang yang berdekatan—robot umum, ilmu pengetahuan otonom (AI ilmuwan), antarmuka otak-komputer dan antarmuka manusia-mesin baru lainnya. Penulis menguraikan lima kemampuan dasar yang mendukungnya, dan menunjukkan bahwa ketiga garis ini akan membentuk roda penggerak struktural yang saling memberi makan. Bagi yang ingin memahami logika investasi AI Fisik, ini adalah kerangka paling lengkap saat ini.

Paradigma utama AI saat ini berfokus pada bahasa dan kode. Hukum skala model bahasa besar sudah digambarkan dengan sangat jelas, roda bisnis data, daya komputasi, dan peningkatan algoritma sedang berputar, dan setiap peningkatan kemampuan membawa imbal hasil yang besar, sebagian besar terlihat nyata. Paradigma ini layak mendapatkan kapital dan perhatian yang diserapnya.

Namun, bidang tetangga lainnya telah menunjukkan kemajuan substansial dalam masa perkembangan mereka. Termasuk di dalamnya VLA (Model Visual-Bahasa-Aksi), WAM (Model Aksi Dunia), dan jalur robot umum, serta pengembangan AI ilmuwan yang berfokus pada penalaran fisik dan ilmiah, serta antarmuka baru yang mengubah interaksi manusia-mesin dengan AI (termasuk antarmuka otak-komputer dan teknologi neural). Selain teknologi itu sendiri, bidang-bidang ini mulai menarik talenta, modal, dan pendiri. Bahasa dasar teknologi yang memperluas AI ke dunia fisik sedang matang secara bersamaan, dan kemajuan dalam 18 bulan terakhir menunjukkan bahwa bidang-bidang ini akan segera memasuki tahap skala mereka masing-masing.

Dalam paradigma teknologi apa pun, bagian yang menunjukkan delta terbesar antara kemampuan saat ini dan potensi jangka menengah biasanya memiliki dua ciri: pertama, mampu menikmati manfaat skala yang sama yang mendorong garis depan saat ini; kedua, masih satu langkah dari paradigma utama—cukup dekat untuk mewarisi infrastruktur dan energi riset dasarnya, tetapi cukup jauh sehingga membutuhkan pekerjaan tambahan yang nyata. Jarak ini sendiri memiliki dua fungsi: secara alami membangun benteng perlindungan bagi pengikut cepat, dan juga mendefinisikan ruang masalah yang lebih jarang dan kurang padat informasi, sehingga lebih berpotensi muncul kemampuan baru—tepat karena jalan pintasnya belum sepenuhnya ditempuh.

Keterangan gambar: Hubungan paradigma AI saat ini (bahasa/kode) dengan sistem tetangga terdekatnya

Saat ini, ada tiga bidang yang memenuhi deskripsi ini: pembelajaran robotik, ilmu pengetahuan otonom (terutama di bidang material dan ilmu kehidupan), dan antarmuka manusia-mesin baru (termasuk antarmuka otak, suara tanpa suara, perangkat neural wearable, serta saluran sensor baru seperti penciuman digital). Mereka tidak bekerja secara terpisah sepenuhnya, melainkan berbagi satu set primitif dasar: representasi belajar dinamika fisik, arsitektur untuk aksi berwujud, infrastruktur data simulasi dan sintesis, saluran sensor yang terus berkembang, dan pengaturan agen cerdas yang tertutup loop. Mereka saling memperkuat dalam hubungan umpan balik lintas bidang. Mereka juga merupakan tempat paling mungkin munculnya kemampuan revolusioner—hasil dari interaksi antara skala model, penerapan fisik, dan bentuk data baru, yang semuanya saling mempengaruhi.

Artikel ini akan menguraikan primitif teknologi yang mendukung sistem-sistem ini, menjelaskan mengapa ketiga bidang ini mewakili peluang terdepan, dan mengusulkan bahwa saling penguatan mereka membentuk roda penggerak struktural yang mendorong AI ke dunia fisik.

Lima primitif dasar

Sebelum membahas aplikasi spesifik, pertama kita harus memahami fondasi teknologi yang dibagikan oleh sistem-sistem terdepan ini. Mendorong AI ke dunia fisik bergantung pada lima primitif utama ini. Teknologi ini tidak eksklusif untuk satu bidang aplikasi tertentu; mereka adalah komponen—yang memungkinkan sistem “memperluas AI ke dunia fisik” dapat dibuat. Kematangan bersamaan dari kelima primitif ini adalah alasan utama mengapa saat ini sangat istimewa.

Keterangan gambar: Lima primitif dasar yang mendukung AI Fisik

Primitif satu: Representasi belajar dinamika fisik

Primitif paling mendasar adalah kemampuan untuk belajar representasi kompresi dan umum dari perilaku dunia fisik—bagaimana objek bergerak, berubah bentuk, bertabrakan, dan bereaksi terhadap gaya. Tanpa lapisan ini, setiap sistem AI fisik harus belajar dari nol tentang hukum fisika di bidangnya sendiri, dan biaya ini tidak mampu ditanggung.

Beberapa aliran arsitektur mendekati tujuan ini dari berbagai arah. Model VLA dari atas: menggunakan model visual-bahasa yang sudah dilatih sebelumnya—model ini sudah memiliki pemahaman semantik tentang objek, hubungan ruang, dan bahasa—kemudian menambahkan decoder aksi yang menghasilkan instruksi kontrol gerak. Intinya adalah, biaya besar untuk belajar “melihat” dan “memahami dunia” dapat dipangkas melalui pretraining skala besar di internet dengan gambar dan teks. Physical Intelligence π₀, Google DeepMind Gemini Robotics, dan NVIDIA GR00T N1 telah membuktikan arsitektur ini di skala yang semakin besar.

Model WAM dari bawah: menggunakan Transformer difusi video yang dilatih sebelumnya di video skala internet, yang mewarisi pengetahuan rich tentang dinamika fisik (bagaimana benda jatuh, tertutup, berinteraksi setelah gaya diterapkan), kemudian menggabungkan pengetahuan ini dengan generasi aksi. NVIDIA DreamZero menunjukkan generalisasi zero-shot ke tugas dan lingkungan baru, mampu melakukan transfer lintas objek dari sedikit data adaptasi dari demonstrasi video manusia, dan meningkatkan kemampuan generalisasi ke dunia nyata secara signifikan.

Jalur ketiga mungkin paling menginspirasi dalam menentukan arah masa depan: melewati pretraining VLM dan backbone difusi video secara keseluruhan. GEN-1 dari Generalist adalah model dasar berwujud asli yang dilatih dari awal, dengan data pelatihan lebih dari 500.000 jam interaksi fisik nyata, dikumpulkan terutama melalui perangkat wearable yang murah dari orang yang melakukan tugas sehari-hari. Ini bukan VLA standar (tanpa backbone visual-bahasa yang di-fine-tune), juga bukan WAM. Ini adalah model dasar yang dirancang khusus untuk interaksi fisik, belajar bukan dari statistik gambar, teks, atau video internet, tetapi dari statistik kontak manusia dengan objek.

Perusahaan seperti World Labs yang mengerjakan kecerdasan ruang sangat menghargai primitif ini karena mengisi kekurangan yang dimiliki VLA, WAM, dan model berwujud asli: ketiganya tidak secara eksplisit memodelkan struktur 3D dari lingkungan tempat mereka berada. VLA mewarisi fitur visual 2D dari pretraining gambar-teks; WAM belajar dinamika dari video yang merupakan proyeksi 3D ke 2D; model yang belajar dari sensor wearable mampu menangkap gaya dan kinematika, tetapi tidak mampu merekonstruksi geometri lingkungan. Model kecerdasan ruang dapat membantu mengisi kekurangan ini—belajar merekonstruksi dan menghasilkan struktur 3D lengkap dari lingkungan fisik dan melakukan penalaran terhadapnya: geometri, pencahayaan, penghalang, hubungan objek, dan tata letak ruang.

Konvergensi jalur-jalur ini sendiri adalah poin penting. Apapun representasi yang diwarisi dari VLM, dipelajari dari pelatihan difusi video, atau dibangun dari data interaksi fisik asli, primitif dasarnya sama: model perilaku fisik yang terkompresi dan dapat dipindahkan. Representasi ini didukung oleh roda data yang sangat besar dan sebagian besar belum dimanfaatkan—bukan hanya video internet dan trajektori robot, tetapi juga data pengalaman tubuh manusia yang mulai dikumpulkan secara massal melalui perangkat wearable. Representasi yang sama dapat melayani robot yang belajar melipat handuk, laboratorium otonom yang memprediksi reaksi, maupun neurodecoder yang membaca niat genggaman dari aktivitas korteks motorik.

Primitif dua: Arsitektur berwujud untuk aksi

Hanya memiliki representasi fisik tidak cukup. Untuk menerjemahkan “pemahaman” menjadi aksi fisik yang andal, diperlukan arsitektur yang mengatasi beberapa masalah terkait: memetakan niat tingkat tinggi ke urutan instruksi gerak kontinu, menjaga konsistensi dalam rangkaian aksi panjang, beroperasi dengan latensi waktu nyata, dan terus belajar dari pengalaman.

Arsitektur berlapis dua sistem telah menjadi standar untuk tugas berwujud kompleks: model visual-bahasa yang lambat dan kuat bertanggung jawab atas pemahaman lingkungan dan penalaran tugas (Sistem 2), dipadukan dengan strategi visual-gerak yang cepat dan ringan untuk kontrol waktu nyata (Sistem 1). Contohnya adalah varian dari GR00T N1, Gemini Robotics, dan Helix dari Figure, yang mengatasi ketegangan mendasar antara “model besar menyediakan penalaran yang kaya” dan “tugas fisik membutuhkan kontrol milidetik.” Generalist mengambil pendekatan berbeda, menggunakan “penalaran resonansi” agar pemikiran dan aksi berlangsung bersamaan.

Mekanisme generasi aksi juga berkembang pesat. Pendekatan berbasis matching aliran dan difusi yang diperkenalkan π₀ telah menjadi metode utama untuk menghasilkan aksi halus dan kontinu berfrekuensi tinggi, menggantikan tokenisasi diskret dari model bahasa. Metode ini memperlakukan generasi aksi seperti proses denoising yang mirip sintesis gambar, menghasilkan trajektori yang secara fisik lebih halus dan lebih stabil terhadap akumulasi kesalahan, mengungguli prediksi token autoregressive.

Namun, kemajuan paling penting dari segi arsitektur mungkin adalah memperluas reinforcement learning ke model dasar VLA—model dasar yang dilatih dari data demonstrasi dan dapat terus ditingkatkan melalui latihan mandiri, seperti manusia yang mengasah keterampilan melalui latihan berulang dan koreksi diri. Physical Intelligence π*₀.₆ adalah demonstrasi skala paling jelas dari prinsip ini. Metode mereka disebut RECAP (Experience and Correction Reinforcement Learning based on Advantage-Conditioned Policies), yang mengatasi masalah distribusi kredit dalam rangkaian panjang yang tidak bisa diselesaikan hanya dengan imitasi. Jika robot sedikit miring saat memegang pegangan mesin kopi espresso, kegagalan tidak langsung terlihat, tetapi mungkin muncul setelah beberapa langkah saat memasukkan. Imitasi tidak memiliki mekanisme untuk mengaitkan kegagalan ini ke langkah sebelumnya, tetapi RL memilikinya. RECAP melatih fungsi nilai yang memperkirakan peluang keberhasilan dari status tengah mana pun, lalu membiarkan VLA memilih aksi dengan keuntungan tinggi. Intinya, mengintegrasikan berbagai data heterogen—data demonstrasi, pengalaman strategi mandiri, dan koreksi dari operator jarak jauh—ke dalam satu pipeline pelatihan.

Metode ini adalah kabar baik untuk prospek RL di bidang aksi. π*₀.₆ mampu secara andal melipat 50 jenis pakaian yang belum pernah dilihat di lingkungan rumah nyata, merakit kotak kardus dengan andal, dan membuat espresso di mesin profesional selama berjam-jam tanpa intervensi manusia. Pada tugas paling sulit, RECAP melipatgandakan throughput dibandingkan baseline imitasi, dan mengurangi setengah tingkat kegagalan. Sistem ini juga membuktikan bahwa pelatihan pasca RL menghasilkan perilaku revolusioner yang tidak bisa dicapai oleh imitasi: gerakan pemulihan yang lebih halus, strategi pengambilan yang lebih efisien, dan koreksi otomatis yang tidak ada dalam data demonstrasi.

Hasil-hasil ini menunjukkan satu hal: dorongan skala daya komputasi dari GPT-2 ke GPT-4—yang mendorong skala model besar—mulai beroperasi di bidang berwujud, meskipun saat ini masih di bagian awal kurva, dengan ruang aksi yang kontinu dan berdimensi tinggi, serta harus menghadapi batasan fisik dunia yang keras.

Primitif tiga: Infrastruktur skala data simulasi dan sintesis

Dalam bidang bahasa, masalah data telah diselesaikan oleh internet: triliunan token teks yang muncul secara alami dan gratis. Di dunia fisik, masalah ini jauh lebih kompleks—dan ini sudah menjadi konsensus. Sinyal paling langsung adalah munculnya startup penyedia data fisik yang berkembang pesat. Pengumpulan trajektori robot nyata mahal, berisiko skala besar, dan terbatas dalam variasi. Model bahasa bisa belajar dari miliaran percakapan, tetapi robot (sementara ini) tidak bisa melakukan miliaran interaksi fisik.

Generasi data simulasi dan sintesis adalah infrastruktur dasar untuk mengatasi batasan ini. Kemajuan dalam infrastruktur ini adalah salah satu alasan utama percepatan AI fisik saat ini dibandingkan lima tahun lalu.

Stack simulasi modern menggabungkan mesin simulasi berbasis fisika, rendering fotorealistik berbasis ray tracing, generasi lingkungan secara programatis, dan model dunia yang menghasilkan video fotorealistik dari input simulasi—yang terakhir ini menjembatani gap sim-to-real. Rangkaian ini dimulai dari rekonstruksi neural lingkungan nyata (dapat dilakukan hanya dengan satu ponsel), mengisi aset 3D yang akurat secara fisik, hingga menghasilkan data sintesis besar-besaran dengan anotasi otomatis.

Kemajuan stack simulasi ini penting karena mengubah asumsi ekonomi yang mendukung AI fisik. Jika hambatan utama beralih dari “mengumpulkan data nyata” ke “merancang lingkungan virtual yang beragam,” biaya akan turun drastis. Simulasi yang berkembang seiring daya komputasi tidak bergantung pada tenaga manusia dan perangkat keras fisik. Ini mengubah struktur ekonomi pelatihan sistem AI fisik, sama seperti data teks internet mengubah pelatihan model bahasa—berarti investasi dalam infrastruktur simulasi akan memberi leverage besar bagi seluruh ekosistem.

Namun, simulasi tidak hanya untuk primitif robotik. Infrastruktur yang sama melayani ilmu pengetahuan otonom (digital twin perangkat laboratorium, simulasi reaksi untuk pengujian hipotesis), antarmuka baru (simulasi lingkungan neural untuk pelatihan decoder BCI, kalibrasi sensor baru dengan data sensor sintetik), dan bidang lain yang berinteraksi dengan dunia fisik. Simulasi adalah mesin data universal untuk AI fisik.

Primitif empat: Perluasan saluran sensor

Sinyal yang dikirimkan dari dunia fisik jauh lebih beragam daripada visual dan bahasa. Sentuhan menyampaikan atribut material, stabilitas genggaman, geometrinya yang kontak tidak terlihat kamera. Sinyal neural, dengan bandwidth jauh lebih tinggi dari antarmuka manusia saat ini, mengkodekan niat gerak, keadaan kognitif, dan pengalaman sensorik. Aktivitas otot subglotis bahkan sudah mengkodekan niat bicara sebelum suara muncul. Primitif keempat adalah kemampuan AI untuk mempercepat ekspansi saluran sensor ini—baik dari riset maupun dari ekosistem perangkat, perangkat lunak, dan infrastruktur konsumen yang membangun.

Keterangan gambar: Ekspansi saluran sensor AI, dari AR, EMG, hingga antarmuka otak

Indikator paling langsung adalah munculnya perangkat baru. Perangkat AR telah mengalami peningkatan besar dalam pengalaman dan bentuk dalam beberapa tahun terakhir (beberapa perusahaan sudah menggunakannya untuk aplikasi konsumen dan industri); AI wearable berbasis suara memberi konteks fisik yang lebih lengkap untuk AI bahasa—mereka benar-benar mengikuti pengguna ke dalam lingkungan fisik. Dalam jangka panjang, antarmuka neural mungkin membuka modal interaksi yang lebih lengkap. Perubahan cara komputasi yang dibawa AI menciptakan peluang besar untuk meningkatkan interaksi manusia-mesin, dan perusahaan seperti Sesame sedang membangun modalitas dan perangkat baru untuk ini.

Modalitas suara yang lebih umum juga memberi peluang bagi metode interaksi baru. Produk seperti Wispr Flow memposisikan suara sebagai input utama (karena memiliki densitas informasi tinggi dan keuntungan alami), dan pasar antarmuka suara tanpa suara juga membaik. Perangkat suara tanpa suara menggunakan sensor untuk menangkap gerakan lidah dan pita suara, serta mengenali bahasa secara diam—menjadi modal interaksi manusia-mesin dengan densitas informasi lebih tinggi.

Antarmuka otak-komputer (invasif dan non-invasif) mewakili frontier yang lebih dalam, dan ekosistem komersialnya terus berkembang. Sinyal muncul di titik temu verifikasi klinis, persetujuan regulasi, integrasi platform, dan modal institusional—yang dulu hanya bidang akademik.

Sensor sentuh mulai masuk ke dalam arsitektur AI berwujud, dan beberapa model belajar menganggap sentuhan sebagai komponen utama. Antarmuka penciuman mulai menjadi produk rekayasa nyata: perangkat penciuman wearable dengan generator bau miniatur dan respons milidetik, sudah dipresentasikan dalam aplikasi realitas campuran; model penciuman mulai dipasangkan dengan sistem AI visual untuk pengawasan proses kimia.

Perkembangan ini memiliki pola umum: mereka akan saling konvergen di batas ekstrem. Kacamata AR terus menghasilkan data visual dan spasial dari interaksi pengguna dan lingkungan; gelang EMG menangkap pola niat gerak manusia; antarmuka suara diam menangkap peta dari aktivitas subglotis ke output bahasa; BCI dengan resolusi tertinggi saat ini menangkap aktivitas neural; sensor sentuh merekam dinamika kontak saat operasi fisik. Setiap perangkat baru juga merupakan platform data yang mendukung berbagai aplikasi dan model dasar. Robot yang menggunakan data EMG untuk menebak niat gerak dan robot yang hanya dilatih dari data operasi jarak jauh akan belajar strategi genggaman yang berbeda; antarmuka laboratorium yang merespons perintah subglotis dan yang dikendalikan keyboard akan menghasilkan cara interaksi manusia-mesin yang berbeda; decoder neural yang dilatih dari data BCI beresolusi tinggi akan menghasilkan representasi perencanaan gerak yang tidak bisa diperoleh dari saluran lain.

Perluasan perangkat ini memperbesar dimensi manifol data yang tersedia untuk melatih sistem AI fisik di masa depan—dan sebagian besar didorong oleh perusahaan konsumen yang kaya modal, bukan hanya laboratorium akademik, yang berarti roda data ini akan berkembang seiring adopsi pasar.

Primitif lima: Sistem agen tertutup loop

Terakhir, primitif ini lebih bersifat arsitektural. Mengacu pada sistem yang mengintegrasikan persepsi, penalaran, dan pengaturan aksi secara berkelanjutan, mandiri, dan tertutup loop, mampu beroperasi tanpa intervensi manusia dalam jangka waktu lama.

Dalam model bahasa, perkembangan terkait adalah munculnya sistem agen—rantai penalaran multi langkah, penggunaan alat, proses koreksi diri—yang mengubah model dari alat tanya jawab satu putaran menjadi penyelesai masalah otonom. Di dunia fisik, transformasi yang sama sedang berlangsung, tetapi jauh lebih menuntut. Agen bahasa yang salah bisa kembali tanpa biaya; agen fisik yang menumpahkan cairan bisa menyebabkan kerusakan tak terpulihkan.

Karakteristik utama sistem agen fisik yang membedakannya dari versi digital adalah: pertama, mereka harus terintegrasi dengan eksperimen atau operasi tertutup loop—menghubungkan langsung ke aliran data instrumen, sensor status fisik, dan primitif eksekusi, sehingga penalaran dilakukan langsung terhadap realitas fisik, bukan hanya deskripsi teksnya. Kedua, mereka membutuhkan keberlanjutan rangkaian panjang: memori, pelacakan jejak, pengawasan keamanan, dan pemulihan perilaku yang menghubungkan beberapa siklus operasi, bukan menganggap setiap tugas sebagai episode terpisah. Ketiga, mereka harus mampu beradaptasi secara tertutup loop: memperbarui strategi berdasarkan hasil fisik, bukan hanya umpan balik teks.

Primitif ini menggabungkan kemampuan terpisah—model dunia yang baik, arsitektur aksi yang andal, sensor yang kaya—menjadi sistem lengkap yang mampu beroperasi secara mandiri di dunia fisik. Ini adalah lapisan integrasi, dan kematangannya adalah prasyarat agar ketiga bidang aplikasi berikut dapat beroperasi di dunia nyata, bukan hanya sebagai demonstrasi penelitian.

Tiga bidang

Primitif-primitif di atas adalah lapisan enabling umum, mereka sendiri tidak menentukan bidang aplikasi utama mana yang akan berkembang paling pesat. Banyak bidang melibatkan aksi fisik, pengukuran fisik, atau persepsi fisik. Perbedaan antara “sistem terdepan” dan “versi modifikasi dari sistem yang ada” terletak pada tingkat pertumbuhan kemampuan model dan infrastruktur skala yang terjadi—bukan hanya performa lebih baik, tetapi munculnya kemampuan baru yang sebelumnya tidak mungkin.

Robot, ilmu pengetahuan berbasis AI, dan antarmuka manusia-mesin baru adalah tiga bidang dengan efek komulatif paling kuat dari pertumbuhan ini. Masing-masing menggabungkan primitif secara unik, dan masing-masing terhambat oleh batasan yang sedang diatasi oleh primitif tersebut, serta secara tidak langsung menghasilkan data fisik terstruktur yang memperkaya primitif itu sendiri—membentuk umpan balik yang mempercepat seluruh sistem. Mereka bukan satu-satunya bidang AI fisik yang patut diperhatikan, tetapi mereka adalah tempat paling padat di mana kemampuan AI terdepan berinteraksi dengan realitas fisik, dan juga yang paling jauh dari paradigma bahasa/kode saat ini, sehingga menawarkan ruang munculnya kemampuan baru yang besar—serta sangat saling melengkapi dan mampu mengambil manfaat dari keuntungan paradigma tersebut.

Robot

Robot adalah manifestasi paling literal dari AI fisik: sistem AI yang harus secara real-time menyadari, menalar, dan melakukan aksi fisik terhadap dunia material. Mereka juga menguji setiap primitif secara langsung.

Bayangkan sebuah robot umum yang harus melipat handuk. Ia membutuhkan representasi fisik dari bagaimana bahan yang dapat berubah bentuk berperilaku di bawah gaya—pengetahuan fisik dasar yang tidak bisa didapat dari pelatihan bahasa saja. Ia membutuhkan arsitektur aksi yang mampu menerjemahkan instruksi tingkat tinggi menjadi rangkaian kontrol kontinu dengan frekuensi di atas 20Hz. Ia membutuhkan data pelatihan dari simulasi, karena tidak ada yang pernah mengumpulkan jutaan demonstrasi nyata melipat handuk. Ia membutuhkan umpan balik sentuhan untuk mendeteksi gesekan dan menyesuaikan kekuatan genggaman, karena visual tidak cukup membedakan antara genggaman stabil dan yang gagal. Ia juga membutuhkan pengontrol tertutup loop yang mampu mengenali kesalahan saat melipat dan memperbaikinya, bukan hanya mengikuti trajektori memorinya.

Keterangan gambar: Penggunaan kelima primitif secara simultan dalam tugas robotik

Itulah mengapa robot adalah sistem terdepan, bukan hanya disiplin rekayasa yang lebih matang. Primitif-primitif ini bukan sekadar peningkatan kemampuan robot yang sudah ada, melainkan membuka kategori operasi, gerakan, dan interaksi yang sebelumnya tidak bisa dilakukan di luar lingkungan industri yang sempit dan terkendali.

Kemajuan terbaru dalam beberapa tahun terakhir sangat signifikan—kami juga pernah menulis tentang ini. Generasi pertama VLA menunjukkan bahwa model dasar bisa mengendalikan robot untuk menyelesaikan berbagai tugas. Kemajuan arsitektur menghubungkan penalaran tingkat tinggi dan kontrol tingkat rendah. Penalaran di tepi perangkat menjadi memungkinkan, dan transfer lintas objek berarti satu model bisa diadaptasi ke platform robot baru dengan data terbatas. Tantangan utama tersisa adalah skala keandalan—yang masih menjadi hambatan utama untuk deployment. Akurasi 95% per langkah, hanya 60% dalam rangkaian 10 langkah, jauh dari standar industri. Pelatihan pasca RL memiliki potensi besar di sini, membantu bidang ini mencapai tahap skala yang dibutuhkan.

Kemajuan ini juga memengaruhi struktur pasar. Nilai industri robot selama puluhan tahun terakumulasi di sistem mekanik itu sendiri; mekanik tetap bagian kunci dari tumpukan teknologi. Tetapi seiring strategi belajar menjadi lebih standar, nilai akan bergeser ke model, infrastruktur pelatihan, dan roda data. Robot juga memperkuat primitif-primitif tersebut: setiap trajektori nyata adalah data pelatihan untuk memperbaiki model dunia, setiap kegagalan mengungkap kekurangan simulasi, dan setiap pengujian platform baru memperluas keragaman pengalaman fisik yang bisa digunakan untuk pretraining. Robot adalah konsumen paling keras dari primitif ini sekaligus sumber sinyal perbaikan terpenting.

Ilmu pengetahuan otonom

Jika robot adalah pengujian primitif melalui “aksi fisik real-time,” ilmu pengetahuan otonom menguji hal lain—penalaran berkelanjutan terhadap sistem fisik yang kompleks, dengan rentang waktu jam atau hari, hasil eksperimen harus diinterpretasi, dikontekstualisasi, dan digunakan untuk memperbarui strategi.

Keterangan gambar: Cara integrasi lima primitif dalam ilmu pengetahuan otonom (AI ilmuwan)

AI dalam ilmu pengetahuan adalah bidang yang paling lengkap dalam menggabungkan primitif-primitif ini. Laboratorium otomatis (self-driving lab, SDL) harus belajar representasi dinamika fisik-kimia untuk memprediksi hasil eksperimen; membutuhkan aksi berwujud untuk pipet, menempatkan sampel, mengoperasikan instrumen; membutuhkan simulasi untuk menyaring eksperimen kandidat dan mengelola waktu instrumen yang terbatas; serta perlu memperluas saluran sensor—spektrum, kromatografi, spektrometri, dan sensor kimia dan biologi terbaru—untuk mengkarakterisasi hasil. Ia paling membutuhkan pengaturan agen tertutup loop: mampu menjalankan alur kerja “hipotesis-eksperimen-analisis-penyesuaian” berulang tanpa intervensi manusia, menjaga jejak, memantau keamanan, dan menyesuaikan strategi berdasarkan informasi yang diperoleh setiap putaran.

Tidak ada bidang lain yang menggunakan primitif ini sedalam ini. Itulah mengapa ilmu pengetahuan otonom adalah sistem “terdepan,” bukan sekadar otomatisasi laboratorium yang lebih baik. Perusahaan seperti Periodic Labs dan Medra menggabungkan kemampuan penalaran ilmiah dan verifikasi fisik, menghasilkan iterasi ilmiah dan data pelatihan eksperimen secara langsung.

Nilai sistem ini secara intuitif sangat jelas. Penemuan material tradisional dari konsep hingga komersialisasi bisa memakan waktu bertahun-tahun; AI dapat mempercepat proses ini secara signifikan. Kendala utama beralih dari “hipotesis” ke “pembuatan dan verifikasi” yang membutuhkan perangkat fisik dan robot. SDL adalah solusi untuk hambatan ini.

Karakteristik penting lain dari ilmu pengetahuan otonom—yang berlaku di semua sistem dunia fisik—adalah perannya sebagai mesin data. Setiap eksperimen SDL tidak hanya menghasilkan hasil ilmiah, tetapi juga sinyal pelatihan yang terverifikasi secara fisik dan terstruktur. Pengukuran tentang bagaimana polimer mengkristal di kondisi tertentu memperkaya model dunia tentang dinamika material; jalur sintesis yang terverifikasi menjadi data pelatihan penalaran fisik; kegagalan yang terkarakterisasi memberi tahu sistem cerdas di mana prediksi mereka gagal. Data yang dihasilkan oleh AI ilmuwan dari eksperimen nyata berbeda secara sifat dari teks internet atau output simulasi—mereka bersifat terstruktur, kausal, dan terverifikasi secara empiris. Ini adalah data yang paling dibutuhkan oleh model penalaran fisik, dan tidak ada sumber lain yang mampu menyediakannya. Ilmu pengetahuan otonom secara langsung mengubah dunia fisik menjadi pengetahuan terstruktur dan memperbaiki ekosistem AI fisik secara keseluruhan.

Antarmuka baru

Robot memperluas AI ke aksi fisik, ilmu pengetahuan otonom memperluasnya ke penelitian fisik. Antarmuka baru memperluasnya ke hubungan langsung antara AI dan persepsi manusia, pengalaman sensorik, dan sinyal tubuh—dari kacamata AR, gelang EMG, hingga antarmuka otak yang tertanam. Yang menyatukan kategori ini bukan satu teknologi tunggal, melainkan fungsi bersama: memperbesar bandwidth dan modalitas saluran komunikasi antara manusia dan AI—serta menghasilkan data interaksi manusia-dunia yang langsung dapat digunakan untuk membangun AI fisik.

Keterangan gambar: Spektrum antarmuka baru dari kacamata AR hingga antarmuka otak

Jarak dari paradigma utama adalah tantangan sekaligus potensi. Model bahasa secara konseptual memahami modalitas ini, tetapi tidak secara alami familiar dengan pola gerak tanpa suara, struktur geometris reseptor penciuman, atau dinamika waktu dari sinyal EMG. Menguraikan sinyal ini harus dipelajari dari saluran sensor yang sedang berkembang. Banyak modalitas tidak memiliki korpus pelatihan skala internet, sehingga data sering kali hanya dihasilkan dari antarmuka itu sendiri—yang berarti sistem dan data latihnya berkembang bersama, berbeda dari yang terjadi dalam AI bahasa.

Perkembangan terbaru adalah munculnya perangkat wearable AI sebagai produk konsumen yang cepat berkembang. Kacamata AR mungkin adalah contoh paling mencolok, tetapi perangkat wearable berbasis suara dan visual juga muncul secara bersamaan.

Ekosistem perangkat konsumen ini tidak hanya menyediakan platform hardware baru untuk memperluas AI ke dunia fisik, tetapi juga menjadi infrastruktur data fisik. Seorang pengguna dengan kacamata AI dapat terus menghasilkan aliran video first-person tentang bagaimana manusia menavigasi, mengoperasikan objek, dan berinteraksi dengan dunia; perangkat wearable lain terus menangkap data biometrik dan gerak. Jumlah perangkat AI wearable yang terpasang sedang membentuk jaringan pengumpulan data fisik secara terdistribusi, merekam pengalaman fisik manusia dalam skala yang sebelumnya tidak mungkin. Bayangkan volume perangkat konsumen seperti smartphone—setiap perangkat baru ini membuka saluran baru bagi AI untuk memahami dunia secara multimodal, dan mempercepat interaksi manusia-dunia fisik.

Antarmuka otak-komputer (invasif dan non-invasif) mewakili frontier yang lebih dalam. Neuralink sudah menanamkan elektroda ke beberapa pasien, dan robot bedah serta perangkat decoding terus berkembang. Stentrode dari Synchron sudah digunakan untuk memungkinkan pengguna lumpuh mengendalikan lingkungan digital dan fisik. Echo Neurotechnologies mengembangkan sistem BCI untuk pemulihan bahasa, berdasarkan riset mereka tentang decoding suara korteks dengan resolusi tinggi. Perusahaan baru seperti Nudge juga bermunculan, mengumpulkan talenta dan modal untuk membangun platform antarmuka otak dan interaksi otak-manusia yang baru. Dari sisi teknologi, milestone penting termasuk chip BISC yang menampilkan 65.536 elektroda untuk rekaman neural nirkabel; tim BrainGate yang langsung mendekode bahasa internal dari korteks motorik.

Keterkaitan utama antara kacamata AR, wearable AI, perangkat suara diam, dan BCI tertanam bukan hanya bahwa semuanya adalah antarmuka, tetapi bahwa mereka bersama-sama membentuk spektrum bandwidth yang meningkat antara pengalaman fisik manusia dan sistem AI—setiap titik di spektrum ini mendukung kemajuan primitif-primitif utama yang dibahas dalam artikel ini. Robot yang dilatih dari video first-person berkualitas tinggi dari pengguna kacamata AI akan memiliki prior dari aksi yang berbeda dari robot yang hanya dilatih dari data operasi jarak jauh; AI laboratorium yang merespons perintah suara diam akan berbeda secara latensi dan kelancaran dari yang dikendalikan keyboard; decoder neural yang dilatih dari data BCI beresolusi tinggi akan menghasilkan representasi perencanaan gerak yang tidak bisa diperoleh dari saluran lain.

Antarmuka baru ini berfungsi sebagai mekanisme untuk memperbesar saluran sensor itu sendiri—membuka jalur data baru di antara dunia fisik dan AI yang sebelumnya tidak ada. Perluasan ini didorong oleh perusahaan konsumen yang berorientasi skala besar, yang berarti roda data akan berkembang seiring adopsi pasar.

Sistem dunia fisik

Menganggap robot, ilmu pengetahuan otonom, dan antarmuka baru sebagai contoh berbeda dari satu set primitif yang sama adalah alasan mereka saling menguatkan dan menghasilkan efek komulatif.

Keterangan gambar: Umpan balik roda penggerak antara robot, ilmu pengetahuan otonom, dan antarmuka baru

Robot mendukung ilmu pengetahuan otonom. Laboratorium otomatis pada dasarnya adalah sistem robotik. Kemampuan aksi yang dikembangkan untuk robot umum—menggenggam dengan lincah, menangani cairan, penempatan presisi, pelaksanaan tugas multi langkah—dapat langsung dipindahkan ke otomatisasi laboratorium. Kemajuan dalam model robotik yang lebih umum dan robust akan memperluas jangkauan eksperimen yang dapat dilakukan secara mandiri oleh SDL. Setiap kemajuan dalam pembelajaran robotik menurunkan biaya eksperimen mandiri dan meningkatkan throughput.

Ilmu pengetahuan otonom mendukung robot. Data ilmiah yang dihasilkan—pengukuran fisik yang terverifikasi, hasil eksperimen kausal, basis data properti material—memberikan data terstruktur dan nyata yang sangat dibutuhkan untuk model dunia dan mesin penalaran fisik. Lebih jauh lagi, material dan perangkat yang dibutuhkan robot (aktor yang lebih baik, sensor sentuh yang lebih sensitif, baterai berkapasitas tinggi) adalah hasil dari ilmu material. Platform penemuan material yang mempercepat inovasi langsung memperbaiki hardware dasar tempat robot belajar beroperasi.

Antarmuka baru mendukung robot. Perangkat AR adalah cara yang skalabel untuk mengumpulkan data tentang bagaimana manusia merasakan dan berinteraksi dengan lingkungan fisik. Antarmuka neural menghasilkan data tentang niat gerak, perencanaan kognitif, dan proses sensorik manusia. Data ini sangat berharga untuk melatih sistem belajar robot, terutama dalam tugas kolaborasi manusia-mesin dan operasi jarak jauh.

Di sini juga ada pengamatan mendalam tentang sifat kemajuan AI terdepan itu sendiri. Paradigma bahasa/kode sudah menghasilkan pencapaian luar biasa dan terus meningkat dalam skala, tetapi masalah baru, data baru, sinyal umpan balik baru, dan standar evaluasi baru di dunia fisik hampir tak terbatas. Mengaplikasikan AI ke dunia fisik—melalui robot yang mengoperasikan objek, laboratorium eksperimen bahan, dan antarmuka yang menghubungkan manusia dan dunia—membuka dimensi skala baru yang melengkapi front digital saat ini—dan kemungkinan saling memperbaiki.

Keterangan gambar: Interaksi dan munculnya perilaku baru dari skala berbagai primitif AI fisik

Perilaku yang muncul dari sistem ini sulit diprediksi secara tepat—definisi munculnya adalah kemampuan yang berasal dari interaksi kemampuan yang dapat dipahami secara terpisah, tetapi kombinasi mereka menghasilkan kemampuan yang belum pernah terlihat sebelumnya. Pola sejarah menunjukkan bahwa setiap kali sistem AI memperoleh modalitas baru untuk berinteraksi dengan dunia—melihat (penglihatan komputer), berbicara (pengakuan suara), membaca dan menulis (model bahasa)—kemampuan lonjakan yang dihasilkan jauh melebihi jumlah peningkatan individualnya. Transisi ke sistem dunia fisik mewakili perubahan fase berikutnya dari fenomena ini. Dalam arti ini, primitif yang dibahas dalam artikel ini sedang dibangun saat ini, dan berpotensi memungkinkan sistem AI terdepan untuk memahami, menalar, dan berinteraksi dengan dunia fisik, membuka banyak nilai dan kemajuan.

Disclaimer: Artikel ini hanya untuk pertukaran informasi, tidak merupakan saran investasi apa pun, dan tidak boleh digunakan sebagai dasar hukum, bisnis, investasi, atau konsultasi pajak.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

2 Suka