Roda data atau sampel berulang? AI Fisik harus mengucapkan selamat tinggal pada "pemujaan jam".

Question

> TL;DR > · Robotikawan Animesh Garg mempertanyakan praktik industri yang menjadikan jam teleoperasi sebagai indikator kemampuan model. > · Biaya pengumpulan data robotik tinggi, data yang digunakan sering berasal dari skenario sempit, dan sampel berulang akan menjadi mahal dengan cepat. > · Yang lebih berharga mungkin adalah kegagalan ekor panjang, cakupan tugas, dan sampel baru, bukan total durasi operasi. Dulu menjabat, merangkap di Universitas Toronto, dan kini menjadi profesor di Georgia Tech, robotikawan Animesh Garg, dalam sebuah artikel berjudul "Moneyball for Physical AI", membandingkan perlombaan data kecerdasan berwujud dengan momen "Moneyball" dalam sejarah bisbol. Yang ingin ia tantang adalah narasi pendanaan yang semakin umum: perusahaan robotik hanya perlu menumpuk lebih banyak teleoperasi, lebih banyak penerapan nyata, lebih banyak jam operasi, maka mereka dapat membentuk roda data. Bagi investor, ini bukan perdebatan akademis belaka. Struktur biaya, kecepatan komersialisasi, dan hambatan model perusahaan kecerdasan berwujud sering kali dibungkus dalam kata "lingkaran data tertutup". Jika total jam tidak setara dengan kemajuan model yang efektif, pasar perlu menilai kembali aset data perusahaan-perusahaan ini. "Jam data" mungkin merupakan takhayul tingkat pukulan industri robotik===================== Garg meminjam analogi klasik dari "Moneyball". Pada tahun 2002, Oakland Athletics memenangkan 103 pertandingan dengan salah satu tim dengan gaji terendah di liga, kuncinya bukan membeli pemain yang lebih mahal, tetapi menemukan bahwa pasar salah menilai nilai pemain. Pramuka tradisional mementingkan tingkat pukulan, mencuri base, dan postur, namun indikator yang lebih mampu menjelaskan kemampuan mencetak skor tim adalah persentase on-base. Menurutnya, Physical AI mungkin juga berada pada tahap yang serupa. Industri mengakui bahwa data adalah kebutuhan untuk menuju model robotik universal, tetapi cenderung menjadikan indikator yang paling mudah ditampilkan sebagai yang paling penting: total jam teleoperasi, jumlah lintasan demonstrasi, jumlah robot yang diterapkan, durasi operasi skenario produksi. Cara penyediaan data robotik dan data teks tidaklah sama. Model bahasa besar dapat memperoleh teks dalam jumlah besar berbiaya rendah dari internet, basis kode, buku, dan halaman web, dengan hambatan lebih pada daya komputasi, pembersihan, dan efisiensi pelatihan. Model robotik membutuhkan data yang melibatkan interaksi fisik, umpan balik aksi, dan perubahan lingkungan; setiap jam data efektif harus diciptakan secara nyata, di baliknya ada biaya perangkat, tenaga kerja, tempat, sensor, penanganan kegagalan, dan keamanan. Robotikawan Ken Goldberg pernah menggunakan istilah "100.000-year data gap" untuk menggambarkan kesenjangan antara data robotik dan data AI berskala internet. Lebih tepatnya, data teks dan gambar yang dikonsumsi oleh model visi-bahasa besar kontemporer, jika dikonversi ke waktu membaca atau menonton manusia, setara dengan sekitar 100.000 tahun, sementara robotik kekurangan data interaksi nyata dalam skala yang sama. Pernyataan ini bukan untuk menetapkan batas presisi bagi model robotik, melainkan untuk mengingatkan industri: data interaksi dunia nyata tidak dapat dikumpulkan dengan biaya rendah seperti teks web. Inilah sebabnya Garg menentang narasi "teleoperasi pabrik keringat". Sejumlah besar teleoperasi manual memang dapat menghasilkan sampel pelatihan yang padat aksi, tetapi jika perusahaan hanya mengevaluasi data berdasarkan total jam, dana dapat mengalir ke sampel yang berulang, berkesulitan rendah, dan berdensitas informasi rendah, bukan ke skenario yang paling mampu mengurangi tingkat kegagalan. Tiga jenis data membeli hal yang berbeda============= Dalam klasifikasi Garg, data Physical AI secara garis besar dibagi menjadi tiga kategori: data observasi, data intervensi, dan data penerapan. Semuanya mungkin berguna, tetapi biaya, kendala, dan kepadatan informasi sangat berbeda. Kategori pertama adalah data observasi, misalnya video orang pertama atau orang ketiga. Keunggulannya adalah biaya rendah dan cakupan luas, membantu model memahami objek, ruang, hasil aksi, dan distribusi lingkungan. Kelemahannya jelas: model dapat melihat apa yang terjadi pada manusia atau objek, tetapi belum tentu mengetahui aksi apa yang harus dikeluarkan robot dalam suatu keadaan. Kategori kedua adalah data intervensi, yaitu lintasan keadaan-ke-aksi yang dihasilkan dari teleoperasi, demonstrasi, dan intervensi manual. Data semacam ini lebih langsung untuk pelatihan robotik, karena mengandung rantai "melihat apa, bergerak bagaimana, apa yang terjadi setelah bergerak". Konsekuensinya adalah setiap lintasan berkualitas tinggi harus dibayar mahal; biaya tenaga kerja dan perangkat sulit menurun secepat data perangkat lunak. Kategori ketiga adalah data penerapan, yaitu data telemetri yang dihasilkan saat robot beroperasi di skenario komersial nyata. Ini terdengar paling dekat dengan roda data komersial: robot bekerja, menghasilkan uang, dan menghasilkan data pelatihan secara bersamaan. Namun ada jebakan statistik di sini. Skenario robotik yang pertama kali diimplementasikan saat ini biasanya juga merupakan skenario dengan sedikit perubahan, alur paling tetap, dan risiko paling terkendali, misalnya gudang yang sangat terstruktur, pabrik, atau lingkungan tugas tunggal. Jumlah data produksi semacam ini mungkin besar, tetapi distribusinya sempit dan pengulangannya tinggi. Setelah model mempelajari keteraturan lokal, setiap jam operasi tambahan akan membawa penurunan informasi baru. Data penerapan bukannya tanpa nilai. Yang benar-benar berharga seringkali bukan sejumlah besar segmen rutin "berhasil menyelesaikan tugas", melainkan kegagalan, kemacetan, objek abnormal, kondisi batas, dan gangguan langka. Masalahnya, sampel ekor panjang ini tidak muncul secara stabil sesuai keinginan perusahaan; biaya penemuan, penyaringan, dan peninjauan ulang juga lebih tinggi. Lebih banyak data berguna, tetapi sampel berulang akan menjadi mahal dengan cepat================= Garg cukup hati-hati dalam meminjam hukum penskalaan model bahasa: peningkatan data biasanya menyebabkan penurunan kerugian model, tetapi hasil yang semakin berkurang. Jika sampel berulang, hampir berulang, atau berasal dari distribusi sempit yang sama, bantuan data baru akan berkurang lebih cepat. Dalam bidang robotik, masalah ini lebih intuitif. Seekor robot belajar mengambil kotak kemasan tetap dari rak tetap; ribuan demonstrasi, kegagalan, dan koreksi pertama mungkin sangat berharga. Begitu aksi, objek, pencahayaan, dan jalur telah dikumpulkan berulang kali, data baru lebih seperti menyalin pengalaman lokal yang sudah dipelajari. Pelatihan model bahasa sudah memiliki pengalaman serupa: data berulang dan hampir berulang dapat membuang anggaran pelatihan, dan pengulangan berlebihan bahkan dapat merusak generalisasi. Garg tidak langsung menerapkan kesimpulan ini ke pelatihan robotik, tetapi menggunakannya untuk menunjukkan arah: mengukur nilai data tidak bisa hanya melihat kuantitas, tetapi juga seberapa besar perbedaan antar sampel. Bagi Physical AI, keragaman setidaknya memiliki dua arti. Pertama, membuat model melihat lebih banyak objek, ruang, material, pencahayaan, halangan, dan cara operasi. Kedua, menghindari model yang berkinerja baik dalam distribusi tugas yang terlalu sederhana, namun gagal saat beralih ke skenario yang sedikit berbeda. Oleh karena itu, kasus kegagalan ekor panjang menjadi krusial. Dunia fisik nyata tidak terdistribusi secara seragam; anomali frekuensi rendah sering menentukan kelayakan komersial: objek ditempatkan sedikit miring, kemasan berubah bentuk, permukaan memantulkan cahaya, gripper tergelincir, manusia tiba-tiba campur tangan, sensor melewatkan pandangan, perubahan gesekan lantai. Betapapun baiknya model pada sampel biasa, jika tidak dapat menangani peristiwa ekor ini, penerapan akan terhambat oleh sedikit kegagalan. Roda penerapan berjalan, membutuhkan skenario awal yang cukup "baru"================== Artikel ini benar-benar menantang jalur komersialisasi umum perusahaan kecerdasan berwujud: pertama menerapkan robot di skenario sempit, menggunakan kendali jarak jauh manusia untuk memastikan ketersediaan, mengumpulkan data produksi, kemudian menggunakan data ini untuk melatih model yang lebih kuat, membuka lebih banyak skenario. Garg menyebut jalur ini sebagai pendekatan "neo-integrator". Ini mencoba menghindari biaya pengumpulan data murni, menempatkan robot dalam produksi komersial, membiarkan pendapatan operasi mengimbangi biaya data. Dibandingkan dengan membangun pabrik teleoperasi khusus, jalur ini terdengar lebih efisien. Namun roda memiliki prasyarat: data yang dihasilkan oleh skenario komersial awal harus cukup baru, cukup beragam, untuk membantu model mentransfer ke lebih banyak tugas. Jika skenario penerapan hanya tugas sempit dengan perubahan rendah, entropi rendah, dan rekayasa kustomisasi kuat, data akan cepat jenuh. Perusahaan mungkin mendapatkan bukan roda kemampuan universal, melainkan serangkaian proyek kustom yang memerlukan integrasi, pemeliharaan, dan penanganan anomali berkelanjutan. Ini membawa dua jenis biaya. Pertama, setiap kali memasuki skenario baru, perlu investasi dalam modifikasi lingkungan, adaptasi alur, jaring pengaman kegagalan, dan mekanisme keselamatan. Kedua, jika penerapan itu sendiri belum mencapai titik impas, memperluas skala belum tentu mengumpulkan data berbiaya rendah, tetapi mungkin menggunakan kerugian untuk memperoleh sejumlah besar sampel dengan kebaruan rendah. Jadi, penerapan awal tidak berguna, tetapi perlu dilihat lebih rinci: berapa banyak cakupan tugas baru yang dibawanya, berapa banyak sampel kegagalan dan anomali yang dihasilkan, apakah sampel ini dapat ditransfer ke skenario lain, setelah dikurangi biaya perangkat keras, tenaga kerja, pemeliharaan, dan integrasi, berapa banyak peningkatan model yang diperoleh setiap dolar. Narasi valuasi tidak boleh hanya menanyakan berapa jam yang terkumpul============== Saran Garg bukan untuk berhenti mengumpulkan data, tetapi untuk mengganti ukuran evaluasi. Jam operasi kumulatif, jam teleoperasi, dan jumlah lintasan dapat digunakan sebagai indikator operasional, tetapi tidak boleh langsung dianggap setara dengan kemajuan model. Pertanyaan yang lebih menjelaskan meliputi: kapan data satu tugas mencapai kejenuhan, berapa biaya integrasi rekayasa untuk menambahkan tugas baru, berapa banyak skenario dan klaster aksi yang dicakup data, berapa banyak data produksi adalah penyimpangan distribusi dan sampel anomali sejati, berapa banyak segmen sukses rutin dalam aliran penerapan yang harus disaring alih-alih terus diumpankan ke model. Sesuai dengan tiga jenis data, alokasi modal juga akan berbeda. Data observasi harus memprioritaskan biaya rendah, keragaman, dan cakupan luas, digunakan untuk memperluas batas kemampuan dasar. Data teleoperasi dan demonstrasi berbiaya tinggi, setelah mencapai kejenuhan tugas, anggaran harus dialihkan ke lebih banyak tugas, bukan terus mengulang aksi yang sama. Data penerapan harus menyaring kegagalan, kondisi batas, dan sampel di luar distribusi, membuang sejumlah besar catatan operasi rutin dengan kepadatan informasi rendah. Pandangan ini memiliki dampak nyata pada narasi valuasi Physical AI. Sebuah perusahaan dengan lebih banyak robot, waktu operasi lebih lama, tim teleoperasi lebih besar, tidak secara otomatis berarti memiliki hambatan model yang lebih kuat. Kemampuan yang lebih sulit direplikasi mungkin adalah terus menemukan data ekor panjang bernilai tinggi, menilai kapan suatu jenis data mencapai kejenuhan, dan menutupi lebih banyak distribusi tugas dengan biaya lebih rendah. Namun, ini masih merupakan perspektif alokasi modal, bukan kesimpulan industri. Apakah model robotik akan mengalami pengembalian skala serupa dengan model bahasa, apakah data penerapan dapat terus menghasilkan informasi baru di beberapa skenario berdimensi tinggi, seberapa efisien transfer antar tugas yang berbeda, semua masih perlu dijawab dengan lebih banyak hasil empiris. Pengingat Garg jatuh pada pertanyaan yang lebih spesifik: "Indikator Moneyball" untuk Physical AI mungkin bukan jam data, tetapi sampel baru per dolar. Bagi perusahaan robotik yang masih menggunakan roda data dalam ceritanya, pasar pada akhirnya mungkin tidak melihat seberapa lama waktu operasi kumulatif, tetapi berapa banyak informasi baru yang dihasilkan dalam waktu tersebut. Klik untuk memahami posisi yang dibutuhkan oleh BlockBeats **Selamat bergabung dengan komunitas resmi BlockBeats:**Grup berlangganan Telegram: https://t.me/theblockbeatsGrup diskusi Telegram: https://t.me/BlockBeats_AppAkun resmi Twitter: https://twitter.com/BlockBeatsAsia

Roda data atau sampel berulang? AI Fisik harus mengucapkan selamat tinggal pada "pemujaan jam".

"Jam data" mungkin merupakan takhayul tingkat pukulan industri robotik

Tiga jenis data membeli hal yang berbeda

Lebih banyak data berguna, tetapi sampel berulang akan menjadi mahal dengan cepat

Roda penerapan berjalan, membutuhkan skenario awal yang cukup "baru"

Narasi valuasi tidak boleh hanya menanyakan berapa jam yang terkumpul

Topik Trending

SKHynixTopsKOSPIByMarketCap

SaylorHintsAtMoreBTC

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

SolanaEcosystemANSEMSurges

Disematkan