Roda data? Sampel berulang? Robot harus meninggalkan "pemujaan jam kerja".

Question

Seorang peneliti robotika dari Universitas Toronto yang juga menjabat di Georgia Tech, Animesh Garg, dalam sebuah artikel berjudul "Moneyball for Physical AI", membandingkan perlombaan data untuk kecerdasan yang mewujud (embodied AI) dengan momen "Moneyball" dalam sejarah bisbol.

Ia ingin menantang narasi pendanaan yang semakin umum: perusahaan robotika hanya perlu menumpuk lebih banyak operasi jarak jauh, lebih banyak penerapan nyata, dan lebih banyak jam operasi untuk membentuk roda gila data. Bagi investor, ini bukan perdebatan akademis semata. Biaya struktur, kecepatan komersialisasi, dan hambatan model perusahaan kecerdasan yang mewujud seringkali dibungkus dalam empat kata: "lingkaran tertutup data". Jika akumulasi jam tidak sama dengan kemajuan model yang efektif, pasar perlu menilai kembali aset data perusahaan-perusahaan ini.

"Jam Data" Mungkin Takhayul Tingkat Pukulan Industri Robotika

Garg menggunakan analogi klasik dari Moneyball. Pada tahun 2002, Oakland Athletics memenangkan 103 pertandingan dengan salah satu skuad dengan gaji terendah di liga, bukan dengan membeli pemain yang lebih mahal, tetapi dengan menemukan bahwa pasar salah menilai nilai pemain. Pramuka tradisional lebih mementingkan rata-rata pukulan, mencuri base, dan postur, tetapi indikator yang lebih baik untuk menjelaskan kemampuan mencetak skor tim adalah on-base percentage.

Menurutnya, Physical AI mungkin juga berada pada tahap yang sama. Industri mengakui bahwa data adalah kebutuhan untuk menuju model robot universal, tetapi mudah untuk menjadikan metrik yang paling mudah ditampilkan sebagai metrik yang paling penting: total jam operasi jarak jauh, jumlah lintasan demonstrasi, jumlah robot yang diterapkan, dan durasi operasi di lingkungan produksi.

Cara penyediaan data robotika dan data teks tidaklah sama. Model bahasa besar dapat memperoleh data teks dalam jumlah besar dengan biaya rendah dari internet, repositori kode, buku, dan halaman web, dengan hambatan lebih banyak berasal dari daya komputasi, pembersihan, dan efisiensi pelatihan. Model robotika membutuhkan data yang melibatkan interaksi fisik, umpan balik tindakan, dan perubahan lingkungan; setiap jam data yang efektif harus diciptakan secara nyata, yang di belakangnya terkait dengan perangkat, tenaga kerja, lokasi, sensor, penanganan kegagalan, dan biaya keamanan.

Peneliti robotika Ken Goldberg pernah menggunakan istilah "100.000-year data gap" untuk menggambarkan kesenjangan antara data robotika dan data AI skala internet. Lebih tepatnya, data teks dan gambar yang dikonsumsi dalam pelatihan model visi-bahasa besar kontemporer, jika dikonversi ke waktu baca atau tonton manusia, setara dengan sekitar 100.000 tahun, sementara robotika kekurangan data interaksi nyata dalam skala yang sama. Pernyataan ini tidak memberikan batasan yang tepat untuk model robotika, tetapi mengingatkan industri: data interaksi dunia nyata tidak dapat diperoleh dengan biaya rendah seperti teks web.

Ini juga alasan Garg menentang narasi "operasi jarak jauh seperti pabrik keringat". Operasi jarak jauh manusia dalam jumlah besar memang dapat menghasilkan sampel pelatihan yang padat tindakan, tetapi jika perusahaan hanya mengevaluasi data berdasarkan total jam, dana mungkin mengalir ke sampel yang berulang, dengan tingkat kesulitan rendah, dan kepadatan informasi rendah, bukan ke skenario yang paling mampu mengurangi tingkat kegagalan.

Tiga Jenis Data Membeli Hal yang Berbeda

Dalam klasifikasi Garg, data Physical AI secara garis besar dibagi menjadi tiga kategori: data observasi, data intervensi, dan data penerapan. Semuanya mungkin berguna, tetapi biaya, kendala, dan kepadatan informasinya sangat bervariasi.

Kategori pertama adalah data observasi, misalnya video orang pertama atau orang ketiga. Keuntungannya adalah biaya rendah, cakupan luas, dan dapat membantu model memahami objek, ruang, hasil tindakan, dan distribusi lingkungan. Kelemahannya jelas: model dapat melihat apa yang terjadi pada manusia atau objek, tetapi belum tentu tahu tindakan apa yang harus dikeluarkan robot dalam keadaan tertentu.

Kategori kedua adalah data intervensi, yaitu lintasan dari keadaan ke tindakan yang dihasilkan melalui operasi jarak jauh, demonstrasi, dan campur tangan manusia. Data ini lebih langsung untuk pelatihan robotika karena mengandung rantai "melihat apa, bagaimana bergerak, apa yang terjadi setelah bergerak". Konsekuensinya adalah setiap lintasan berkualitas tinggi harus dibeli dengan uang; biaya tenaga kerja dan perangkat sulit turun secepat data perangkat lunak.

Kategori ketiga adalah data penerapan, yaitu data telemetri yang dihasilkan saat robot beroperasi di lingkungan komersial nyata. Ini terdengar paling dekat dengan roda gila komersial: robot bekerja, menghasilkan uang, dan menghasilkan data pelatihan secara bersamaan. Namun, ada jebakan statistik di sini.

Skenario robotika yang pertama kali diterapkan saat ini biasanya juga merupakan skenario dengan sedikit perubahan, prosedur paling tetap, dan risiko paling terkendali, misalnya gudang yang sangat terstruktur, pabrik, atau lingkungan tugas tunggal. Data produksi semacam ini mungkin berjumlah besar, tetapi distribusinya sempit, dan tingkat pengulangannya tinggi. Setelah model mempelajari aturan lokal, setiap jam operasi tambahan akan memberikan informasi baru yang semakin berkurang.

Data penerapan bukannya tanpa nilai. Yang benar-benar berharga seringkali bukanlah sejumlah besar segmen reguler "berhasil menyelesaikan tugas", melainkan kegagalan, kemacetan, objek abnormal, kondisi batas, dan gangguan langka. Masalahnya adalah sampel ekor panjang ini tidak muncul secara stabil sesuai ritme yang diinginkan perusahaan; biaya untuk menemukan, menyaring, dan meninjaunya juga lebih tinggi.

Lebih Banyak Data Berguna, Tapi Sampel Berulang Cepat Menjadi Mahal

Garg cukup hati-hati dalam meminjam skala hukum model bahasa: peningkatan data biasanya menyebabkan penurunan kerugian model, tetapi hasil yang semakin berkurang. Jika sampel berulang, hampir berulang, atau berasal dari distribusi sempit yang sama, bantuan dari data baru akan lebih cepat mengecil.

Dalam ranah robotika, masalah ini lebih jelas. Sebuah robot yang belajar mengambil kotak kemasan tetap dari rak tetap, ribuan demonstrasi, kegagalan, dan koreksi pertama mungkin sangat berharga. Setelah tindakan, objek, pencahayaan, dan lintasan telah dikumpulkan berulang kali, data baru lebih seperti menyalin pengalaman lokal yang sudah dipelajari.

Dalam pelatihan model bahasa, sudah ada pengalaman serupa: data berulang dan hampir berulang membuang anggaran pelatihan, dan pengulangan berlebihan bahkan dapat merusak generalisasi. Garg tidak langsung menerapkan kesimpulan ini ke pelatihan robotika, tetapi menggunakannya untuk menggambarkan arah: mengukur nilai data tidak hanya melihat kuantitas, tetapi juga seberapa besar perbedaan antar sampel.

Bagi Physical AI, keragaman setidaknya memiliki dua arti. Pertama, membuat model melihat lebih banyak objek, ruang, material, pencahayaan, penghalang, dan cara operasi. Kedua, menghindari model yang berkinerja baik dalam distribusi tugas yang terlalu sederhana tetapi gagal dalam skenario yang sedikit berbeda.

Kasus kegagalan ekor panjang menjadi krusial. Dunia fisik nyata tidak terdistribusi secara merata; anomali frekuensi rendah sering menentukan ketersediaan komersial: penempatan objek sedikit miring, kemasan berubah bentuk, permukaan memantulkan cahaya, cengkeraman tergelincir, seseorang tiba-tiba campur tangan, sensor tidak mendeteksi, gesekan lantai berubah. Tidak peduli seberapa baik model berkinerja pada sampel reguler, jika tidak dapat menangani peristiwa-peristiwa ekor ini, penerapan masih akan terhambat oleh sedikit kegagalan.

Roda Gila Penerapan Berhasil, Perlu Skenario Awal yang Cukup "Baru"

Apa yang benar-benar ditantang artikel ini adalah jalur komersialisasi umum perusahaan kecerdasan yang mewujud: pertama terapkan robot di skenario sempit, gunakan pengambilan jarak jauh manusia untuk menjamin ketersediaan, sambil mengumpulkan data produksi, lalu gunakan data ini untuk melatih model yang lebih kuat, membuka lebih banyak skenario.

Garg menyebut jalur ini sebagai pendekatan "neo-integrator". Ini mencoba menghindari biaya pengumpulan data murni, menempatkan robot ke dalam produksi komersial, dan membiarkan pendapatan operasi menutupi biaya data. Dibandingkan dengan mendirikan pabrik operasi jarak jauh khusus, jalur ini terdengar lebih efisien.

Namun, roda gila memiliki satu prasyarat: data yang dihasilkan oleh skenario komersial awal harus cukup baru dan cukup beragam untuk membantu model mentransfer ke lebih banyak tugas. Jika skenario penerapan hanya tugas sempit dengan perubahan rendah, entropi rendah, dan rekayasa kustomisasi tinggi, data akan cepat jenuh. Perusahaan mungkin tidak mendapatkan roda gila kemampuan umum, tetapi serangkaian proyek kustom yang membutuhkan integrasi berkelanjutan, pemeliharaan, dan penanganan pengecualian.

Ini akan menimbulkan dua jenis biaya. Pertama, setiap memasuki skenario baru, perlu investasi dalam modifikasi lingkungan, adaptasi proses, jaring pengaman kegagalan, dan mekanisme keamanan. Kedua, jika penerapan itu sendiri belum mencapai titik impas, memperluas skala belum tentu mengumpulkan data dengan biaya rendah, tetapi mungkin menggunakan kerugian untuk menukar sejumlah besar sampel dengan kebaruan rendah.

Jadi, penerapan awal bukannya tidak berguna, tetapi perlu dilihat lebih rinci: berapa banyak cakupan tugas baru yang dihasilkan, berapa banyak sampel kegagalan dan anomali yang dihasilkan, apakah sampel ini dapat ditransfer ke skenario lain, dan setelah dikurangi biaya perangkat keras, tenaga kerja, pemeliharaan, dan integrasi, berapa banyak peningkatan model yang dibeli setiap dolar.

Narasi Valuasi Tidak Bisa Hanya Bertanya Berapa Jam Terkumpul

Saran yang diberikan Garg bukanlah berhenti mengumpulkan data, tetapi mengganti metrik evaluasi. Total jam operasi, jam operasi jarak jauh, dan jumlah lintasan dapat digunakan sebagai metrik operasional, tetapi tidak boleh langsung disamakan dengan kemajuan model.

Pertanyaan yang lebih eksplanatif meliputi: kapan data untuk satu tugas menjadi jenuh, berapa biaya integrasi rekayasa untuk menambahkan satu tugas baru, berapa banyak skenario dan klaster tindakan berbeda yang dicakup data, berapa banyak data produksi yang merupakan penyimpangan distribusi nyata dan sampel anomali, berapa banyak segmen sukses reguler dalam aliran penerapan yang harus difilter daripada terus dimasukkan ke model.

Sesuai dengan tiga jenis data, alokasi modal juga akan berbeda. Data observasi harus memprioritaskan biaya rendah, keragaman, dan cakupan luas untuk memperluas batas kemampuan dasar. Data operasi jarak jauh dan demonstrasi dengan biaya tinggi, setelah mencapai kejenuhan tugas tunggal, harus mengalihkan anggaran ke lebih banyak tugas, bukan terus mengulangi tindakan yang sama. Data penerapan harus difokuskan pada penyaringan kegagalan, kondisi batas, dan sampel di luar distribusi, serta membuang sejumlah besar catatan operasi reguler dengan kepadatan informasi rendah.

Pandangan ini memiliki dampak nyata pada narasi valuasi Physical AI. Sebuah perusahaan dengan lebih banyak robot, waktu operasi lebih lama, tim operasi jarak jauh lebih besar, tidak secara otomatis mewakili hambatan model yang lebih kuat. Kemampuan yang lebih sulit direplikasi mungkin adalah terus menemukan data ekor panjang bernilai tinggi, menilai kapan suatu jenis data jenuh, dan mencakup lebih banyak distribusi tugas dengan biaya lebih rendah.

Namun, ini masih merupakan perspektif alokasi modal, belum menjadi kesimpulan industri. Apakah model robotika akan menunjukkan skala hasil serupa dengan model bahasa, apakah data penerapan dapat terus menghasilkan informasi baru dalam skenario berdimensi tinggi tertentu, seberapa efisien transfer antar tugas yang berbeda, semuanya masih perlu dijawab dengan lebih banyak hasil empiris.

Peringatan Garg jatuh pada pertanyaan yang lebih spesifik: "Metrik Moneyball" untuk Physical AI mungkin bukan jam data, tetapi sampel baru yang dibeli setiap dolar. Bagi perusahaan robotika yang masih bercerita tentang roda gila data, pasar pada akhirnya mungkin tidak melihat berapa lama waktu operasi kumulatif, tetapi berapa banyak informasi baru yang dihasilkan selama waktu itu.

Lihat Asli

Roda data? Sampel berulang? Robot harus meninggalkan "pemujaan jam kerja".

"Jam Data" Mungkin Takhayul Tingkat Pukulan Industri Robotika

Tiga Jenis Data Membeli Hal yang Berbeda

Lebih Banyak Data Berguna, Tapi Sampel Berulang Cepat Menjadi Mahal

Roda Gila Penerapan Berhasil, Perlu Skenario Awal yang Cukup "Baru"

Narasi Valuasi Tidak Bisa Hanya Bertanya Berapa Jam Terkumpul

Topik Trending

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

USMayPCEInflationRisesTo4.1%HighestIn3Years

Disematkan