Menggerakkan massa manusia untuk masuk, Jingdong bermaksud "meramu elixir" dengan data embodied

2026-03-18 08:06:15

16 Maret, pengumuman dari JD.com tentang pembangunan pusat pengumpulan data kecerdasan embodied terbesar di dunia dan paling lengkap dalam berbagai skenario, menjadi sorotan utama di jalur robotik yang sempat terdiam dan kalah bersinar oleh perhatian terhadap lobster.

Dalam arti tertentu, ini adalah gerakan produksi data besar yang sangat berwarna industri internet industri.

Mobilisasi ini melibatkan lebih dari 100.000 karyawan internal, hingga 500.000 pekerja dari berbagai industri di luar, bahkan di Suqian saja melibatkan lebih dari 100.000 warga—Strategi massal yang belum pernah terjadi sebelumnya ini, berusaha menggunakan estetika kekerasan skala besar untuk secara paksa menembus kelemahan paling fatal dari kecerdasan embodied saat ini: kekurangan data.

Di era di mana arsitektur model semakin konvergen dan ambang daya komputasi relatif transparan, data interaksi fisik berkualitas tinggi telah menjadi satu-satunya kunci kemenangan untuk memastikan robot benar-benar mampu menyebar ke berbagai industri.

Di balik gerakan yang didefinisikan sebagai “aksi pengumpulan data terbesar dalam sejarah manusia” ini, terungkap sebuah konsensus industri: ketika “otak kecil” yang bertanggung jawab atas kontrol gerak dalam kecerdasan embodied semakin berkembang, bagaimana memberi makan data berkualitas tinggi agar menghasilkan otak yang benar-benar memahami dunia fisik, menjadi inti dari pertarungan masa depan industri.

Dari narasi besar JD menuju realitas mikro industri, data yang dihasilkan oleh puluhan ribu orang ini masih sangat sulit dipastikan apakah merupakan tambang emas atau kerikil biasa.

Keterlibatan Pekerja

Alasan JD berani dan harus memulai perang massal pengumpulan data ini berakar pada rantai pasokan fisik yang besar dan sangat kompleks yang mereka miliki.

Berbeda dari perusahaan internet berbasis perangkat lunak murni, JD sendiri adalah sebuah dunia interaksi fisik yang besar, dan kematangan kecerdasan embodied secara langsung berkaitan dengan biaya pemenuhan dan efisiensi operasional mereka selama sepuluh tahun ke depan.

Pengaturan ini sangat terkait dengan ekosistem industri robot di Beijing Yizhuang.

Zona Pengembangan Ekonomi dan Teknologi Yizhuang saat ini telah mengumpulkan lebih dari 300 perusahaan terkait robot, dengan nilai rantai industri lebih dari 10 miliar yuan, membuka lebih dari 40 skenario aplikasi nyata, dan menjadi pusat utama industri robot humanoid domestik. Sebagai perusahaan yang berakar di Yizhuang, JD sebelumnya telah merilis rencana percepatan industri robot.

Investasi besar JD dalam pusat pengumpulan data dan infrastruktur lunak lainnya sebenarnya adalah upaya mengisi kekurangan paling kritis dalam rantai industri. Yizhuang menyediakan “tubuh” dan area pengujian, sementara JD berusaha menanamkan pengetahuan tentang dunia nyata ke dalam robot melalui skenario yang melimpah.

Kombinasi sinergi antara perangkat keras dan lunak ini berusaha membangun sebuah siklus bisnis tertutup dari data yang mengalir ke iterasi perangkat keras.

Pengaturan puluhan ribu orang ini bukanlah hal yang mudah.

Menurut rencana, skenario pengumpulan mencakup logistik, industri, ritel, dan lain-lain. Dalam praktiknya, ini sangat bergantung pada jaringan manajemen digital JD yang sudah ada. Misalnya, pekerja pengiriman dan petugas penyortiran di garis depan memakai perangkat wearable yang dilengkapi sensor visual, bahkan sensor kekuatan, untuk melakukan tugas harian mereka.

Dari sudut pandang karyawan garis depan dan warga Suqian yang dilibatkan, gerakan ini penuh dengan kompleksitas.

Karyawan secara tidak langsung menjadi “guru data” bagi robot, yang targetnya di masa depan adalah menggantikan tenaga manusia yang berintensitas tinggi. Bagaimana merancang insentif dan mekanisme distribusi manfaat yang adil agar resistensi karyawan dapat diminimalkan menjadi tantangan yang harus dipikirkan JD.

Namun, bagaimana implementasinya secara spesifik saat ini masih belum menyebar ke tingkat karyawan.

Seorang karyawan JD di Beijing mengatakan kepada Wall Street Journal bahwa dia belum mendengar tentang hal ini. Menurutnya, jika ada imbalan yang sesuai, itu bisa dianggap sebagai bagian dari pasar, dan keinginan karyawan untuk berpartisipasi tergantung pilihan pribadi. Seorang karyawan JD di Suqian juga menyatakan belum menerima pemberitahuan resmi.

Meskipun dalam pengumuman resmi disebutkan bahwa “pengumpulan semua data akan dilakukan sesuai hukum dan peraturan,” kenyataannya situasi seringkali jauh lebih kompleks.

Dalam skenario pengiriman, jalur gudang adalah standar, tetapi pengiriman ke rumah-rumah dan skenario ritel melibatkan banyak fitur wajah dan privasi konsumen.

Di tengah ketatnya regulasi data saat ini, biaya kepatuhan untuk menghapus identitas dan membersihkan data tidak terstruktur yang dikumpulkan dari puluhan ribu orang ini bisa menjadi angka yang sangat besar.

Membongkar Paradoks Moravec

Pada tahun 1988, ahli robot Hans Moravec menyimpulkan:

“Membuat komputer mencapai tingkat kecerdasan manusia dalam tes IQ atau permainan catur sangat mudah, tetapi memberinya kemampuan persepsi dan gerak seperti bayi usia satu tahun sangat sulit, bahkan hampir tidak mungkin.”

Hari ini, kecerdasan embodied terutama mencerminkan tantangan dalam kekosongan data industri.

Keberhasilan model besar saat ini didasarkan pada konsumsi langsung dari triliunan teks berkualitas tinggi yang dikumpulkan selama tiga puluh tahun dari internet. Tapi dunia fisik tidak memiliki internet yang setara. Agar kecerdasan embodied dapat berjalan dan berkembang sesuai hukum skala di dunia nyata, dihadapkan pada tembok data yang sangat tinggi.

Langkah besar JD kali ini menargetkan titik tumpu tersebut dan tantangan pengumpulan data di baliknya.

Pertama, masalah keterbatasan simulasi yang harus diatasi.

Saat ini, jalur utama pengumpulan data industri telah mengalami perpecahan serius dan berjuang di berbagai titik bottleneck.

Sebagian besar startup sangat bergantung pada lingkungan simulasi, seperti Nvidia Isaac Sim atau MuJoCo, yang memungkinkan robot melakukan pembelajaran penguatan miliaran kali di dunia virtual. Metode ini sangat murah, cepat, dan tidak perlu khawatir kerusakan perangkat keras akibat kesalahan.

Namun, para praktisi yang berpengalaman semakin menyadari keterbatasan “Sim-to-Real (dari simulasi ke dunia nyata).”

Kompleksitas dunia fisik tidak hanya terletak pada perubahan cahaya dan bayangan visual, tetapi juga pada feedback kontak fisik yang sangat halus, seperti deformasi kabel yang lentur, tarikan non-rigid pada pakaian, gesekan kecil saat mengencangkan sekrup, bahkan noise elektromagnetik pada sensor.

Saat ini, kekuatan mesin fisik tidak mampu secara sempurna mensimulasikan hukum fisika mikro yang tinggi dimensi dan non-linear ini. Akibatnya, banyak model yang tampil sempurna di simulasi, tetapi mengalami “serangan otak” atau distorsi gerak saat diterapkan di dunia nyata.

Karena ada jurang antara simulasi dan kenyataan, kembali ke dunia nyata adalah solusi.

Dari Mobile ALOHA yang viral di Stanford, hingga perusahaan terkemuka seperti Figure AI, Yushu, dan Zhiyuan, semuanya menggunakan banyak remote operation—di mana manusia memakai pakaian motion capture atau perangkat VR untuk mengendalikan robot seperti mengendalikan avatar, merekam data visual dari sudut pandang orang pertama, sudut sendi, dan gaya.

Ini adalah metode pengumpulan data berkualitas tertinggi yang diakui saat ini, tetapi menghadapi masalah kedua dalam pengumpulan data secara komersial, yaitu ketidakefisienan biaya.

Menurut perkiraan industri, biaya perangkat keras satu robot humanoid lengkap bisa mencapai puluhan hingga ratusan ribu yuan, dan pengumpulan data melalui remote operation tidak hanya memerlukan biaya depresiasi perangkat keras yang tinggi, tetapi juga biaya tenaga kerja operator profesional yang mahal.

Wall Street Journal mengetahui bahwa biaya pengumpulan dan pembersihan data interaksi kompleks berkualitas tinggi bisa mencapai ratusan dolar per data, dan tingkat kegagalannya sangat tinggi.

Model data yang dibuat secara manual dan berulang ini tidak mampu mendukung skala parameter ratusan miliar atau triliunan yang diperlukan untuk kecerdasan embodied yang umum.

Untuk menurunkan hambatan, perusahaan raksasa seperti Google meluncurkan dataset open source seperti Open X-Embodiment, berusaha mengumpulkan data dari berbagai laboratorium global untuk digunakan seluruh industri. Di dalam negeri, beberapa perusahaan juga merilis dataset nyata berukuran jutaan jam secara open source.

Namun, di balik ini tersembunyi tantangan besar lain dalam pengumpulan data, yaitu fragmentasi ekstrem dari perangkat keras robot itu sendiri. Dog-shaped, beroda, humanoid dua kaki, bahkan berbagai merek robot humanoid memiliki tingkat kebebasan sendi, torsi motor, tata letak sensor, dan pusat gravitasi yang sama sekali berbeda.

Data pengambilan dari satu robot yang dilatih di UR5 tidak bisa langsung dipakai untuk robot logistik seperti Tesla Optimus atau robot JD.

Kesulitan “pemetaan antar perangkat” ini menyebabkan sebagian besar dataset open source menjadi pulau-pulau terpisah yang sulit membentuk efek skala.

Mungkin di bawah tiga tantangan besar tersebut, logika kompetisi bisnis di jalur kecerdasan embodied telah mengalami perubahan mendasar: siapa yang memiliki skenario nyata di lapangan, dia yang akan memiliki keunggulan dalam pengumpulan data tertutup yang murah dan berkualitas tinggi secara berkelanjutan.

Ini menjelaskan mengapa Tesla dan JD memilih jalur berbeda dari startup perangkat keras murni lainnya.

Tesla memanfaatkan pabrik super besar mereka agar Optimus langsung belajar dan beradaptasi di jalur penyortiran baterai secara nyata; sementara JD berusaha membangun jalur data semi-otomatis melalui jaringan logistik nasional, puluhan ribu pekerja industri, dan sistem ritel fisik yang besar.

Strategi ini mengubah hambatan rantai pasokan perusahaan menjadi hambatan data di era AI.

Sebaliknya, banyak startup robot tanpa skenario sendiri harus bertransformasi—baik dengan menjual perangkat keras ke universitas dan lembaga riset dengan harga murah untuk mendapatkan data bersama, atau menyewa tempat di pabrik dan merekrut perusahaan data kecerdasan embodied seperti JianZhi untuk membuat data khusus.

Dapat dikatakan, keikutsertaan JD secara drastis membuka tabir algoritma di industri kecerdasan embodied, memasukkannya ke dalam periode perang aset berat yang mengandalkan dana, skenario, dan tenaga manusia.

Di tengah kekurangan data, keunggulan algoritma semakin memudar, sementara raksasa yang menguasai akses interaksi fisik dunia nyata secara diam-diam memperkuat jaring menuju AGI.

Data Berkualitas Lebih Tinggi dan Lebih Langka

Menghadapi rencana JD untuk mengumpulkan lebih dari 10 juta jam data skenario nyata dalam dua tahun, reaksi industri tidak sepenuhnya antusias, melainkan lebih kepada penilaian yang tenang.

Dalam konteks kecerdasan embodied, kualitas dan modalitas data jauh lebih penting daripada sekadar durasi.

Industri algoritma menunjukkan bahwa masalah utama saat ini bukanlah video perspektif orang pertama dari manusia, melainkan “pasangan status-aksi” yang mengandung umpan balik fisik yang akurat.

Misalnya, warga Suqian yang membawa kamera berkeliling supermarket, atau kurir yang merekam proses pengantaran, menghasilkan data visual yang sangat besar dan umum dari internet.

Data ini sangat berharga untuk melatih model dunia robot, agar mereka memahami apa itu pintu, apa itu apel—namun sangat tidak efektif untuk melatih “strategi kontrol” robot, seperti berapa banyak gaya Newton yang harus digunakan untuk memegang apel tanpa merusaknya.

Seorang praktisi robot mengatakan kepada Wall Street Journal bahwa yang dibutuhkan robot adalah data yang bernilai, terutama data nyata dari robot itu sendiri. Menurutnya, langkah JD ini lebih mirip outsourcing proses bisnis (BPO), menyediakan tenaga dan tempat.

Saat manusia melakukan pengambilan fisik, mereka melibatkan sensasi taktil, kekuatan, dan penyesuaian koordinat ruang yang sangat kompleks, yang tidak bisa ditangkap oleh perangkat wearable biasa. Jika puluhan ribu tenaga JD hanya menyumbangkan video, tingkat konversi data menjadi gerakan robot yang dapat dieksekusi akan sangat tinggi.

Seorang kepala perusahaan robot terkemuka di dalam negeri juga menyatakan bahwa masalah utama industri adalah “kurangnya standar definisi dataset yang seragam.”

Misalnya, setiap perusahaan robot memiliki tingkat kebebasan sendi, posisi sensor, jenis penggerak yang berbeda. Bagaimana data gerakan manusia yang sangat banyak ini dapat dipetakan ke berbagai konfigurasi robot yang berbeda?

Tanpa standar dasar yang seragam, 10 juta jam data ini akhirnya hanya akan menjadi nutrisi pribadi untuk robot buatan JD, dan sulit menjadi infrastruktur yang mendorong kemajuan industri secara keseluruhan.

Ini mungkin alasan utama mengapa JD dalam rencana tahun pertama secara khusus menekankan pengumpulan “100.000 jam data robot.” Arah pengembangan industri yang sebenarnya adalah menggunakan video generalisasi manusia untuk pretraining, data robot berkualitas tinggi untuk fine-tuning, dan reinforcement learning untuk evolusi dan iterasi.

Pengumuman JD tentang pembangunan pusat pengumpulan data kecerdasan embodied menandai dimulainya upaya perusahaan domestik untuk mengatasi kekurangan data industri robot secara skala besar dan rekayasa.

Dengan menggabungkan skenario nyata dan tenaga besar, ini memang membuka jalur baru dalam akumulasi data.

Namun, untuk benar-benar mewujudkan “kemunculan kecerdasan,” hanya mengandalkan volume data tidak cukup.

Bagaimana menjamin dimensi dan kualitas data selama pengumpulan massal, bagaimana membangun standar data yang seragam, serta bagaimana mengelola privasi dan kepatuhan selama pengumpulan skala besar, akan menjadi tantangan utama yang harus dijawab perusahaan dan seluruh industri dalam tahap komersialisasi.

Peringatan Risiko dan Ketentuan Pembebasan Tanggung Jawab

        Pasar memiliki risiko, investasi harus dilakukan dengan hati-hati. Artikel ini tidak merupakan saran investasi pribadi, dan tidak mempertimbangkan tujuan investasi, kondisi keuangan, atau kebutuhan khusus pengguna. Pengguna harus menilai apakah pendapat, pandangan, atau kesimpulan dalam artikel ini sesuai dengan kondisi mereka. Investasi berdasarkan penilaian sendiri, tanggung jawab sepenuhnya di tangan pengguna.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.