Dialog Variabel CTO Wang Hao: Mengapa "Cawan Suci" dari Kecerdasan Embodied adalah keluarga?

Question

Penulis DaleEditor董雨晴“Rumah tangga memang adalah cawan suci dari kecerdasan yang berwujud.” Pada 30 Maret 2026 pagi, di Akademi Zero Yi Shenzhen, pendiri sekaligus CTO dari perusahaan robot 自变量 yang berstatus sebagai mitra pendiri, Wang Hao, memberikan penilaian tersebut dalam sebuah wawancara yang mencakup Phoenix Network Technology. Saat itu, bertepatan dengan berlangsungnya Konferensi Pengembang Kecerdasan Berwujud yang pertama (EAIDC 2026), 20 tim teratas yang lolos ke babak final berkumpul di sana, dan peserta hanya punya waktu tiga hari untuk menyelesaikan seluruh alur dari pengumpulan data sejak nol, pelatihan model, hingga penerapan pada unit nyata.Pada tahun 2026 ketika hampir semua rekan sejawat memprioritaskan untuk merebut pesanan skenario industri, 自变量 memilih jalan yang lebih penuh risiko. Pada bulan Maret ini, 自变量 mengumumkan kerja sama dengan 58同城, dari platform 58到家 secara acak menjadwalkan pasangan antara “asisten” dan robot, untuk melakukan layanan pekerjaan rumah, yang sudah memulai uji coba di Shenzhen. Rumah tangga—skenario dengan tingkat standardisasi paling rendah dan lingkungan paling terbuka—sedang menjadi medan pertempuran kunci dalam pikiran 自变量, “jalan menuju robot serbaguna”.**01 Sebuah pertandingan yang menarik robot kembali ke dunia nyata**Skema pertandingan EAIDC 2026 kali ini dirancang dengan penuh teka-teki. Semua tim peserta menggunakan satu platform perangkat keras yang sama; dalam waktu tiga hari, mereka menyelesaikan seluruh alur dari pengumpulan data hingga penerapan pada unit nyata, mulai dari tahap pertama kali bersentuhan dengan model dasar kecerdasan berwujud dan debugging unit nyata. Biasanya, untuk membangun hal semacam ini, lab penelitian profesional minimal membutuhkan waktu 6 bulan.Dalam pengamatan Wang Hao, perbedaan yang signifikan sudah muncul pada sore hari pertama saat pertandingan dimulai. “Sore pertama pembukaan, pada malam hari ada sebagian peserta yang masih menyetel lingkungan, sementara ada yang sudah punya hasil. Ini perbedaan yang sangat besar.” Belakangan ia mendapati bahwa tim yang sering melakukan evaluasi, mengamati data dan perangkat keras dengan saksama, tampil lebih menonjol dibanding peserta yang tidak langsung turun tangan. “Seluruh kecerdasan berwujud adalah pembelajaran berbasis interaksi—membuat mesin menemukan masalah saat pengujian, serta saat manusia mengamatinya. Semakin besar peluang menemukan solusi untuk kompleksitas dunia fisik yang sesungguhnya.”Seorang peserta kemudian mengingat, saat pertama kali menghadapi tugas “memasang cincin pada tiang”, tingkat keberhasilan mereka hanya 20% hingga 30%. Setelah iterasi yang berulang, barulah secara bertahap meningkat menjadi 60% hingga 70%.Pertandingan ini juga menetapkan peringkat A dan peringkat B—Peringkat A lingkungan dapat dikendalikan, sehingga memungkinkan tim cepat memverifikasi kemampuan model; Peringkat B sepenuhnya black box, menguji kemampuan generalisasi model ketika terjadi perubahan pada pencahayaan, latar, objek operasi, dan posisi operasi. Wang Hao mengatakan bahwa ini adalah maksud awal mereka dalam membuat pertandingan: “Kami ingin melalui kompetisi ini benar-benar menurunkan ambang batas penggunaan proyek open-source bagi para pengembang, serta membangun sebuah antarmuka yang relatif lebih umum dan standar.”Di industri kecerdasan berwujud yang dalam jangka panjang bergantung pada evaluasi berbasis simulasi, meski lingkungan simulasi dapat mempercepat iterasi, sulit untuk mereplikasi kompleksitas dunia nyata; kesenjangan sim2real (metode pemindahan teknologi dari lingkungan simulasi ke dunia nyata) selalu ada. Wang Hao terus terang mengatakan: “Kalau dalam jangka panjang hanya bergantung pada evaluasi simulasi, secara tak terhindarkan akan menutupi batas sebenarnya dari kemampuan model.” Sementara EAIDC, “arena unjuk kemampuan unit nyata”, berupaya menarik kembali evaluasi, pelatihan, dan pengumpulan data agar ketiganya kembali berada dalam dunia nyata yang sama.**02 Cerita baru end-to-end?**自变量 sejak awal memilih jalur “model end-to-end dengan otak besar dan otak kecil yang disatukan”. Dari sisi arsitektur teknologi, tim sedang mencoba menggabungkan world model dengan model VLA (vision-language-action) dalam sebuah kerangka terpadu.Wang Hao menjelaskan logika yang mendasari jalur tersebut. “Dasar pelatihan model bahasa besar masih perlu digunakan, hanya saja kita ingin membawa bahasa dan tindakan ke dalam satu ruang, bukan seperti sebelumnya yang membuat semua visi melayani bahasa.” Informasi yang dideskripsikan bahasa bersifat sangat makro, sedangkan interaksi di dunia fisik terjadi pada skala sentimeter dan detik; terdapat kesenjangan informasi yang sangat besar di antara keduanya. “Kalau kita bisa mengadopsi pendekatan multimodal asli, tindakan dapat menunjukkan dengan sangat jelas baik pada level makro maupun mikro—itu bisa mengubah visi dari pengamatan statis sebelumnya menjadi pemahaman visi atas gerakan.”Ini berbeda dengan desain sederhana banyak model VLA saat ini. Seorang pengamat industri menunjukkan bahwa banyak model berwujud masih cenderung disederhanakan, dan sebagian besar model VLA masih bergantung pada masukan gambar satu frame.Wang Hao berpendapat bahwa tantangan terbesar model end-to-end adalah kompleksitas pelatihan dan tuntutan skala. “Jika tidak memiliki dua kondisi itu, memilih end-to-end tidak pasti menghasilkan efek yang lebih baik dibanding memilih model kecil pada domain tertentu atau model bertingkat. End-to-end berarti harus ada efek skala; jumlah data dan parameter model harus ditingkatkan.” Selain itu, evaluasi kecerdasan berwujud juga lebih rumit daripada model bahasa besar. “Model bahasa besar bisa melihat kurva loss, sedangkan untuk kecerdasan berwujud biasanya tidak seperti itu. loss tidak dapat mencerminkan performa kamu di dunia nyata, karena dunia nyata adalah sistem closed-loop.”Strategi inti lain dari 自变量 adalah tetap berpegang pada pengumpulan data unit nyata di dunia riil. Wang Hao mengatakan bahwa, dalam semua pembelajaran berbasis interaksi dan reinforcement learning, data terpenting berasal dari unit nyata. “Pengumpulan data ini tidak akan berhenti, dan akan terus dilakukan.” Namun ia juga mengungkapkan bahwa pada 2026 akan ada perubahan besar—“semakin bergantung pada cara pengumpulan data melalui perangkat yang dikenakan manusia atau pendekatan Ego-Centric”.Membangun closed loop data adalah proposisi kunci lain dari 自变量. Wang Hao mengatakan: “Sedini mungkin gunakan cara kerja sama manusia-mesin agar closed loop bisa berjalan. Pertama, bangun model dasar dengan data berkualitas tinggi dan pelatihan skala besar. Meski tidak menyelesaikan semua tugas, model itu harus ditempatkan di lingkungan nyata untuk mulai dikerjakan. Jika ada bagian yang tidak berjalan dengan baik, manusia akan mengambil alih, membantunya pulih dari kesalahan. Data seperti itu juga akan menjadi sumber yang sangat berharga.” Ia menggambarkan sistem di mana evaluasi, pelatihan, dan pengumpulan data diselesaikan dalam proses yang sama.**03 Mengapa rumah tangga?**Faktanya, dalam industri, penilaian umum adalah bahwa penerapan skenario rumah tangga yang benar-benar matang perlu menunggu 5 hingga 10 tahun; sebagian besar produsen dalam komersialisasi lebih cenderung ke skenario industri—lingkungan dapat dikendalikan, tugas tunggal, dan ROI dapat dihitung. Pada awal 2026, muncul sekelompok perusahaan robot dengan valuasi ratusan miliar; namun pada arah layanan rumah tangga, hingga saat ini belum ada pemain yang benar-benar matang.Wang Hao memberikan cara pandang yang berbeda dalam memecahkan masalah: “Rumah tangga mewakili lingkungan paling terbuka dan tugas paling luas; jika kita menyelesaikan tugas rumah tangga, itu berarti model dapat mencapai generalisasi sepenuhnya. Hanya dengan berhadapan langsung dengan skenario yang paling kompleks sejak awal, barulah kita bisa meningkatkan tingkat kecerdasan model. Tidak peduli kapan mulai, semakin awal semakin baik—itulah yang paling penting.”Namun, masuk ke rumah tangga memiliki beberapa kesulitan utama. Pertama, kemampuan generalisasi zero-shot—model harus menemukan jalur sukses melalui penalaran dan eksplorasi, bukan bergantung pada pelatihan yang telah ada sebelumnya. “Saat memasuki rumah tangga, pada awalnya tidak banyak kesempatan untuk melatih model. Saat itulah perlu membangkitkan kemampuan penalaran model agar ia, melalui penalaran, dapat mengeksplorasi contoh-contoh sukses dalam skenario rumah tangga.” Kedua, ketelitian dalam operasi jarak jauh. “Sekarang, model dasar memasuki rumah tangga dan dalam banyak tugas menunjukkan tren penyelesaian atau niat tindakan. Misalnya, ia bisa menunjukkan tren untuk meraih dengan tangan melewati apa pun objeknya, tetapi ketelitian tidak cukup; akibatnya ketika menghadapi tugas jarak jauh yang kompleks, akumulasi kesalahan menyebabkan kegagalan.”Wang Hao menjelaskan bahwa ada dua kunci untuk menyelesaikan masalah ketelitian jarak jauh. Pertama, membangkitkan kemampuan penalaran model: “Buat bahasa menggabungkan visi untuk melakukan penalaran; bahasa, visi, dan tindakan membentuk rantai pemikiran pada level yang sama, sehingga robot bisa merencanakan dan merefleksikan dirinya sendiri.” Kedua, melakukan reinforcement learning dengan skala besar unit nyata: “Menjaga agar, pada standar model dasar, ruang akurasinya mencapai standar yang lebih tinggi.”Wang Hao memperkirakan, “tugas-tugas biasa seperti pembersihan dan penataan dapat mencapai kemandirian penuh dalam waktu 1 hingga 2 tahun. Tapi untuk mencapai closed loop pada semua tugas rumah tangga, mungkin waktunya bisa lebih lama lagi.”Ini sejalan dengan pernyataan CEO 自变量, Wang Qian. Wang Qian pernah menyebutkan dalam sebuah wawancara bahwa tahun ini mereka bisa melihat robot mencapai penerapan komersial dengan ROI yang positif. Kecepatan dorongan untuk skenario rumah tangga memang lebih lambat, tetapi juga lebih berjangka panjang.Kembali ke kontroversi yang paling menjadi perhatian di lintasan kecerdasan berwujud saat ini: mana yang lebih ringan atau lebih berat—pilihan jalur teknis atau komersialisasi?“Dalam hal kecerdasan berwujud, plafon prestasi yang dicapai dengan mengorbankan teknologi demi bisnis tidak akan tinggi. Plafon yang benar-benar tinggi adalah kolaborasi bisnis dan teknologi, dengan teknologi secara bertahap mendorong perkembangan bisnis.” Wang Hao berpendapat bahwa jalur utama 自变量 adalah membuat model dasar terus beriterasi ke depan. “Tapi ada satu hal: jangan membuat terlalu banyak sistem model pada skenario vertikal, untuk membuat banyak penggantian teknik demi implementasi. Misalnya, jika kamu mendapati robot punya blind spot pada visi, buat model kecil untuk mendeteksinya. Dalam jangka pendek, ini bisa membantu mempercepat implementasi, tetapi dalam jangka panjang itu akan membahayakan peningkatan model dasar.”Keteguhan ini sesuai dengan logika pemilihan skenario 自变量—dasar pertama memilih skenario adalah apakah ia bisa memberi umpan balik untuk kemampuan model dasar. “Bukan berarti kamu dulu membuat teknologi sepenuhnya general dulu, baru memikirkan skenario. Justru sebaliknya: skenario memberimu iterasi; iterasi membuat model dasar menjadi lebih kuat; model dasar yang lebih kuat kemudian memberikan umpan balik ke bisnis. Dengan begitu barulah bisa terbentuk closed loop yang utuh.”Ia mengungkapkan bahwa investasi untuk model dasar selalu sangat tinggi. Sejak hari pertama perusahaan berdiri, mereka sudah berinvestasi besar-besaran pada data, komputasi, dan infrastruktur dasar. “Begitu efek skala terbentuk, ketika kamu menginvestasikan 10 kali sumber daya untuk meraih keunggulan, efek pengumpulan sumber daya akan semakin terlihat; kamu akan mengungguli orang lain dalam kecepatan dengan keunggulan pada skala. Semakin awal mulai, semakin ada keunggulan. Semakin terlambat mulai, semakin sulit untuk jadi.”     (Penyunting: Liu Jing HZ010）  		          【Disclaimer】Artikel ini hanya mewakili pandangan penulisnya sendiri dan tidak ada kaitannya dengan Hexun. Situs Hexun tidak memberikan jaminan apa pun secara tegas atau tersirat atas akurasi, keandalan, atau kelengkapan pernyataan serta penilaian yang terdapat dalam artikel ini. Para pembaca hanya untuk referensi dan menanggung seluruh tanggung jawab sendiri. Email：news_center@staff.hexun.com            Laporkan

Dialog Variabel CTO Wang Hao: Mengapa "Cawan Suci" dari Kecerdasan Embodied adalah keluarga?

Topik Trending

GateSquareAprilPostingChallenge

MarchNonfarmPayrollsIncoming

IsraelStrikesIranBTCPlunges

CryptoMarketSeesVolatility

OilPricesRise

Hot Gate Fun

狐狸币

狐狸币

iranht

"Iran has teeth".

FUN

FUN COIN

Token

词元

TMP

特没谱

Sematkan