Sama seperti GPT yang bisa mengubah prompt dan catatan kerja Anda menjadi skill yang dapat digunakan kembali, ASPIRE juga akan mengendapkan setiap kegagalan dan perbaikan robot menjadi pengalaman yang dapat dipanggil nanti.

Hanya saja, yang di-review bukanlah kode, melainkan proses operasi robot.

Setiap kali robot menjalankan tugas, ASPIRE akan mencatat proses-proses seperti persepsi, navigasi, pengambilan, tabrakan, dan perencanaan gerakan.

GPT/Claude yang dipanggil di belakangnya akan, seperti seorang peneliti, menentukan di mana masalah dalam tugas terjadi, dan mengiterasi program. Jika berhasil, maka pengalaman yang telah diendapkan akan ditulis ke dalam Skill.

Dengan demikian, robot dapat terus belajar melalui menulis kode, melihat jejak eksekusi, memperbaiki program, dan mengendapkan keterampilan.

Dan ini bukan hanya sekedar menyuling Skill dari pengalaman robot.

Kepala Robot NVIDIA Jim Fan juga menyatakan bahwa ASPIRE mewakili paradigma pembelajaran berkelanjutan yang baru.

Di antaranya:

Pelatihan, dari penurunan gradien menjadi pengasahan keterampilan yang berkelanjutan (Skill Refinement);
Model yang telah dilatih, tidak lagi hanya berupa sekumpulan bobot floating-point, melainkan sebuah perpustakaan keterampilan robot yang terus berkembang (Sensorimotor Skills);
Pelatihan terdistribusi, berubah menjadi sekelompok Agen yang masing-masing berlatih keterampilan berbeda, lalu mengumpulkan pengalaman ke dalam perpustakaan keterampilan yang sama.

Yang dilatih, belum tentu bobot

Meskipun sudah dijelaskan secara umum di awal, sebelum membahas bagaimana merevolusi paradigma pelatihan robot, mari kita bicarakan sedikit latar belakang.

Nama lengkap ASPIRE adalah Agentic Skill Programming through Iterative Robot Exploration.

Ini memungkinkan robot menjalankan tugas dengan kode, setelah gagal melihat jejak eksekusi multimodal, lalu memperbaiki program, dan menyimpan pengalaman yang telah diperbaiki ke dalam perpustakaan keterampilan yang terus bertambah tebal.

Skill di sini, meskipun pada dasarnya masih berupa konteks yang diberikan ke model besar, namun mengandung pengalaman perbaikan kode yang telah terverifikasi (Code Repair Pattern), sehingga robot tahu bagaimana mengubah program kontrol ketika menghadapi jenis masalah tertentu.

Misalnya, ketika robot bersiap mengambil sebuah radio, telah mengenali target, tetapi tidak bisa mendekatinya.

Agen dapat menganalisis bahwa penyebabnya bukan karena kesalahan identifikasi, melainkan titik target yang diberikan oleh perencana (Planner) semuanya jatuh di dalam zona buffer tabrakan rintangan.

Dengan demikian, ASPIRE akan merangkum Skill baru berdasarkan pengalaman ini:

Jika mengalami kegagalan perencanaan seperti ini, cobalah mendekati target dari sudut yang berbeda seperti 45°, 90°, 180°, hingga menemukan jalur bebas tabrakan.

Di kemudian hari saat menghadapi skenario serupa, baik targetnya berupa radio, microwave, atau perabot lainnya, pengalaman ini dapat langsung digunakan kembali, tanpa perlu mencoba-coba lagi.

Sampai di sini, Anda mungkin penasaran. Bukankah pelatihan robot seharusnya tentang data, penurunan gradien, bobot model, pengumpulan data nyata, transfer dari simulasi ke kenyataan?

Kenapa tiba-tiba menjadi mengumpulkan skill?

Di sini perlu dijelaskan dulu sebuah paradigma yang sedang populer, Code as Policy.

Berbeda dengan model kebijakan end-to-end seperti VLA, Code as Policy tidak membuat model langsung mengeluarkan aksi robot, melainkan meminta model besar menulis program kontrol robot yang dapat dieksekusi.

Dalam program, dapat memanggil modul persepsi, API perencanaan, dan primitif kontrol, seperti mengenali objek, merencanakan jalur, menggerakkan lengan robot, dan melakukan pengambilan.

Dengan demikian, perilaku robot tidak lagi sepenuhnya tersembunyi di dalam bobot jaringan saraf, melainkan menjadi kode operasi yang dapat dieksekusi.

Dengan adanya kode, dapat diperiksa, dimodifikasi, di-debug, dan dioptimalkan lebih lanjut oleh model Agen yang sangat kuat saat ini.

Namun di masa lalu, Code as Policy memiliki dua masalah.

Pertama, ketika robot gagal, sistem biasanya hanya tahu "tugas tidak selesai", tetapi tidak tahu apakah persepsi salah, pengambilan tidak stabil, perencanaan jalur bertabrakan, atau masalah pada aksi pemulihan.

Kedua, dan yang lebih penting, ia tidak memiliki ingatan jangka panjang.

Setelah satu tugas selesai, solusi perbaikan, strategi pemulihan, dan cara penulisan prompt yang ditemukan selama proses debugging akan dibuang, dan saat menghadapi masalah serupa di lain waktu, harus mulai dari awal lagi.

Inilah mengapa Jim Fan berkata:

(Dengan ASPIRE) Ketika robot menyelesaikan tugas ke-100, akhirnya ia tidak lagi seperti saat menyelesaikan tugas pertama yang tidak tahu apa-apa.

Intinya, seluruh proses ini sama seperti insinyur robot manusia:

Ketika sebuah program robot gagal, insinyur akan memutar ulang proses eksekusi, melihat hasil persepsi, menganalisis lintasan gerakan, dan menentukan apakah pengambilan salah, perencanaan salah, atau ada aksi pemulihan yang tidak terhubung.

Setelah diperbaiki, insinyur akan mencatat pengalaman ini. Lain kali saat menghadapi objek di tepi meja, gagang laci, navigasi ruang sempit, tidak perlu mulai dari nol.

Dan yang dilakukan ASPIRE adalah menyerahkan mekanisme akumulasi pengalaman ini kepada agen. Ia tidak hanya membuat model besar menulis kode robot, tetapi juga membuat model besar mencoba berulang kali, melihat berulang kali, memperbaiki berulang kali di lingkungan eksekusi, dan pada akhirnya mengendapkan pengalaman perbaikan yang telah terverifikasi menjadi Skill.

Jadi, dalam ASPIRE, pelatihan tidak lagi sekadar penurunan gradien.

Proses pelatihan menjadi Skill Refinement; hasil pelatihan, bukan hanya bobot model, melainkan Skills Library yang terus diakumulasi dan terus berkembang oleh robot.

Pipeline tiga tahap

Dalam makalah, ide ini diimplementasikan sebagai pipeline tiga tahap.

Pertama adalah robot execution engine, yaitu mesin eksekusi robot.

Setelah program robot tradisional gagal, sistem mungkin hanya memberi tahu Anda bahwa tugas tidak selesai.

ASPIRE akan menguraikan kegagalan, setiap panggilan persepsi, perencanaan, pengambilan, dan kontrol meninggalkan input, output, bukti visual, dan log kesalahan.

Sama seperti insinyur manusia saat menyetel robot akan memutar ulang video, melihat lintasan, memeriksa apakah persepsi salah atau pengambilan gagal, dan ASPIRE menyerahkan tindakan ini kepada coding agent.

Selanjutnya adalah skill library. Setelah agen memperbaiki program, ia tidak akan membuang pengalaman ini, melainkan mengubahnya menjadi pengetahuan yang dapat digunakan kembali.

Di perpustakaan keterampilan situs web, dapat dilihat entri yang sangat spesifik, seperti cara menulis petunjuk teks SAM3, cara mendekati objek di tepi meja dari berbagai sudut, cara menyaring deteksi palsu pada gagang laci, dan motion primitive apa yang harus digunakan saat mendorong objek datar.

Ini tidak seperti bobot model tradisional, mereka lebih seperti catatan pengalaman (trap) dari programmer robot.

Terakhir adalah evolutionary search.

Seorang agen tidak hanya mencoba satu jalur perbaikan, sistem akan menghasilkan beberapa program kontrol kandidat, menjalankannya di lingkungan eksekusi, lalu terus mengiterasi berdasarkan program yang bertahan dan lintasan kegagalan.

Dalam rekayasa perangkat lunak, coding agent sudah terbiasa menulis kode, menjalankan tes, melihat trace, dan memperbaiki bug. Yang dilakukan ASPIRE adalah membawa siklus ini ke dunia fisik.

Verifikasi Eksperimental

Untuk memverifikasi metode ini, makalah mengujinya pada tiga tolok ukur robot klasik, termasuk LIBERO-Pro, Robosuite, dan BEHAVIOR-1K, yang masing-masing mencakup operasi generalisasi, operasi intensif kontak, dan tugas rumah tangga jangka panjang.

Hasil keseluruhan secara signifikan lebih baik daripada metode Code as Policy sebelumnya.

Misalnya, dalam tugas pertukaran objek dua lengan (Bimanual Handover) di Robosuite, ASPIRE meningkatkan tingkat keberhasilan dari 20% menjadi 92%.

Kedua, dalam hal kemampuan generalisasi.

Penelitian pertama-tama mengakumulasi Skill Library di LIBERO-90, lalu langsung mentransfer ke tugas panjang LIBERO-Pro Long yang belum pernah dilihat sebelumnya, tanpa pelatihan lanjutan untuk tugas baru dan tanpa memperbarui perpustakaan keterampilan.

Hasil menunjukkan bahwa seiring dengan semakin kayanya perpustakaan keterampilan, tingkat keberhasilan robot pada tugas baru juga meningkat, dari hampir tidak bisa melakukannya hingga akhirnya mencapai 31%. Dengan kata lain, semakin tebal Skill Library, semakin tidak seperti pemula robot tersebut.

Pengenalan Penulis

Di akhir blog teknis, NVIDIA juga merilis daftar lengkap penulis.

Masih wajah lama dari tim GEAR: Jim Fan, Zhu Yuke, Guanzhi Wang, Shi Guanya, dan lainnya.

Tiga penulis yang berada di urutan terdepan adalah kontributor bersama.

Di antaranya, Runyu Lu saat ini adalah mahasiswa PhD tahun kedua di University of Michigan, sedang magang di GEAR; Yuubo Wu berasal dari University of Illinois Urbana-Champaign (UIUC), dan Ethan Kou berasal dari University of California, Berkeley, saat ini masih seorang mahasiswa sarjana.

Yang perlu dicatat, kemarin, NVIDIA juga mengumumkan perluasan rekrutmen tim robotika dalam negeri, membuka banyak posisi di Beijing, Shanghai, dan Shenzhen, mencakup arah seperti kecerdasan berwujud, simulasi, penempatan robot, dan arsitektur solusi.

Sumber artikel: Quantum Bit

Peringatan Risiko dan Klausul Penafian

Pasar memiliki risiko, investasi harus hati-hati. Artikel ini bukan merupakan saran investasi pribadi, dan juga tidak mempertimbangkan tujuan investasi, kondisi keuangan, atau kebutuhan khusus pengguna. Pengguna harus mempertimbangkan apakah pendapat, pandangan, atau kesimpulan dalam artikel ini sesuai dengan situasi spesifik mereka. Investasi berdasarkan ini, risiko ditanggung sendiri.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GateCompletesDividendDistribution
132,91K Popularitas
#
StrategyBuybackSurges12%
1,11M Popularitas
#
IsraelStrikesIranBTCPlunges
67,27K Popularitas
#
PredictWorldCupShare20000U
542,75K Popularitas
#
TrumpDisclosesOver100MBTCETH
3,83M Popularitas

Disematkan

peta situs

Momen Skill dari kecerdasan embodied! Nvidia merilis pustaka keterampilan robot sumber terbuka, Jim Fan: Paradigma telah berubah.

Yang dilatih, belum tentu bobot

Pipeline tiga tahap

Verifikasi Eksperimental

Pengenalan Penulis

Topik Trending

GateCompletesDividendDistribution

StrategyBuybackSurges12%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

TrumpDisclosesOver100MBTCETH

Disematkan