Baru-baru ini, Tim Pemrosesan Bahasa Alami Universitas Fudan (FudanNLP) meluncurkan makalah ulasan tentang Agen berbasis LLM. Teks lengkap sepanjang 86 halaman dan memiliki lebih dari 600 referensi! Bermula dari sejarah Agen AI, penulis memilah secara komprehensif status agen cerdas saat ini berdasarkan model bahasa besar, termasuk: latar belakang, komposisi, skenario penerapan Agen berbasis LLM, dan masyarakat agen yang banyak dibahas**. Pada saat yang sama, penulis membahas isu-isu berwawasan ke depan dan terbuka terkait Agen, yang sangat bermanfaat bagi tren perkembangan masa depan di bidang terkait.

* Tautan kertas:

Daftar kertas Agen berbasis LLM:

**Anggota tim juga akan menambahkan “ringkasan satu kalimat” ke setiap makalah yang relevan, selamat datang di gudang Star. **

Latar belakang penelitian

Sejak lama, para peneliti telah mengejar Artificial General Intelligence (AGI) yang setara atau bahkan melampaui tingkat manusia. Pada awal tahun 1950-an, Alan Turing memperluas konsep “kecerdasan” ke entitas buatan dan mengusulkan tes Turing yang terkenal. Entitas kecerdasan buatan ini sering disebut agen. Konsep “agen” berasal dari filsafat dan menggambarkan suatu entitas yang memiliki keinginan, keyakinan, niat, dan kemampuan untuk mengambil tindakan. Di bidang kecerdasan buatan, istilah ini diberi arti baru: entitas cerdas dengan karakteristik otonomi, reaktivitas, kepositifan, dan kemampuan bersosialisasi.

**Tidak ada konsensus mengenai terjemahan bahasa Mandarin untuk istilah Agen. Beberapa pakar menerjemahkannya sebagai agen, aktor, agen, atau agen cerdas. “Agen” dan “agen cerdas” yang muncul dalam artikel ini keduanya mengacu pada Agen. *

Sejak itu, desain agen telah menjadi fokus komunitas kecerdasan buatan. Namun, pekerjaan sebelumnya terutama berfokus pada peningkatan kemampuan spesifik agen, seperti penalaran simbolik atau penguasaan tugas tertentu (catur, Go, dll.). Studi-studi ini lebih fokus pada desain algoritma dan strategi pelatihan, sambil mengabaikan pengembangan kemampuan umum yang melekat pada model, seperti memori pengetahuan, perencanaan jangka panjang, generalisasi yang efektif, dan interaksi yang efisien. Ternyata **meningkatkan kemampuan bawaan model merupakan faktor kunci dalam mendorong pengembangan lebih lanjut agen cerdas. **

Munculnya model bahasa besar (LLM) membawa harapan bagi pengembangan agen cerdas lebih lanjut. Jika jalur pengembangan dari NLP ke AGI dibagi menjadi lima level: korpus, Internet, persepsi, perwujudan, dan atribut sosial, maka model bahasa skala besar saat ini telah mencapai level kedua, dengan input dan output teks berskala Internet. Atas dasar ini, jika Agen berbasis LLM diberi ruang persepsi dan ruang tindakan, maka mereka akan mencapai level ketiga dan keempat. Lebih jauh lagi, ketika banyak agen berinteraksi dan bekerja sama untuk menyelesaikan tugas yang lebih kompleks, atau mencerminkan perilaku sosial di dunia nyata, mereka berpotensi mencapai tingkat kelima – masyarakat agen.

*Penulis membayangkan masyarakat yang harmonis dengan agen-agen cerdas di mana manusia juga dapat berpartisipasi. Adegan tersebut diambil dari Sea Lantern Festival di “Genshin Impact”. *

Kelahiran Agen

Seperti apa bentuk agen cerdas yang didukung oleh model besar? Terinspirasi oleh hukum “survival of the fittest” Darwin, penulis mengusulkan kerangka umum untuk agen cerdas berdasarkan model besar. Jika seseorang ingin bertahan hidup dalam masyarakat, ia harus belajar beradaptasi dengan lingkungannya, sehingga ia perlu memiliki kemampuan kognitif serta mampu mempersepsikan dan merespon perubahan-perubahan di dunia luar. Demikian pula, kerangka agen cerdas juga terdiri dari tiga bagian: **Terminal kontrol (Otak), terminal persepsi (Persepsi) dan terminal tindakan (Action). **

Terminal kontrol: Biasanya terdiri dari LLM, ini adalah inti dari agen cerdas. Ia tidak hanya dapat menyimpan memori dan pengetahuan, tetapi juga menjalankan fungsi-fungsi yang sangat diperlukan seperti pemrosesan informasi dan pengambilan keputusan. Hal ini dapat menyajikan proses penalaran dan perencanaan, dan mengatasi tugas-tugas yang tidak diketahui dengan baik, mencerminkan generalisasi dan transferabilitas agen cerdas.
Persepsi akhir: Memperluas ruang persepsi agen cerdas dari teks murni hingga mencakup bidang multi-modal seperti teks, penglihatan, dan pendengaran, sehingga agen dapat memperoleh dan memanfaatkan informasi dari lingkungan sekitar dengan lebih efektif.
Terminal seluler: Selain keluaran teks biasa, agen juga diberikan kemampuan untuk diwujudkan dan menggunakan alat, sehingga dapat lebih beradaptasi dengan perubahan lingkungan, berinteraksi dengan lingkungan melalui umpan balik, dan bahkan membentuk lingkungan.

Kerangka konseptual Agen berbasis LLM terdiri dari tiga komponen: ujung kendali (Otak), ujung persepsi (Perception) dan ujung tindakan (Action).

Penulis menggunakan contoh untuk mengilustrasikan alur kerja Agen berbasis LLM: ketika manusia bertanya apakah akan turun hujan, ujung persepsi (Persepsi) mengubah instruksi menjadi representasi yang dapat dipahami oleh LLM. Kemudian terminal kendali (Otak) memulai penalaran dan perencanaan tindakan berdasarkan cuaca saat ini dan prakiraan cuaca di Internet. Terakhir, Action merespon dan menyerahkan payung kepada manusia.

Dengan mengulangi proses di atas, agen cerdas dapat terus memperoleh umpan balik dan berinteraksi dengan lingkungan.

Terminal kontrol: Otak

Sebagai komponen inti dari agen cerdas, penulis memperkenalkan kemampuannya dari lima aspek:

**Interaksi bahasa alami: **Bahasa adalah media komunikasi dan kaya akan informasi. Berkat generasi bahasa alami yang kuat dan kemampuan pemahaman LLM, agen cerdas dapat berinteraksi dengan dunia luar selama beberapa putaran melalui bahasa alami untuk mencapai tujuan mereka. Secara khusus, ini dapat dibagi menjadi dua aspek:

Pembuatan teks berkualitas tinggi: Sejumlah besar eksperimen evaluasi menunjukkan bahwa LLM dapat menghasilkan teks yang lancar, beragam, baru, dan dapat dikontrol. Meskipun kinerjanya buruk dalam masing-masing bahasa, secara keseluruhan keterampilan multibahasa tersedia dengan baik.
Memahami implikasinya: Selain konten yang diungkapkan secara intuitif, bahasa juga dapat menyampaikan informasi seperti maksud dan preferensi pembicara. Implikasinya adalah hal ini membantu agen berkomunikasi dan bekerja sama dengan lebih efisien, dan model besar telah menunjukkan potensi dalam hal ini.

Pengetahuan: LLM yang dilatih berdasarkan kumpulan korpus dalam jumlah besar memiliki kemampuan untuk menyimpan pengetahuan dalam jumlah besar. Selain pengetahuan bahasa, pengetahuan akal sehat dan pengetahuan keterampilan profesional merupakan komponen penting Agen berbasis LLM.

Meskipun LLM sendiri masih memiliki masalah seperti pengetahuan yang kadaluarsa dan halusinasi, beberapa penelitian yang ada dapat meringankannya sampai batas tertentu melalui penyuntingan pengetahuan atau memanggil basis pengetahuan eksternal.

Memori: Dalam kerangka artikel ini, modul memori (Memori) menyimpan pengamatan, pemikiran, dan rangkaian tindakan agen di masa lalu. Melalui mekanisme memori spesifik, agen dapat secara efektif merefleksikan dan menerapkan strategi sebelumnya, memungkinkan mereka memanfaatkan pengalaman masa lalu untuk beradaptasi dengan lingkungan yang tidak dikenalnya.

Ada tiga metode yang biasa digunakan untuk meningkatkan kemampuan memori:

Memperluas batas panjang arsitektur Backbone: Memperbaiki masalah batas panjang urutan yang melekat pada Transformers.
Meringkas: Meringkas memori untuk meningkatkan kemampuan agen dalam mengekstrak detail penting dari memori.
Mengompresi: Efisiensi pengambilan memori dapat ditingkatkan dengan menggunakan vektor atau struktur data yang sesuai untuk mengompresi memori.

Selain itu, metode pengambilan memori juga penting, hanya dengan mengambil konten yang sesuai agen dapat mengakses informasi yang paling relevan dan akurat.

Penalaran & Perencanaan: Kemampuan Penalaran (Reasoning) sangat penting bagi agen cerdas untuk melakukan tugas kompleks seperti pengambilan keputusan dan analisis. Khusus untuk LLM, ini adalah serangkaian metode dorongan yang diwakili oleh Chain-of-Thought (CoT). Perencanaan merupakan strategi yang umum digunakan ketika menghadapi tantangan besar. Ini membantu agen mengatur pemikiran mereka, menetapkan tujuan, dan mengidentifikasi langkah-langkah untuk mencapai tujuan tersebut. Dalam implementasi spesifik, perencanaan dapat mencakup dua langkah:

Perumusan Rencana: Agen memecah tugas-tugas kompleks menjadi subtugas yang lebih mudah dikelola. Misalnya: dekomposisi satu kali dan kemudian eksekusi secara berurutan, perencanaan dan pelaksanaan langkah demi langkah, perencanaan multi-jalur dan pemilihan jalur optimal, dll. Dalam beberapa skenario yang memerlukan pengetahuan profesional, agen dapat diintegrasikan dengan modul Planner di bidang tertentu untuk meningkatkan kemampuan.
Refleksi Rencana: Setelah membuat rencana, Anda dapat merenungkannya dan mengevaluasi kekuatan dan kelemahannya. Refleksi semacam ini umumnya berasal dari tiga aspek: menggunakan mekanisme umpan balik internal; mendapatkan umpan balik dari interaksi dengan manusia; mendapatkan umpan balik dari lingkungan.

**Transferabilitas & Generalisasi: **LLM dengan pengetahuan dunia memberikan agen cerdas kemampuan migrasi dan generalisasi yang kuat. Agen yang baik bukanlah basis pengetahuan yang statis, tetapi juga memiliki kemampuan belajar yang dinamis:

Generalisasi ke tugas yang tidak diketahui: Seiring bertambahnya ukuran model dan data pelatihan, LLM telah mengembangkan kemampuan luar biasa dalam menyelesaikan tugas yang tidak diketahui. Model besar disempurnakan melalui instruksi yang dijalankan dengan baik dalam pengujian zero-shot, sehingga mencapai hasil sebaik model ahli dalam banyak tugas.
Pembelajaran Dalam Konteks: Model besar tidak hanya mampu belajar dengan analogi dari sejumlah kecil contoh dalam konteks, namun kemampuan ini juga dapat diperluas ke adegan multi-modal di luar teks, memberikan lebih banyak peluang bagi agen untuk menerapkannya dalam konteks. dunia nyata Banyak kemungkinan. *Pembelajaran Berkelanjutan: Tantangan utama pembelajaran berkelanjutan adalah lupa yang sangat besar, yaitu ketika model mempelajari tugas baru, ia dengan mudah kehilangan pengetahuan dalam tugas-tugas sebelumnya. Agen cerdas di domain khusus harus berusaha menghindari kehilangan pengetahuan di domain umum.

Persepsi akhir: Persepsi

Manusia memandang dunia dengan cara multi-modal, sehingga peneliti memiliki ekspektasi yang sama terhadap Agen berbasis LLM. Persepsi multimodal dapat memperdalam pemahaman agen tentang lingkungan kerja dan secara signifikan meningkatkan keserbagunaannya.

Input teks: Sebagai kemampuan paling dasar dari LLM, saya tidak akan menjelaskan detailnya di sini.

**Masukan visual:**LLM sendiri tidak memiliki kemampuan persepsi visual dan hanya dapat memahami konten teks terpisah. Dan masukan visual biasanya berisi banyak informasi tentang dunia, termasuk properti objek, hubungan spasial, tata letak pemandangan, dll. Metode yang umum adalah:

Ubah masukan visual menjadi deskripsi teks yang sesuai (Keterangan Gambar): Dapat langsung dipahami oleh LLM dan memiliki kemampuan interpretasi yang tinggi.
Pengkodean dan representasi informasi visual: Modul persepsi terdiri dari paradigma model visual basic + LLM, dan model dapat memahami konten modalitas yang berbeda melalui operasi penyelarasan, yang dapat dilatih secara end-to-end.

Masukan pendengaran: Pendengaran juga merupakan bagian penting dari persepsi manusia. Karena LLM memiliki kemampuan pemanggilan alat yang sangat baik, ide intuitifnya adalah bahwa agen dapat menggunakan LLM sebagai pusat kontrol, memanggil rangkaian alat atau model ahli yang ada secara berjenjang untuk memahami informasi audio. Selain itu, audio juga dapat direpresentasikan secara visual melalui spektogram. Spektogram dapat digunakan sebagai gambar datar untuk menampilkan informasi 2D, sehingga beberapa metode pemrosesan visual dapat ditransfer ke bidang ucapan.

Masukan Lain: Ada lebih banyak informasi di dunia nyata daripada sekadar teks, penglihatan, dan pendengaran. Penulis berharap di masa depan, agen cerdas akan dilengkapi dengan modul persepsi yang lebih kaya, seperti sentuhan, penciuman, dan organ lainnya, untuk memperoleh atribut objek target yang lebih kaya. Pada saat yang sama, agen juga dapat dengan jelas merasakan suhu, kelembapan, dan kecerahan lingkungan sekitar serta mengambil tindakan yang lebih sadar lingkungan.

Selain itu, agen juga dapat diperkenalkan dengan persepsi lingkungan keseluruhan yang lebih luas: menggunakan modul persepsi yang matang seperti lidar, GPS, dan unit pengukuran inersia.

Terminal seluler: Tindakan

Setelah otak membuat analisis dan keputusan, agen juga perlu mengambil tindakan untuk beradaptasi atau mengubah lingkungan:

Keluaran teks: Sebagai kemampuan paling dasar dari LLM, saya tidak akan menjelaskan detailnya di sini.

**Penggunaan Alat:**Meskipun LLM memiliki cadangan pengetahuan dan kemampuan profesional yang sangat baik, ketika menghadapi masalah tertentu, serangkaian tantangan seperti masalah ketahanan dan halusinasi mungkin muncul. Pada saat yang sama, alat, sebagai perpanjangan dari kemampuan pengguna, dapat memberikan bantuan dalam aspek-aspek seperti profesionalisme, faktualitas, dan interpretabilitas. Misalnya, Anda dapat menggunakan kalkulator untuk menyelesaikan soal matematika dan mesin pencari untuk mencari informasi real-time.

Selain itu, alat juga dapat memperluas ruang tindakan agen cerdas. Misalnya, tindakan multi-modal dapat diperoleh dengan memanggil model pakar seperti pembuatan ucapan dan pembuatan gambar. Oleh karena itu, bagaimana menjadikan agen menjadi pengguna alat yang unggul, yaitu mempelajari cara menggunakan alat secara efektif, merupakan arah yang sangat penting dan menjanjikan.

Saat ini, metode utama pembelajaran alat mencakup pembelajaran dari demonstrasi dan pembelajaran dari umpan balik. Selain itu, pembelajaran meta, pembelajaran kursus, dll. juga dapat digunakan untuk memberikan agen kemampuan generalisasi dalam menggunakan berbagai alat. Selangkah lebih maju, agen cerdas dapat belajar lebih jauh bagaimana membuat alat secara “swasembada”, sehingga meningkatkan otonomi dan kemandirian mereka.

**Tindakan yang diwujudkan: **Perwujudan mengacu pada kemampuan agen untuk memahami, mengubah lingkungan, dan memperbarui keadaannya sendiri selama interaksi dengan lingkungan. Embodied Action dianggap sebagai jembatan antara kecerdasan virtual dan realitas fisik.

Agen tradisional berdasarkan pembelajaran penguatan memiliki keterbatasan dalam efisiensi sampel, generalisasi, dan penalaran masalah yang kompleks, sementara Agen berbasis LLM memperkenalkan pengetahuan intrinsik yang kaya tentang model besar, memungkinkan Agen Terwujud untuk secara aktif memahami dan memengaruhi fisika seperti lingkungan manusia. Bergantung pada tingkat otonomi agen dalam tugas atau kompleksitas Tindakan, terdapat Tindakan atomik berikut:

Observasi dapat membantu agen cerdas menemukan lokasi dirinya di lingkungan, memahami objek dan benda, dan memperoleh informasi lingkungan lainnya;
Manipulasi adalah menyelesaikan beberapa operasi tertentu seperti meraih dan mendorong;
Navigasi mengharuskan agen cerdas untuk mengubah posisinya sesuai dengan tujuan tugas dan memperbarui statusnya sesuai dengan informasi lingkungan.

Dengan menggabungkan tindakan atomik ini, agen dapat menyelesaikan tugas yang lebih kompleks. Misalnya, mewujudkan tugas QA seperti “Apakah semangka di dapur lebih besar dari mangkuk?” Untuk mengatasi masalah ini, agen perlu menuju ke dapur dan mendapatkan jawabannya setelah mengamati ukuran keduanya.

Dibatasi oleh tingginya biaya perangkat keras dunia fisik dan kurangnya kumpulan data yang terkandung, penelitian saat ini tentang tindakan yang diwujudkan masih terfokus pada lingkungan kotak pasir virtual seperti platform game “Minecraft”. Oleh karena itu, di satu sisi, penulis mengharapkan paradigma tugas dan standar evaluasi yang lebih mendekati kenyataan, dan di sisi lain, mereka juga memerlukan eksplorasi lebih lanjut mengenai konstruksi kumpulan data yang relevan secara efisien.

Agen dalam Praktek: Beragam skenario penerapan

Saat ini, Agen berbasis LLM telah menunjukkan keragaman yang mengesankan dan kinerja yang kuat. Contoh aplikasi yang familiar seperti AutoGPT, MetaGPT, CAMEL, dan GPT Engineer berkembang pesat dengan kecepatan yang belum pernah terjadi sebelumnya.

Sebelum memperkenalkan aplikasi spesifik, penulis membahas prinsip desain Agen dalam Praktek:

Membantu pengguna membebaskan diri dari tugas sehari-hari dan pekerjaan berulang, mengurangi tekanan kerja manusia, dan meningkatkan efisiensi penyelesaian tugas;
Pengguna tidak perlu lagi mengeluarkan instruksi tingkat rendah yang eksplisit, dan dapat menganalisis, merencanakan, dan menyelesaikan masalah secara mandiri;
Setelah membebaskan tangan pengguna, cobalah untuk membebaskan otak: gunakan sepenuhnya potensi mereka dalam bidang ilmiah mutakhir dan selesaikan karya inovatif dan eksplorasi.

Atas dasar ini, penerapan agen dapat memiliki tiga paradigma:

*Tiga paradigma penerapan Agen berbasis LLM: agen tunggal, multi-agen, dan interaksi manusia-komputer. *

Skenario agen tunggal

Agen cerdas yang dapat menerima perintah bahasa alami manusia dan melakukan tugas sehari-hari saat ini disukai oleh pengguna dan memiliki nilai praktis yang tinggi. Penulis pertama kali menguraikan beragam skenario aplikasi dan kemampuan terkait dalam skenario penerapan agen cerdas tunggal.

Dalam artikel ini, penerapan agen cerdas tunggal dibagi menjadi tiga tingkatan berikut:

*Tiga tingkat skenario aplikasi agen tunggal: berorientasi tugas, berorientasi inovasi, dan berorientasi siklus hidup. *

Dalam penerapan berorientasi tugas, agen membantu pengguna manusia menangani tugas dasar sehari-hari. Mereka perlu memiliki pemahaman perintah dasar, penguraian tugas, dan kemampuan berinteraksi dengan lingkungan. Secara khusus, menurut jenis tugas yang ada, penerapan agen sebenarnya dapat dibagi menjadi lingkungan jaringan simulasi dan skenario kehidupan simulasi.
Dalam penerapan berorientasi inovasi, agen dapat menunjukkan potensi penyelidikan independen di bidang ilmiah mutakhir. Meskipun kompleksitas yang melekat dan kurangnya data pelatihan dari bidang khusus menghambat pembangunan agen cerdas, sudah banyak pekerjaan yang mencapai kemajuan di bidang-bidang seperti kimia, material, komputer, dll.
Dalam penerapan berorientasi siklus hidup, agen memiliki kemampuan untuk terus mengeksplorasi, mempelajari, dan menggunakan keterampilan baru di dunia terbuka, dan bertahan dalam waktu lama. Pada bagian ini penulis mengambil game “Minecraft” sebagai contoh. Karena tantangan bertahan hidup dalam game dapat dianggap sebagai mikrokosmos dari dunia nyata, banyak peneliti telah menggunakannya sebagai platform unik untuk mengembangkan dan menguji kemampuan agen yang komprehensif.

Skenario multi-agen

Pada awal tahun 1986, Marvin Minsky membuat prediksi masa depan. Dalam The Society of Mind, ia mengajukan teori baru tentang kecerdasan, dengan alasan bahwa kecerdasan muncul dari interaksi banyak agen yang lebih kecil dan memiliki fungsi spesifik. Misalnya, beberapa agen mungkin bertanggung jawab untuk mengidentifikasi pola, sementara yang lain mungkin bertanggung jawab untuk membuat keputusan atau menghasilkan solusi.

Ide ini telah diimplementasikan secara konkrit dengan munculnya kecerdasan buatan terdistribusi. Sistem Multi-Agen (Multi-Agent), sebagai salah satu isu penelitian utama, terutama berfokus pada bagaimana agen dapat berkoordinasi dan berkolaborasi secara efektif untuk memecahkan masalah. Penulis artikel ini membagi interaksi antara beberapa agen menjadi dua bentuk berikut:

*Dua bentuk interaksi dalam skenario penerapan multi-agen: interaksi kooperatif dan interaksi konfrontatif. *

Interaksi kooperatif: Sebagai jenis yang paling banyak digunakan dalam aplikasi praktis, sistem agen kooperatif dapat secara efektif meningkatkan efisiensi tugas dan bersama-sama meningkatkan pengambilan keputusan. Secara khusus, menurut berbagai bentuk kerjasama, penulis membagi interaksi kerjasama menjadi kerjasama tidak teratur dan kerjasama teratur.

Ketika semua agen secara bebas mengungkapkan pandangan dan pendapatnya serta bekerja sama secara tidak berurutan, hal itu disebut kerja sama yang tidak teratur.
Ketika semua agen mengikuti aturan tertentu, seperti mengutarakan pendapatnya satu per satu dalam bentuk jalur perakitan, maka seluruh proses kerjasama akan tertib, yang disebut kerjasama tertib.

Interaksi permusuhan: Agen cerdas berinteraksi secara saling balas. Melalui kompetisi, negosiasi, dan debat, agen meninggalkan keyakinan awal mereka yang mungkin salah dan melakukan refleksi yang bermakna terhadap perilaku atau proses penalaran mereka, yang pada akhirnya mengarah pada peningkatan kualitas respons seluruh sistem.

Skenario interaksi manusia-komputer

Interaksi Manusia-Agen, seperti namanya, merupakan agen cerdas yang bekerja sama dengan manusia untuk menyelesaikan tugas. Di satu sisi, kemampuan belajar agen yang dinamis perlu didukung oleh komunikasi, di sisi lain, sistem agen yang ada saat ini masih kurang dalam interpretasi dan mungkin memiliki masalah keamanan, legalitas, dll, sehingga memerlukan partisipasi manusia. dan pengawasan.

Dalam makalahnya, penulis membagi interaksi Manusia-Agen menjadi dua mode berikut:

*Dua mode dalam skenario interaksi manusia-komputer: mode Instruktur-utor vs. mode Kemitraan Setara. *

Mode instruktur-utor: Manusia bertindak sebagai instruktur, memberikan instruksi dan umpan balik; agen bertindak sebagai pelaksana, secara bertahap menyesuaikan dan mengoptimalkan sesuai dengan instruksi. Model ini telah banyak digunakan dalam bidang pendidikan, kedokteran, bisnis dan bidang lainnya.
Mode Kemitraan Setara: Beberapa penelitian mengamati bahwa agen dapat menunjukkan empati dalam berkomunikasi dengan manusia, atau berpartisipasi dalam pelaksanaan tugas secara setara. Agen cerdas menunjukkan potensi untuk diterapkan dalam kehidupan sehari-hari dan diharapkan dapat diintegrasikan ke dalam masyarakat manusia di masa depan.

Agen Masyarakat: Dari Kepribadian ke Sosialitas

Sejak lama, para peneliti telah bermimpi untuk membangun “masyarakat buatan yang interaktif.” Dari permainan kotak pasir “The Sims” hingga “Metaverse”, definisi masyarakat simulasi dapat diringkas sebagai: lingkungan + individu yang hidup dan berinteraksi dalam lingkungan lingkungan.

Dalam artikel tersebut, penulis menggunakan diagram untuk menggambarkan kerangka konseptual masyarakat Agen:

*Kerangka konseptual untuk masyarakat agen, dibagi menjadi dua bagian utama: agensi dan lingkungan. *

Dalam kerangka ini kita dapat melihat:

Bagian Sisi Kiri: Pada tingkat individu, agen menunjukkan berbagai perilaku yang terinternalisasi seperti perencanaan, penalaran, dan refleksi. Selain itu, agen menunjukkan ciri-ciri kepribadian intrinsik yang mencakup dimensi kognitif, emosional, dan kepribadian.
Bagian tengah: Agen tunggal dapat membentuk grup dengan agen individu lainnya untuk bersama-sama menunjukkan perilaku kelompok seperti kerja sama, seperti kerja sama kolaboratif.
Bagian kanan: Lingkungan dapat berupa lingkungan sandbox virtual atau dunia fisik nyata. Unsur lingkungan hidup mencakup pelaku manusia dan berbagai sumber daya yang tersedia. Bagi agen tunggal, agen lain juga merupakan bagian dari lingkungan.
Interaksi keseluruhan: Agen berpartisipasi aktif dalam seluruh proses interaksi dengan merasakan lingkungan eksternal dan mengambil tindakan.

Perilaku Sosial dan Kepribadian Agen

Artikel ini mengkaji kinerja agen dalam masyarakat dari perspektif perilaku eksternal dan kepribadian internal:

Perilaku sosial: Dari sudut pandang sosial, perilaku dapat dibagi menjadi dua tingkatan: individu dan kolektif:

Perilaku individu membentuk dasar bagi operasi dan pengembangan agen itu sendiri. Ini mencakup masukan yang diwakili oleh persepsi, keluaran yang diwakili oleh tindakan, dan perilaku yang diinternalisasikan oleh agen itu sendiri.
Perilaku kerumunan mengacu pada perilaku yang terjadi ketika dua atau lebih agen berinteraksi secara spontan. Ini mencakup perilaku positif yang diwakili oleh kolaborasi, perilaku negatif yang diwakili oleh konflik, dan perilaku netral seperti mengikuti kawanan dan mengawasi.

Kepribadian: Termasuk kognisi, emosi, dan kepribadian. Sebagaimana manusia secara bertahap mengembangkan ciri-cirinya sendiri melalui proses sosialisasi, agen juga menunjukkan apa yang disebut “kecerdasan mirip manusia”, yaitu pembentukan kepribadian secara bertahap melalui interaksi dengan kelompok dan lingkungan.

Kemampuan kognitif: Meliputi proses dimana agen memperoleh dan memahami pengetahuan.Penelitian menunjukkan bahwa agen berbasis LLM dapat menunjukkan pertimbangan dan kecerdasan yang mirip dengan manusia dalam beberapa aspek.
Kecerdasan emosional: Melibatkan perasaan subjektif dan keadaan emosi, seperti suka, marah, sedih, dan gembira, serta kemampuan menunjukkan simpati dan empati.
Karakter (Penggambaran karakter): Untuk memahami dan menganalisis karakteristik kepribadian LLM, peneliti telah menggunakan metode penilaian yang matang, seperti tes Kepribadian Lima Besar dan MBTI, untuk mengeksplorasi keragaman dan kompleksitas kepribadian.

Simulasi lingkungan operasi sosial

Masyarakat agen tidak hanya terdiri dari individu-individu yang independen, tetapi juga mencakup lingkungan dimana mereka berinteraksi. Lingkungan mempengaruhi bagaimana agen memandang, bertindak, dan berinteraksi. Pada gilirannya, agen juga mengubah keadaan lingkungan melalui tindakan dan keputusannya. Untuk agen individu, lingkungan mencakup agen otonom lainnya, manusia, dan sumber daya yang tersedia.

Di sini, penulis mengeksplorasi tiga jenis lingkungan:

Lingkungan berbasis teks: Karena LLM terutama mengandalkan bahasa sebagai format masukan dan keluarannya, lingkungan berbasis teks adalah platform operasi paling alami bagi agen. Fenomena dan interaksi sosial digambarkan melalui kata-kata, dan lingkungan tekstual memberikan pengetahuan semantik dan latar belakang. Agen ada di dunia tekstual dan mengandalkan sumber daya tekstual untuk memahami, menalar, dan bertindak.

Lingkungan sandbox virtual: Di bidang komputer, sandbox mengacu pada lingkungan yang terkendali dan terisolasi, sering digunakan untuk pengujian perangkat lunak dan analisis virus. Lingkungan kotak pasir virtual masyarakat agen berfungsi sebagai platform untuk mensimulasikan interaksi sosial dan simulasi perilaku.Fitur utamanya meliputi:

Visualisasi: Anda dapat menggunakan antarmuka grafis 2D sederhana atau bahkan pemodelan 3D yang kompleks untuk menampilkan dunia, menggambarkan semua aspek masyarakat yang disimulasikan dengan cara yang intuitif.
Skalabilitas: Berbagai skenario berbeda (Web, game, dll.) dapat dibangun dan diterapkan untuk melakukan berbagai eksperimen, memberikan ruang luas bagi agen untuk dijelajahi.

Lingkungan Fisik Nyata: Lingkungan fisik adalah lingkungan berwujud yang terdiri dari objek dan ruang aktual tempat agen mengamati dan bertindak. Lingkungan ini memperkenalkan masukan sensorik yang kaya (visual, auditori, dan spasial). Tidak seperti lingkungan virtual, ruang fisik lebih menuntut perilaku agen. Artinya, agen harus dapat beradaptasi dengan lingkungan fisik dan menghasilkan kontrol gerak yang dapat dieksekusi.

Penulis memberikan contoh untuk menjelaskan kompleksitas lingkungan fisik: bayangkan agen cerdas mengoperasikan lengan robot di sebuah pabrik. Saat mengoperasikan lengan robot, kontrol gaya yang tepat diperlukan untuk menghindari kerusakan pada objek dari bahan yang berbeda; selain itu, agen perlu berada di ruang kerja fisik. Menavigasi di tengah dan menyesuaikan jalur pergerakan tepat waktu untuk menghindari rintangan dan mengoptimalkan lintasan pergerakan lengan robot.

Persyaratan ini meningkatkan kompleksitas dan tantangan agen di lingkungan fisik.

Simulasi, mulai!

Dalam artikel tersebut, penulis percaya bahwa masyarakat yang disimulasikan harus terbuka, gigih, situasional, dan terorganisir. Keterbukaan memungkinkan agen untuk masuk dan keluar dari masyarakat yang disimulasikan secara mandiri; ketekunan berarti bahwa masyarakat memiliki lintasan koheren yang berkembang seiring waktu; kontekstualitas menekankan keberadaan dan pengoperasian subjek dalam lingkungan tertentu; organisasi memastikan bahwa masyarakat yang disimulasikan memiliki dunia fisik. seperti aturan dan batasan.

Mengenai pentingnya masyarakat simulasi, kota Agen Generatif Universitas Stanford memberikan contoh nyata bagi semua orang - Masyarakat agen dapat digunakan untuk mengeksplorasi kemampuan intelijen kelompok, misalnya, para agen bersama-sama mengadakan pesta Hari Valentine; hal ini juga dapat digunakan untuk mempercepat penelitian ilmu sosial, seperti mengamati fenomena komunikasi dengan simulasi jaringan sosial. Selain itu, terdapat juga penelitian untuk mengeksplorasi nilai-nilai di balik agen dengan mensimulasikan skenario pengambilan keputusan yang etis, dan untuk membantu pengambilan keputusan dengan mensimulasikan dampak kebijakan terhadap masyarakat.

Lebih lanjut, penulis menunjukkan bahwa simulasi ini mungkin juga memiliki risiko tertentu, termasuk namun tidak terbatas pada: fenomena sosial yang berbahaya; stereotip dan prasangka; masalah privasi dan keamanan; ketergantungan berlebihan dan kecanduan.

Pertanyaan terbuka berwawasan ke depan

Di akhir makalah, penulis juga membahas beberapa pertanyaan terbuka berwawasan ke depan dan memberikan beberapa inspirasi bagi pembaca untuk memikirkan:

**Bagaimana penelitian tentang agen cerdas dan model bahasa besar dapat saling mempromosikan dan berkembang bersama? **Model besar telah menunjukkan potensi kuat dalam pemahaman bahasa, pengambilan keputusan, dan kemampuan generalisasi, dan telah menjadi peran kunci dalam proses konstruksi agen. Kemajuan agen juga menuntut persyaratan yang lebih tinggi untuk model besar.

**Tantangan dan kekhawatiran apa yang akan dibawa oleh Agen berbasis LLM? ** Apakah agen cerdas benar-benar dapat dipraktikkan memerlukan penilaian keamanan yang ketat untuk menghindari bahaya di dunia nyata. Penulis merangkum lebih banyak potensi ancaman, seperti: penyalahgunaan ilegal, risiko pengangguran, dampak terhadap kesejahteraan manusia, dll.

**Peluang dan tantangan apa yang akan ditimbulkan oleh peningkatan skala ini? **Dalam masyarakat simulasi, peningkatan jumlah individu dapat meningkatkan kredibilitas dan keaslian simulasi secara signifikan. Namun, seiring bertambahnya jumlah agen, masalah komunikasi dan penyebaran pesan akan menjadi sangat kompleks, dan distorsi informasi, kesalahpahaman, atau halusinasi akan secara signifikan mengurangi efisiensi keseluruhan sistem simulasi.

**Ada perdebatan di Internet tentang apakah Agen berbasis LLM adalah jalur yang tepat menuju AGI. **Beberapa peneliti percaya bahwa model besar yang diwakili oleh GPT-4 telah dilatih dengan korpus yang memadai, dan agen yang dibangun atas dasar ini berpotensi menjadi kunci untuk membuka pintu bagi AGI. Namun peneliti lain percaya bahwa pemodelan bahasa auto-regresif tidak menunjukkan kecerdasan nyata karena mereka hanya merespons. Metode pemodelan yang lebih lengkap, seperti World Model, dapat menghasilkan AGI.

**Evolusi kecerdasan gerombolan. Swarm Intelligence adalah proses mengumpulkan pendapat banyak orang dan mengubahnya menjadi keputusan. **Namun, akankah “kecerdasan” sejati dapat dihasilkan hanya dengan menambah jumlah agen? Selain itu, bagaimana cara mengoordinasikan agen individu untuk memungkinkan masyarakat agen cerdas mengatasi “pemikiran kelompok” dan bias kognitif pribadi?

**Agen sebagai Layanan (AaaS). **Karena Agen berbasis LLM lebih kompleks daripada model besar itu sendiri, dan lebih sulit dibangun secara lokal oleh perusahaan kecil dan menengah atau individu, vendor cloud dapat mempertimbangkan untuk menerapkan agen cerdas dalam bentuk layanan, yaitu Agen -sebagai-Layanan. Seperti layanan cloud lainnya, AAA berpotensi memberikan fleksibilitas tinggi dan layanan mandiri sesuai permintaan kepada pengguna.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Komentar

0/400

Tidak ada komentar