Saat ini, model bahasa besar arus utama seperti ChatGPT, Llama 2, dan Wenxin Yiyan telah dibatasi karena masalah arsitektur teknis, dan bahkan Claude hanya mendukung maksimum 100.000 input token, yang sangat merepotkan untuk menafsirkan ratusan halaman laporan, buku, dan makalah.
Untuk mengatasi dilema ini, UC Berkeley mengusulkan MemGPT, terinspirasi oleh mekanisme manajemen memori sistem operasi. Inovasi terbesar dari model ini adalah meniru mekanisme manajemen memori multi-level dari sistem operasi, dan mematahkan batasan konteks tetap dari model bahasa besar melalui transmisi data antara lapisan memori yang berbeda.
Alamat Sumber Terbuka:
Tesis:
MemGPT terutama berisi dua jenis memori: konteks utama dan konteks eksternal. Konteks utama setara dengan memori utama sistem operasi dan merupakan jendela konteks dengan panjang tetap yang dapat langsung diakses oleh model bahasa besar.
Konteks eksternal setara dengan penyimpanan disk, yang menyimpan informasi tambahan di luar konteks utama. MemGPT juga menyediakan banyak panggilan fitur, memungkinkan model bahasa besar untuk secara aktif mengelola memori mereka sendiri tanpa campur tangan manusia.
Panggilan fitur ini dapat mengimpor dan mengekspor informasi antara konteks utama dan eksternal. Berdasarkan tujuan tugas saat ini, model bahasa besar dapat secara mandiri memutuskan kapan harus memindahkan informasi konteks untuk memanfaatkan sumber daya konteks utama yang terbatas dengan lebih baik.
Para peneliti mengevaluasinya di beberapa lingkungan pengujian dan hasilnya menunjukkan bahwa MemGPT dapat secara efektif memproses konten teks yang jauh melebihi batas panjang konteks model bahasa besar, misalnya, M**emGPT dapat memproses dokumen yang jauh melebihi batas konteks GPT-3.5 dan GPT-4.
Ketika jumlah dokumen yang diambil meningkat, kinerja model konteks tetap dibatasi oleh kualitas retriever, sementara MemGPT dapat mengambil lebih banyak dokumen dengan memanggil mekanisme pagination, dan akurasi Tanya Jawabnya juga ditingkatkan.
Dalam tugas ekstraksi kata kunci bersarang multi-langkah yang baru diusulkan, MemGPT berhasil menyelesaikan tugas yang memerlukan kueri multi-hop di seluruh dokumen untuk sampai pada solusi dengan memanggil konteks eksternal beberapa kali, sementara akurasi GPT-3.5 dan GPT-4 turun tajam menjadi 0 ketika jumlah lapisan bersarang meningkat.
Konteks Utama
Konteks utama dalam MemGPT setara dengan “memori utama” dalam sistem operasi, yang merupakan jendela konteks dengan panjang tetap yang dapat langsung diakses oleh model bahasa besar. Para peneliti membagi konteks utama menjadi tiga bagian:
Instruksi Sistem: Bagian ini memegang logika kontrol dasar MemGPT, seperti mode panggilan fungsi, dll., Dengan panjang tetap dan hanya-baca.
Konteks percakapan: Ini adalah antrean masuk pertama, keluar pertama yang menyimpan riwayat interaksi pengguna terbaru, baca-saja, dan memangkas percakapan sebelumnya saat panjangnya terlampaui.
Konteks kerja: Ini adalah penyimpanan sementara baca-tulis di mana model bahasa besar dapat menulis informasi secara mandiri melalui panggilan fitur.
Penting untuk dicatat bahwa ketiga bagian ini bersama-sama tidak dapat melebihi panjang konteks maksimum dari model bahasa besar yang mendasarinya.
Konteks Eksternal
Konteks eksternal menyimpan informasi tambahan di luar konteks utama, bertindak sebagai “penyimpanan disk” dalam sistem operasi. Konteks eksternal memerlukan panggilan fungsi eksplisit untuk mengimpor informasi ke dalam konteks utama untuk diakses model, termasuk dua jenis berikut:
Penyimpanan Backtracking: Menyimpan informasi peristiwa historis lengkap, setara dengan versi konteks percakapan yang tidak terkompresi.
Penyimpanan arsip: Database baca-tulis tujuan umum yang dapat berfungsi sebagai ruang luapan untuk konteks utama untuk menyimpan informasi tambahan. Di app percakapan, penyimpanan arsip dapat menyimpan informasi tambahan tentang peran, preferensi, dan lainnya milik pengguna atau sistem.
Penyimpanan backtracking memungkinkan pengambilan interaksi historis untuk periode waktu tertentu. Dalam analisis dokumen, penyimpanan arsip dapat mendukung pencarian kumpulan dokumen yang lebih besar.
Penyuntingan dan Pencarian Independen
MemGPT secara aktif memindahkan data di antara tingkat memori melalui panggilan fungsi yang dihasilkan oleh model bahasa besar untuk mencapai pengeditan dan pengambilan otonom. Misalnya, Anda dapat memutuskan kapan harus memindahkan informasi antar konteks agar sesuai dengan tujuan tugas saat ini tanpa keterlibatan manusia.
Inovasi ini terletak pada deskripsi rinci tentang arsitektur memori dan metode pemanggilan fungsi dalam instruksi sistem, yang memandu model bahasa besar untuk belajar menggunakan alat-alat ini untuk mengelola memori.
Model bahasa besar dapat menyesuaikan strategi doa berdasarkan umpan balik. Pada saat yang sama, ketika ruang konteks utama tidak mencukupi, sistem mengingatkan model bahasa besar untuk menyimpan informasi penting dalam waktu dan memandunya untuk mengelola memori.
Rantai
Di MemGPT, berbagai peristiwa eksternal memicu model bahasa besar untuk membuat kesimpulan, termasuk pesan pengguna, peringatan memori sistem, peristiwa interaksi pengguna, dan banyak lagi.
Panggilan fungsi dapat meminta untuk mendapatkan kontrol, memungkinkan panggilan berantai. Misalnya, ketika hasilnya diberi nomor halaman, panggilan berturut-turut dapat mengumpulkan data dari halaman yang berbeda ke dalam konteks utama.
Panggilan hasil, di sisi lain, menjeda model bahasa besar hingga peristiwa eksternal berikutnya memicu inferensi. Aliran kontrol berbasis peristiwa ini mengatur komunikasi yang lancar antara manajemen memori, inferensi model, dan interaksi pengguna.
Parser & Optimasi
MemGPT menggunakan parser untuk memverifikasi panggilan fungsi yang dihasilkan oleh model bahasa besar, memeriksa apakah parameternya benar, dll. Hasilnya diumpankan kembali ke model setelah panggilan, sehingga strategi dapat dipelajari untuk disesuaikan dan kesalahan dapat dikurangi.
Selain itu, instruksi sistem MemGPT dapat diperbarui secara real time untuk menambahkan panduan manajemen memori yang disesuaikan ke model untuk tugas yang berbeda untuk mencapai pengoptimalan berkelanjutan.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Konteks tak terbatas, manajemen memori multi-level! Menerobos batasan konteks model bahasa besar seperti ChatGPT
Sumber asli: AIGC Open Community
Saat ini, model bahasa besar arus utama seperti ChatGPT, Llama 2, dan Wenxin Yiyan telah dibatasi karena masalah arsitektur teknis, dan bahkan Claude hanya mendukung maksimum 100.000 input token, yang sangat merepotkan untuk menafsirkan ratusan halaman laporan, buku, dan makalah.
Untuk mengatasi dilema ini, UC Berkeley mengusulkan MemGPT, terinspirasi oleh mekanisme manajemen memori sistem operasi. Inovasi terbesar dari model ini adalah meniru mekanisme manajemen memori multi-level dari sistem operasi, dan mematahkan batasan konteks tetap dari model bahasa besar melalui transmisi data antara lapisan memori yang berbeda.
Alamat Sumber Terbuka:
Tesis:
Konteks eksternal setara dengan penyimpanan disk, yang menyimpan informasi tambahan di luar konteks utama. MemGPT juga menyediakan banyak panggilan fitur, memungkinkan model bahasa besar untuk secara aktif mengelola memori mereka sendiri tanpa campur tangan manusia.
Panggilan fitur ini dapat mengimpor dan mengekspor informasi antara konteks utama dan eksternal. Berdasarkan tujuan tugas saat ini, model bahasa besar dapat secara mandiri memutuskan kapan harus memindahkan informasi konteks untuk memanfaatkan sumber daya konteks utama yang terbatas dengan lebih baik.
Ketika jumlah dokumen yang diambil meningkat, kinerja model konteks tetap dibatasi oleh kualitas retriever, sementara MemGPT dapat mengambil lebih banyak dokumen dengan memanggil mekanisme pagination, dan akurasi Tanya Jawabnya juga ditingkatkan.
Dalam tugas ekstraksi kata kunci bersarang multi-langkah yang baru diusulkan, MemGPT berhasil menyelesaikan tugas yang memerlukan kueri multi-hop di seluruh dokumen untuk sampai pada solusi dengan memanggil konteks eksternal beberapa kali, sementara akurasi GPT-3.5 dan GPT-4 turun tajam menjadi 0 ketika jumlah lapisan bersarang meningkat.
Konteks Utama
Konteks utama dalam MemGPT setara dengan “memori utama” dalam sistem operasi, yang merupakan jendela konteks dengan panjang tetap yang dapat langsung diakses oleh model bahasa besar. Para peneliti membagi konteks utama menjadi tiga bagian:
Instruksi Sistem: Bagian ini memegang logika kontrol dasar MemGPT, seperti mode panggilan fungsi, dll., Dengan panjang tetap dan hanya-baca.
Konteks percakapan: Ini adalah antrean masuk pertama, keluar pertama yang menyimpan riwayat interaksi pengguna terbaru, baca-saja, dan memangkas percakapan sebelumnya saat panjangnya terlampaui.
Konteks kerja: Ini adalah penyimpanan sementara baca-tulis di mana model bahasa besar dapat menulis informasi secara mandiri melalui panggilan fitur.
Penting untuk dicatat bahwa ketiga bagian ini bersama-sama tidak dapat melebihi panjang konteks maksimum dari model bahasa besar yang mendasarinya.
Konteks Eksternal
Konteks eksternal menyimpan informasi tambahan di luar konteks utama, bertindak sebagai “penyimpanan disk” dalam sistem operasi. Konteks eksternal memerlukan panggilan fungsi eksplisit untuk mengimpor informasi ke dalam konteks utama untuk diakses model, termasuk dua jenis berikut:
Penyimpanan Backtracking: Menyimpan informasi peristiwa historis lengkap, setara dengan versi konteks percakapan yang tidak terkompresi.
Penyimpanan arsip: Database baca-tulis tujuan umum yang dapat berfungsi sebagai ruang luapan untuk konteks utama untuk menyimpan informasi tambahan. Di app percakapan, penyimpanan arsip dapat menyimpan informasi tambahan tentang peran, preferensi, dan lainnya milik pengguna atau sistem.
Penyuntingan dan Pencarian Independen
MemGPT secara aktif memindahkan data di antara tingkat memori melalui panggilan fungsi yang dihasilkan oleh model bahasa besar untuk mencapai pengeditan dan pengambilan otonom. Misalnya, Anda dapat memutuskan kapan harus memindahkan informasi antar konteks agar sesuai dengan tujuan tugas saat ini tanpa keterlibatan manusia.
Model bahasa besar dapat menyesuaikan strategi doa berdasarkan umpan balik. Pada saat yang sama, ketika ruang konteks utama tidak mencukupi, sistem mengingatkan model bahasa besar untuk menyimpan informasi penting dalam waktu dan memandunya untuk mengelola memori.
Rantai
Di MemGPT, berbagai peristiwa eksternal memicu model bahasa besar untuk membuat kesimpulan, termasuk pesan pengguna, peringatan memori sistem, peristiwa interaksi pengguna, dan banyak lagi.
Panggilan fungsi dapat meminta untuk mendapatkan kontrol, memungkinkan panggilan berantai. Misalnya, ketika hasilnya diberi nomor halaman, panggilan berturut-turut dapat mengumpulkan data dari halaman yang berbeda ke dalam konteks utama.
Parser & Optimasi
MemGPT menggunakan parser untuk memverifikasi panggilan fungsi yang dihasilkan oleh model bahasa besar, memeriksa apakah parameternya benar, dll. Hasilnya diumpankan kembali ke model setelah panggilan, sehingga strategi dapat dipelajari untuk disesuaikan dan kesalahan dapat dikurangi.
Selain itu, instruksi sistem MemGPT dapat diperbarui secara real time untuk menambahkan panduan manajemen memori yang disesuaikan ke model untuk tugas yang berbeda untuk mencapai pengoptimalan berkelanjutan.