Jalan menuju AGI: Logika di balik ChatGPT, kompresi adalah kecerdasan

PANews · 2023-09-04T08:19:52+00:00

Apa sebenarnya pembelajaran mesin itu? Pembelajaran mesin pertama kali dikemukakan oleh Bayes dalam teorema dengan nama yang sama yang diterbitkan pada tahun 1783. Teorema Bayes adalah tentang belajar dari data pelatihan untuk membuat prediksi terbaik pada data baru yang belum terlihat. Terus terang, ini adalah apa yang kita sebut "menarik kesimpulan dari satu kasus ke kasus lainnya".

PANews

2023-09-04 08:19:52

Saya berpikir, maka saya ada

Bulan lalu di kamp kode wanita Shanhaiwu, sebagai dosen, saya berbagi isu “Jalan Menuju AGI: Kompresi adalah Kecerdasan” dan menemukan bahwa semua orang sangat tertarik dengan AIGC dan model besar, namun banyak teman yang tidak memahaminya di waktu., jadi saya menulis penjelasan bahasa sehari-hari ini. Semoga dapat bermanfaat bagi yang tertarik dengan AIGC. Jika Anda memerlukan pemahaman lebih dalam, silakan merujuk ke Jack Rae (anggota inti tim OpenAI) di Stanford setelah membaca keynote Speech ini: Compression for AGI (ini juga menjadi referensi utama artikel ini.

1 Mulai dari pembelajaran mesin

Pembelajaran mesin mungkin asing bagi mereka yang berlatar belakang non-komputer. Namun setiap aspek kehidupan kita telah tercakup dalam pembelajaran mesin. Misalnya, ketika kita membuka perangkat lunak seperti Zhihu, Douyin, dan Xiaohongshu, sistem akan secara otomatis merekomendasikan konten yang mungkin kita minati; ketika saya baru saja ngobrol dengan teman saya tentang membeli gaun merek tertentu, saya membuka Taobao dan menemukan Rekomendasi pencarian telah menjadi merek; sistem email akan membantu kami memblokir spam secara otomatis; kamera lalu lintas mengambil gambar pengemudi yang mengemudi untuk menyimpulkan apakah ada pelanggaran. Ini semua mendapat manfaat dari pembelajaran mesin.

Jadi apa sebenarnya pembelajaran mesin itu? Teori pembelajaran mesin paling awal dikemukakan oleh Bayes dalam teorema dengan nama yang sama yang diterbitkan pada tahun 1783. Teorema Bayes belajar dari data pelatihan untuk membuat prediksi terbaik pada data baru yang belum terlihat. Terus terang, itulah yang kami katakan “dengan analogi”.

Ini adalah disiplin ilmu yang memungkinkan komputer untuk belajar sendiri tanpa diprogram secara eksplisit (Arthur, 1959), dan merupakan subbidang dari kecerdasan buatan. Ada beberapa hal yang bisa kita lakukan melalui pemrograman eksplisit, seperti menghitung 188 pangkat 12, atau jarak terpendek dari a ke b. Namun ada beberapa masalah di mana pemrograman eksplisit tidak dapat membantu kita.

Misalnya kita berharap komputer bisa menjadi pemain Go yang hebat. Kita bisa memprogram komputer agar komputer bisa bermain catur sendiri. Setelah bermain 10.000 kali, komputer dapat mengamati bahwa di akhir permainan, tingkat kemenangan suatu posisi tertentu lebih besar dari lokasi lainnya, di situlah program akan memilih. Karena kekuatan komputasi komputer yang kuat, ia dapat menyelesaikan permainan yang tak terhitung jumlahnya dalam waktu singkat, sehingga ia akan mengetahui lebih banyak cara untuk menang, dan pada akhirnya menjadi pemain catur yang melampaui manusia. Membiarkan mesin belajar sendiri untuk menemukan solusi terbaik adalah proses pembelajaran mesin, namun apa sebenarnya yang telah dipelajari mesin tersebut? Ini adalah kotak hitam, kita hanya bisa mendapatkan hasil keluaran dari masukan tersebut.

Algoritme pembelajaran mesin dapat dibagi menjadi empat jenis menurut metode pembelajarannya: Pembelajaran yang diawasi, Pembelajaran tanpa pengawasan, Pembelajaran semi-supervisi, dan Pembelajaran penguatan. Yang paling umum digunakan adalah pembelajaran yang diawasi, tetapi ChatGPT memilih pembelajaran penguatan sebagai algoritma intinya.

2 Pembelajaran Penguatan VS Pembelajaran yang Diawasi

Karena pembelajaran yang diawasi adalah algoritma utama, mengapa OpenAI memilih pembelajaran penguatan? Di sini pertama-tama kami memperkenalkan konsep keduanya.

Pembelajaran yang diawasi mengacu pada algoritme yang mempelajari pemetaan antara masukan dan keluaran, belajar dari contoh yang diberikan oleh pengguna. Misalnya kita sering menemukan beberapa email otomatis diblokir dan dimasukkan ke tempat sampah. Lalu bagaimana sistem menentukan apakah suatu email adalah spam? Hal ini menggunakan pembelajaran yang diawasi. Pertama, teknisi perlu memasukkan data berlabel dalam jumlah besar ke algoritme. Dalam contoh ini, email dapat digunakan sebagai masukan, dan hasil keluaran terkait ada dua jenis: spam dan bukan spam (Ya/ Tidak , yaitu, label). Misalkan kita memasukkan 100.000 data, algoritme akan mempelajari karakteristik spam berdasarkan 100.000 data tersebut. Saat ini, ketika kami memasukkan email baru ke dalamnya, ia akan menilai apakah email baru tersebut memenuhi karakteristik spam berdasarkan model yang telah dilatih sebelumnya, sehingga memutuskan apakah akan mencegatnya.

Pembelajaran penguatan lebih seperti mekanisme umpan balik penghargaan. Dalam pembelajaran penguatan, kami memberikan masukan kepada model, namun kami tidak memberikan jawaban yang benar. Model perlu menghasilkan jawabannya sendiri. Kemudian mintalah orang sungguhan untuk membaca jawaban yang dihasilkan dan memberikan skor untuk jawabannya (misalnya 80 poin pada skala 1-100). Tujuan dari model adalah bagaimana menjawab untuk mendapatkan skor yang tinggi. Mekanisme lainnya adalah model menghasilkan banyak jawaban, dan mekanisme penilaian memberi tahu model jawaban mana yang terbaik. Tujuan dari model ini adalah untuk belajar menghasilkan jawaban dengan skor tinggi, bukan jawaban dengan skor rendah. Dalam kedua kasus tersebut, model belajar dengan menghasilkan jawaban dan menerima umpan balik.

Sebaliknya, pembelajaran yang diawasi hanya memungkinkan umpan balik positif (kami memberi model serangkaian pertanyaan dan jawaban yang benar), sedangkan pembelajaran penguatan memungkinkan umpan balik negatif (model dapat menghasilkan jawaban yang salah dan mendapatkan umpan balik yang mengatakan “jawaban ini buruk, lain kali” Jangan lakukan itu lagi"). Umpan balik negatif sama pentingnya dengan umpan balik positif, seperti yang ditemukan orang-orang selama proses pembelajaran. Ini mungkin alasan OpenAI memilih pelatihan RLHF (yaitu pelatihan pembelajaran penguatan berdasarkan umpan balik manusia).

Coba pikirkan baik-baik, apakah ini sangat mirip dengan cara manusia belajar? Ketika kita belajar, kita juga memperoleh sejumlah besar pengetahuan, kemudian mengikuti ujian untuk menguji situasi belajar, dan akhirnya menerapkan pengetahuan yang diperoleh ke skenario baru (transfer pembelajaran, yang juga merupakan salah satu basis GPT). Oleh karena itu, putaran AIGC ini juga dianggap sangat dekat dengan AGI (Artificial General Intelligence).

3 Jalan menuju AGI

Sederhananya, AGI merupakan kecerdasan buatan yang memiliki kecerdasan sama dengan manusia, atau melebihi manusia. Apakah menurut Anda ChatGPT sudah memiliki fitur tersebut? Tapi bagaimana menilai kecerdasan kecerdasan buatan?

Pada tahun 1980, John Searle mengusulkan eksperimen pemikiran terkenal “Ruang Cina”. Proses eksperimennya dapat diungkapkan sebagai berikut:

Kunci orang yang tidak bisa berbahasa Mandarin dan hanya bisa berbahasa Inggris di ruangan tertutup yang hanya memiliki jendela kecil. Ada manual dengan terjemahan bahasa Mandarin dan Inggris di dalam kamar. Ada cukup kertas naskah dan pensil di dalam ruangan. Pada saat yang sama, potongan kertas bertuliskan bahasa Mandarin dikirim ke dalam ruangan melalui jendela kecil. Orang-orang di ruangan itu dapat menggunakan bukunya untuk menerjemahkan kata-kata dan membalas dalam bahasa Mandarin. Meskipun dia tidak bisa berbahasa Mandarin sama sekali, melalui proses ini, orang yang berada di dalam ruangan dapat membuat siapa pun di luar ruangan berpikir bahwa dia fasih berbahasa Mandarin.

Buku pedoman sebesar itu jelas mewakili tingkat kecerdasan yang sangat rendah, karena sekali menemukan kata-kata yang tidak ada dalam buku pedoman tersebut, orang tersebut tidak dapat mengatasinya. Jika kita dapat mengekstrak beberapa tata bahasa dan aturan dari sejumlah besar data, manualnya mungkin menjadi lebih ringkas, namun sistemnya akan lebih cerdas (kemampuan generalisasi lebih baik).

Semakin tebal buku panduannya, semakin lemah kecerdasannya; semakin tipis buku panduannya, semakin kuat kecerdasannya. Ini seperti ketika sebuah perusahaan mempekerjakan seseorang, semakin Anda mampu, semakin sedikit Anda perlu menjelaskan; semakin kurang mampu, semakin banyak Anda perlu menjelaskan.

Contoh di atas menjelaskan dengan baik mengapa kompresi adalah kecerdasan: jika Anda ingin meningkatkan kecerdasan AI, Anda dapat mengekstrak informasi efektif yang diperlukan dengan menggeneralisasi aturan ekstraksi. Dengan cara ini, Anda dapat memahami apa yang sering dikatakan oleh para peneliti NLP: **Proses pelatihan GPT adalah kompresi data tanpa kehilangan. **

4 Kompresi adalah kecerdasan

Pada tanggal 28 Februari, Jack Rae, pengembang inti OpenAI, berbagi topik yang disebut Kompresi untuk AGI selama wawancara di Seminar MLSys Stanford. Sudut pandang intinya adalah: **Tujuan dari model dasar AGI adalah untuk memaksimalkan efektivitas informasi Kompresi lossless maksimum. **Pada saat yang sama, ini memberikan analisis logis tentang mengapa tujuan ini masuk akal, dan bagaimana OpenAI menciptakan ChatGPT berdasarkan tujuan ini.

Generalisasi adalah proses ekstrapolasi dari yang diketahui ke yang tidak diketahui. Seperti yang ditunjukkan pada gambar, isu inti yang menjadi perhatian kami adalah bagaimana mempelajari pola data yang tidak diketahui dan membuat prediksi (abu-abu) dari data yang ada (kuning). Semakin akurat suatu model memprediksi bagian abu-abu, semakin kuat kemampuan generalisasinya.

Bayangkan sebuah perangkat lunak komputer perlu menerjemahkan bahasa Inggris ke bahasa Mandarin. Jika perangkat lunak tersebut menerjemahkan semua kemungkinan frasa ke dalam bahasa Mandarin dengan mencari kamus, maka kita dapat berpikir bahwa perangkat lunak tersebut memiliki pemahaman yang paling buruk tentang tugas penerjemahan, karena frasa apa pun yang muncul di luar kamus tidak akan baik-baik saja. bisa diterjemahkan. Namun jika kamus disaring menjadi seperangkat aturan yang lebih kecil (seperti beberapa tata bahasa atau kosa kata dasar) maka kamus tersebut akan lebih mudah dipahami, sehingga kita dapat menilainya berdasarkan seberapa padat kumpulan aturan tersebut. Faktanya, jika kita dapat memampatkannya hingga panjang deskripsi minimum, maka kita dapat mengatakan bahwa ia memiliki pemahaman terbaik untuk tugas penerjemahan.

Untuk kumpulan data tertentu D, kita dapat mengompresinya menggunakan model generatif f. Pada gambar | D | mewakili kompresi lossless dari kumpulan data D. Besarnya kompresi lossless dapat dinyatakan sebagai logaritma negatif dari model generatif dievaluasi pada D. Kemudian tambahkan panjang deskripsi minimum dari fungsi yang diperkirakan.

Jadi bagaimana model besar mencapai kompresi lossless? Pertama-tama kita perlu memahami sifat GPT. GPT sebenarnya adalah kamus besar berdasarkan Transformer, dan intinya adalah Prediksi Token Berikutnya (alasannya di bawah). Sederhananya, ini untuk memprediksi kata atau frasa terakhir yang mungkin muncul setelah rangkaian teks tertentu. Misalnya, jika saya bertanya, “Apakah kamu tidur nyenyak tadi malam?” sebelum saya selesai berbicara, Anda akan tahu bahwa kemungkinan besar saya akan berkata, “Apakah kamu tidur nyenyak tadi malam?” Anda dapat menyimpulkan bahwa saya akan terus mengatakan, “Oke?” Prosesnya adalah alasan berikut.

Anda mungkin mengatakan bahwa jelas bahwa apa yang dipelajari dengan cara ini bukan hanya hubungan statistik yang dangkal antar kata? Bagaimana kecerdasan muncul?

Misalkan Anda perlu mengirimkan beberapa data dari galaksi Centauri yang jauh kembali ke Bumi, tetapi bandwidth sangat berharga, Anda perlu menggunakan bandwidth minimum untuk mengirimkan data dan memastikan bahwa ujung yang lain dapat memulihkan data Anda tanpa kehilangan. Anda dapat menggunakan metode ini:

Pertama, siapkan kode pelatihan model bahasa yang akan menghasilkan model jaringan saraf yang sama setiap kali Anda menjalankannya.

Kedua, jalankan program pelatihan pada potongan data N. Pada waktu t, keluarkan probabilitas Xt di bawah semua distribusi probabilitas token Pt, dan gunakan kode aritmatika untuk mengubahnya menjadi desimal biner, dicatat sebagai Zt. Dengan analogi, diperoleh daftar yang terdiri dari Z1, Z2, Z3,…, Zn.

Jika Anda ingin memulihkan N potongan data ini tanpa kehilangan di ujung yang lain, Anda hanya perlu mengirimkan dua konten berikut: daftar Z1-Zn dan kode pelatihan model bahasa.

Saat mendekode di sisi penerima, kami menginisialisasi jaringan menggunakan kode pelatihan yang diterima. Pada stempel waktu t, model menggunakan Pt untuk mendekode aritmatika Zt untuk mendapatkan Xt. Perlu dicatat bahwa distribusi probabilitas token Pt pada waktu t sepenuhnya konsisten pada pengirim dan penerima.

Seluruh proses adalah proses kompresi data lossless. Berdasarkan kode pelatihan model bahasa, kami mengompresi N buah data menjadi rangkaian angka Z1-Zn. Ukuran setiap data terkompresi adalah -logp(x). Perlu dicatat bahwa dalam keseluruhan proses, kita tidak perlu mengirimkan seluruh jaringan saraf (ratusan miliar parameter).

Oleh karena itu, jumlah bit untuk mengompresi dataset D menggunakan model bahasa dapat dinyatakan sebagai rumus berikut:

Panjang deskripsi model berbasis transformator kira-kira antara 100kb ~ 1MB (semua ukuran kode yang diperlukan). Parameter model tidak termasuk dalam deskripsi panjang model.

Seringkali kita merasa bahwa chatgpt penuh dengan kesalahan pada pertanyaan faktual, misalnya jika kita bertanya kepadanya dari kota mana Liu Cixin berasal, modelnya akan tetap memberikan jawaban yang salah. Hal ini karena selama proses pelatihan, model secara perlahan mengingat beberapa data pelatihan. Parameter model dapat dianggap sebagai kompresi data lossy untuk data pelatihan. Hal ini juga yang dikatakan Ted Jiang dalam “ChatGPT adalah semua teks di Internet.” gambar buram". LLM adalah kompresi lossless dari kumpulan data asli, yang sangat spesifik dan dapat dibuktikan secara matematis secara ketat. Kompresi lossy yang disebutkan Ted Chiang adalah analogi sastra yang sangat abstrak.

Masih ingat gambar ini? Yang kami pedulikan bukanlah konten yang ada di dalam lingkaran kuning, melainkan bagian luar yang berwarna abu-abu, karena yang kami pedulikan adalah bagaimana menggunakan lebih sedikit konten untuk memperoleh lebih banyak pengetahuan, yaitu kemampuan generalisasi. Generalisasi adalah kecerdasan dibandingkan dengan parameter heap!

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

1 Suka