Jangan lagi bodoh-bodoh menumpuk daya komputasi! Penelitian menunjukkan bahwa model besar semakin dilatih semakin "kaku", memperbesar parameter juga tidak bisa berbuat apa-apa.

robot
Pembuatan abstrak sedang berlangsung
ME AI Berita, menurut pemantauan Beating, AI seiring bertambahnya waktu pelatihan akan secara bertahap kehilangan kemampuan untuk menyerap pengetahuan baru (kehilangan plastisitas), dan akhirnya semakin dilatih semakin kaku. Jika kehilangan plastisitas tidak dapat diatasi, model besar tidak akan pernah dapat terus belajar dengan biaya rendah, setiap pembaruan pengetahuan hanya dapat melatih ulang semua data historis bersama dengan data baru, mengonsumsi daya komputasi yang sangat besar. Penelitian terbaru dari startup AI Zyphra untuk pertama kalinya membuktikan bahwa meskipun memperbesar model dapat menunda degradasi, manfaat marginalnya menurun, dan hanya dengan menumpuk parameter tidak dapat menyembuhkan kehilangan plastisitas. Ekstrapolasi menunjukkan bahwa model dengan parameter 1B akan menjadi bodoh setelah dilatih dengan 1,8 triliun token, dan model 7B akan terlihat setelah 9 triliun. Lebih revolusioner lagi, bahkan tanpa peralihan tugas, hanya dengan melatih model pada dataset campuran yang stabil, kehilangan plastisitas tetap akan terjadi. Penelitian menunjukkan bahwa ada tiga penyebab langsung model besar menjadi bodoh: volume parameter terus bertambah seiring pelatihan, yang di bawah mekanisme LayerNorm menghambat transmisi gradien; neuron di lapisan MLP mengalami hibernasi massal (beberapa model bahkan memiliki 95% neuron yang masuk ke hibernasi); kepala perhatian lumpuh (hanya fokus pada karakter individual dan runtuh) atau malas (mengoleskan secara merata ke semua konteks). Untuk mengatasi karakteristik patologis ini, potensi solusi pengobatan termasuk membatasi ekspansi parameter, secara berkala melakukan "reset saraf" untuk mengaktifkan neuron yang mogok secara paksa, dan memperkenalkan noise acak dalam mekanisme perhatian untuk memaksa koreksi. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar