Peneliti MIT Ungkap Mekanisme Superposisi Kuat LLM: Membuat Kesalahan Dua Kali Lebih Lebih Setengahnya

robot
Pembuatan abstrak sedang berlangsung

AIMPACT Pesan, 3 Mei (UTC+8), Peneliti MIT mengungkapkan mekanisme kinerja model bahasa besar yang dapat diperluas secara andal sesuai skala, memberikan verifikasi eksperimen pertama untuk fenomena “tumpang tindih”. Penelitian menemukan bahwa LLM mengakali batas dimensi dengan menyimpan beberapa konsep dalam satu dimensi yang sama, “tumpang tindih kuat” ini memungkinkan model untuk secara bersamaan mewakili semua konsep, dan sumber kesalahan berasal dari noise yang dihasilkan oleh tumpang tindih tersebut. Tim menggunakan model sederhana dari Anthropic serta model sumber terbuka seperti OPT, GPT-2, Qwen2.5, Pythia untuk memverifikasi: ketika lebar model digandakan, kesalahan berkurang sekitar setengah, indeks skala mencapai 0,91, mendekati nilai teoretis 1. Penelitian menjawab dua pertanyaan kunci: skala akan berhenti saat lebar model cocok dengan ukuran kosakata; untuk tugas bahasa alami, distribusi frekuensi kata yang datar membatasi percepatan ruang, tetapi desain arsitektur yang mendorong tumpang tindih dapat mencapai kinerja yang lebih baik dalam skala yang sama.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan