Penelitian MIT mengungkapkan mekanisme peningkatan kinerja model bahasa besar yang diperluas, pertama kali menguji fenomena "penumpukan kuat": penumpukan banyak konsep dalam satu dimensi, di mana gangguan penumpukan menyebabkan kesalahan. Dengan memvalidasi menggunakan model sederhana Anthropic dan model sumber terbuka: menggandakan lebar, kesalahan berkurang setengah, eksponen skala sekitar 0,91. Penelitian menjawab dua pertanyaan: perluasan akan berhenti saat lebar mencapai ukuran kosakata; distribusi frekuensi kata dalam tugas bahasa alami membatasi ruang perluasan, tetapi arsitektur yang mendorong penumpukan dapat mencapai kinerja yang lebih baik dengan skala yang sama.

MeNews

2026-05-03 12:01:25

Pembuatan abstrak sedang berlangsung

AIMPACT Pesan, 3 Mei (UTC+8), Peneliti MIT mengungkapkan mekanisme kinerja model bahasa besar yang dapat diperluas secara andal sesuai skala, memberikan verifikasi eksperimen pertama untuk fenomena “tumpang tindih”. Penelitian menemukan bahwa LLM mengakali batas dimensi dengan menyimpan beberapa konsep dalam satu dimensi yang sama, “tumpang tindih kuat” ini memungkinkan model untuk secara bersamaan mewakili semua konsep, dan sumber kesalahan berasal dari noise yang dihasilkan oleh tumpang tindih tersebut. Tim menggunakan model sederhana dari Anthropic serta model sumber terbuka seperti OPT, GPT-2, Qwen2.5, Pythia untuk memverifikasi: ketika lebar model digandakan, kesalahan berkurang sekitar setengah, indeks skala mencapai 0,91, mendekati nilai teoretis 1. Penelitian menjawab dua pertanyaan kunci: skala akan berhenti saat lebar model cocok dengan ukuran kosakata; untuk tugas bahasa alami, distribusi frekuensi kata yang datar membatasi percepatan ruang, tetapi desain arsitektur yang mendorong tumpang tindih dapat mencapai kinerja yang lebih baik dalam skala yang sama.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
WCTCTradingKingPK
547.37K Popularitas
#
USSeeksStrategicBitcoinReserve
58.76M Popularitas
#
IsraelStrikesIranBTCPlunges
39.64K Popularitas
#
BitcoinETFOptionLimitQuadruples
1.03M Popularitas
#
#FedHoldsRateButDividesDeepen
43.67K Popularitas

Sematkan

peta situs

Peneliti MIT Ungkap Mekanisme Superposisi Kuat LLM: Membuat Kesalahan Dua Kali Lebih Lebih Setengahnya

Topik Trending

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Sematkan