Kepercayaan diri saat pelatihan Muon sangat akurat, tetapi mudah overfit saat beralih ke sampel baru

robot
Pembuatan abstrak sedang berlangsung

Berita dari CoinWorld, optimizer Muon menunjukkan tingkat kepercayaan diri yang sangat tinggi selama pelatihan, tetapi cenderung mengalami fenomena kepercayaan diri berlebihan pada sampel baru. Makalah terbaru berjudul 《too sharp, too sure: when calibration follows curvature》 menunjukkan bahwa model dapat menilai tingkat keyakinannya dengan akurat pada data pelatihan, tetapi pada data pengujian, tingkat kepercayaan tidak sesuai dengan tingkat keberhasilan sebenarnya, yang menyebabkan kepercayaan diri berlebihan. Eksperimen menunjukkan bahwa ECE pengujian Muon pada tugas klasifikasi gambar CIFAR-10 adalah 0,065, AdamW adalah 0,061, SGD adalah 0,081, dan SAM adalah 0,020. ECE pelatihan Muon hampir mendekati 0, menunjukkan adanya perbedaan yang lebih mencolok antara data pelatihan dan data pengujian. Metode Calmo yang diajukan dalam makalah dapat menurunkan ECE pengujian Muon menjadi 0,019, tetapi belum diverifikasi pada model bahasa besar. Laporan teknologi DeepSeek V4 menunjukkan bahwa beberapa modul masih menggunakan AdamW, mengingatkan perlunya perhatian terhadap kinerja Muon saat generalisasi.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan