GPT-5.5 'Parameter 9,7T' Dievaluasi Ulang: Direvisi Menjadi Sekitar 1,5T

Menurut pemantauan oleh Beating, para peneliti AI Lawrence Chan dan Benno Sturgeon telah menerbitkan ulasan terhadap makalah oleh Kepala Ilmuwan Pine AI Li Bojie berjudul ‘Incompressible Knowledge Probes: Estimating the Parameter Count of Black Box Large Language Models Based on Fact Capacity.’ Makalah asli memperkirakan GPT-5.5 sekitar 9,7T, Claude Opus 4,7 sekitar 4,0T, dan o1 sekitar 3,5T menggunakan 1.400 pertanyaan trivia untuk ‘menimbang’ model sumber tertutup. Para peninjau percaya bahwa meskipun pendekatan itu sendiri berharga, angka asli sangat dibesar-besarkan karena kriteria penilaian dan kualitas pertanyaan. Masalah utama terletak pada ‘skor lantai.’ Makalah asli membagi pertanyaan menjadi tujuh tingkat kesulitan, dan ketika sebuah model menjawab terlalu banyak salah pada tingkat tertentu, skor secara teoritis bisa menjadi negatif; namun, kode sebenarnya menarik skor minimum untuk setiap tingkat kembali ke 0. Ini membesar-besarkan kesenjangan kinerja model mutakhir pada pertanyaan sulit dan semakin meningkatkan jumlah parameter yang diperkirakan. Makalah ini mengklaim bahwa hal ini tidak ditangani dengan cara tersebut, namun kode dan hasil yang dipublikasikan menggunakan perlakuan ini. Setelah menghapus ‘skor lantai,’ kemiringan fitting menurun dari 6,79 menjadi 3,56. Kemiringan ini dapat dipahami sebagai ‘untuk setiap peningkatan poin dalam skor, seberapa banyak pertumbuhan parameter yang diterjemahkan’; kemiringan yang lebih kecil menunjukkan bahwa perbedaan skor yang sama tidak lagi berkorelasi dengan perbedaan parameter yang terlalu besar. Nilai R² turun dari 0,917 menjadi 0,815, menunjukkan bahwa kurva fitting ‘skor ke jumlah parameter’ tidak sestabil makalah asli. Interval prediksi 90% membesar dari 3,0 kali menjadi 5,7 kali, menunjukkan margin kesalahan yang lebih lebar dan bahwa angka satu poin tidak boleh diambil secara serius. Ulasan juga menunjukkan bahwa 131 dari 1.400 pertanyaan memiliki ambiguitas atau jawaban yang salah, yang menyumbang 9,4%. Masalah tersebut terutama terkonsentrasi pada pertanyaan sulit, yang digunakan untuk membedakan model sumber tertutup mutakhir seperti GPT-5.5 dan Claude Opus 4.7. Berdasarkan kriteria revisi mereka, GPT-5.5 dikurangi dari 9659B menjadi 1458B, dengan interval prediksi 90% dari 256B hingga 8311B; Claude Opus 4.7 dikurangi dari 4042B menjadi 1132B; dan GPT-5 dikurangi dari 4088B menjadi 1330B. Para peninjau juga menekankan bahwa 1,5T tidak boleh dianggap sebagai jumlah parameter sebenarnya untuk GPT-5.5. Kesimpulan yang lebih akurat adalah bahwa ‘metode penimbangan trivia’ ini sangat sensitif terhadap detail penilaian dan kualitas pertanyaan, dan angka seperti 9,7T tidak dapat langsung digunakan sebagai ukuran bobot untuk model sumber tertutup.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan