Stanford dan Berkeley mengusulkan LLM-as-a-Verifier, sekaligus memperbarui peringkat teratas Terminal-Bench dan SWE-Bench

robot
Pembuatan abstrak sedang berlangsung

ME News Berita, 14 April (UTC+8), menurut pemantauan 1M AI News, saat agen pemrograman AI menangani satu tugas, menjalankan beberapa kali seringkali menghasilkan solusi yang berbeda, di antaranya mungkin ada yang salah. Jika bisa secara otomatis memilih yang terbaik, tingkat keberhasilan keseluruhan bisa melebihi satu kali jalankan. Masalahnya adalah bagaimana memilih: membiarkan model lain sebagai juri memberi penilaian (yaitu LLM-as-a-Judge) adalah praktik utama saat ini, tetapi tingkat penilaiannya terlalu kasar, sering memberi skor yang sama untuk solusi yang berbeda, sehingga tidak bisa membedakan yang lebih baik. Laboratorium AI Stanford dan Laboratorium Sky Computing Berkeley bekerja sama dengan Nvidia mengusulkan LLM-as-a-Verifier, yang memperbaiki proses pemilihan ini. Tidak lagi hanya melihat skor akhir yang diberikan juri, tetapi membaca distribusi probabilitas model pada setiap tingkat penilaian, lalu menghitung nilai penghargaan kontinu dari situ. Selain itu, juri diulang beberapa kali dan rata-rata diambil untuk menghilangkan bias kebetulan, dan penilaian keseluruhan dibagi menjadi tiga dimensi independen (apakah memenuhi kebutuhan tugas, apakah format output benar, apakah ada sinyal kesalahan) yang diverifikasi secara terpisah. Dalam eksperimen, menggunakan Gemini 2.5 Flash sebagai verifikator, tingkat akurasi verifikasi satu kali 74,7%, sedangkan Judge tradisional hanya 57,0%; setelah diulang 16 kali, Verifier mencapai 77,4%, Judge 70,2%. Judge tradisional memiliki 26,5% hasil yang berakhir seri, sedangkan Verifier dalam semua konfigurasi memiliki tingkat seri 0%. Efek nyata: di Terminal-Bench 2, menjalankan GPT-5.4 sebanyak 5 kali pada tugas yang sama, probabilitas keberhasilan memilih satu secara acak adalah 81,8%, setelah dipilih dengan Verifier meningkat menjadi 86,4%. Di SWE-Bench Verified, dari Claude Opus 4.5, Claude Opus 4.6, dan Gemini 3 Flash masing-masing mengambil 1 solusi (total 3 solusi), setelah dipilih meningkat dari 76,1% menjadi 77,8%. Hingga rilis 9 April, keduanya berada di peringkat teratas. Kerangka kerja ini telah dirilis sebagai open source. (Sumber: BlockBeats)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan