Laboratorium Stanford dan Berkeley bekerja sama dengan Nvidia mengusulkan LLM-as-a-Verifier, melalui analisis distribusi probabilitas penilaian dan penilaian berulang, berhasil meningkatkan akurasi pemilihan solusi agen pemrograman AI. Eksperimen menunjukkan bahwa dibandingkan dengan Judge tradisional, Verifier tampil lebih baik dalam penilaian, tingkat keberhasilannya meningkat secara signifikan, dan kerangka kerja ini telah dirilis sebagai sumber terbuka.

MeNews

2026-05-01 06:03:18

Pembuatan abstrak sedang berlangsung

ME News Berita, 14 April (UTC+8), menurut pemantauan 1M AI News, saat agen pemrograman AI menangani satu tugas, menjalankan beberapa kali seringkali menghasilkan solusi yang berbeda, di antaranya mungkin ada yang salah. Jika bisa secara otomatis memilih yang terbaik, tingkat keberhasilan keseluruhan bisa melebihi satu kali jalankan. Masalahnya adalah bagaimana memilih: membiarkan model lain sebagai juri memberi penilaian (yaitu LLM-as-a-Judge) adalah praktik utama saat ini, tetapi tingkat penilaiannya terlalu kasar, sering memberi skor yang sama untuk solusi yang berbeda, sehingga tidak bisa membedakan yang lebih baik. Laboratorium AI Stanford dan Laboratorium Sky Computing Berkeley bekerja sama dengan Nvidia mengusulkan LLM-as-a-Verifier, yang memperbaiki proses pemilihan ini. Tidak lagi hanya melihat skor akhir yang diberikan juri, tetapi membaca distribusi probabilitas model pada setiap tingkat penilaian, lalu menghitung nilai penghargaan kontinu dari situ. Selain itu, juri diulang beberapa kali dan rata-rata diambil untuk menghilangkan bias kebetulan, dan penilaian keseluruhan dibagi menjadi tiga dimensi independen (apakah memenuhi kebutuhan tugas, apakah format output benar, apakah ada sinyal kesalahan) yang diverifikasi secara terpisah. Dalam eksperimen, menggunakan Gemini 2.5 Flash sebagai verifikator, tingkat akurasi verifikasi satu kali 74,7%, sedangkan Judge tradisional hanya 57,0%; setelah diulang 16 kali, Verifier mencapai 77,4%, Judge 70,2%. Judge tradisional memiliki 26,5% hasil yang berakhir seri, sedangkan Verifier dalam semua konfigurasi memiliki tingkat seri 0%. Efek nyata: di Terminal-Bench 2, menjalankan GPT-5.4 sebanyak 5 kali pada tugas yang sama, probabilitas keberhasilan memilih satu secara acak adalah 81,8%, setelah dipilih dengan Verifier meningkat menjadi 86,4%. Di SWE-Bench Verified, dari Claude Opus 4.5, Claude Opus 4.6, dan Gemini 3 Flash masing-masing mengambil 1 solusi (total 3 solusi), setelah dipilih meningkat dari 76,1% menjadi 77,8%. Hingga rilis 9 April, keduanya berada di peringkat teratas. Kerangka kerja ini telah dirilis sebagai open source. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
WCTCTradingKingPK
449.44K Popularitas
#
USSeeksStrategicBitcoinReserve
58.69M Popularitas
#
IsraelStrikesIranBTCPlunges
37.26K Popularitas
#
BitcoinETFOptionLimitQuadruples
985.8K Popularitas
#
#FedHoldsRateButDividesDeepen
30.82K Popularitas

Sematkan

peta situs

Stanford dan Berkeley mengusulkan LLM-as-a-Verifier, sekaligus memperbarui peringkat teratas Terminal-Bench dan SWE-Bench

Topik Trending

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Sematkan