Kerangka BinEval menggunakan soal benar-salah untuk memberikan skor AI secara otomatis, mengatasi masalah model juri yang melaporkan nilai sempurna palsu dan ketidaktransparanan.

ME AI berita, menurut pemantauan 动察 Beating, tim peneliti Capital One mengajukan kerangka evaluasi BinEval, yang secara otomatis menguraikan standar penilaian yang kompleks menjadi pertanyaan pilihan ganda spesifik "ya atau tidak", mengatasi masalah penilaian seperti kotak hitam dan skor yang terlalu tinggi. Kerangka kerja ini membuat model evaluasi menjawab setiap pertanyaan ya/tidak satu per satu, dan akhirnya menghitung skor berdasarkan proporsi jawaban yang benar. Dalam pengujian pada tiga kumpulan data utama, kualitas penilaian BinEval yang menggunakan model besar seperti Claude Sonnet 4 setara atau melampaui alat evaluasi utama seperti UniEval, dan sangat pandai menemukan jawaban yang tampaknya lancar tetapi salah secara faktual. Ambil contoh evaluasi ringkasan yang melibatkan intersepsi pesawat. Meskipun ringkasan tersebut terbaca lancar dan entitas serta model pesawatnya benar, ringkasan tersebut membalikkan pernyataan Pentagon dan Rusia, dan juga mengarang URL. Hakim AI lama hanya melihat permukaan dan langsung memberikan nilai sempurna 5.0. Namun, dengan tujuh pertanyaan ya/tidak, BinEval secara akurat menemukan empat kesalahan faktual dan memberikan skor 1,57, yang sangat dekat dengan skor 2,0 yang diberikan manusia. Buku kesalahan pertanyaan ya/tidak dapat digunakan untuk mengoptimalkan standar evaluasi model hakim itu sendiri, dan juga dapat digunakan untuk secara otomatis mengubah prompt penulisan. Eksperimen menunjukkan bahwa dalam tes kepatuhan instruksi, optimasi umpan balik dapat meningkatkan kepatuhan format dan struktur kalimat sebesar 17 poin persentase. Namun, untuk kemampuan keras yang membutuhkan perhitungan matematis seperti batasan jumlah kata, alat optimasi masih tidak berguna, dan penguraian persyaratan yang berlebihan justru akan membuat standar evaluasi terlalu ketat. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan