BinEval memecah evaluasi menjadi pertanyaan benar-salah, trik yang cukup cerdik. Ruang untuk melaporkan skor palsu langsung ditekan, dan ilusi yang tampak lancar tetapi salah secara faktual akhirnya bisa terungkap.

Lihat Asli
CoinNetwork
Kerangka BinEval menggunakan pertanyaan benar-salah untuk menilai AI secara otomatis, mengatasi masalah model juri yang melaporkan nilai penuh secara palsu dan kurangnya transparansi.
BinEval mengubah evaluasi menjadi pertanyaan benar/salah, menjawab satu per satu lalu memberi skor berdasarkan tingkat kebenaran, meningkatkan transparansi dan menekan pelaporan palsu. Penelitian menunjukkan skornya mendekati atau melampaui Unieval di berbagai kumpulan data, dan sangat ahli dalam menemukan jawaban yang tampak lancar tetapi salah secara faktual. Mengambil contoh ringkasan intersepsi pesawat, penilai lama memberikan skor sempurna 5,0, sementara BinEval melalui tujuh pertanyaan benar/salah mendapat 1,57, mendekati skor manusia 2,0. Optimasi umpan balik meningkatkan kepatuhan format sekitar 17 poin persentase, tetapi masih sulit memperbaiki kendala keras seperti jumlah kata.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan