Penelitian terbaru DGrid AI mengatasi kekurangan utama dalam Penilaian AI terdesentralisasi

DGrid AI memperkenalkan kerangka Kerangka Bukti Kualitas baru yang dirancang untuk mengevaluasi output AI dan meningkatkan distribusi hadiah di seluruh jaringan terdesentralisasi.

Ringkasan

  • Penelitian PoQ baru dari DGrid AI memperkenalkan penilaian tanpa referensi untuk memberi hadiah kepada node AI tanpa perlu jawaban yang benar.
  • DGrid melatih hakim AI khusus untuk menilai kualitas output, meningkatkan sistem hadiah AI terdesentralisasi secara skala besar.
  • Model Bukti Kualitas baru dari DGrid AI membantu jaringan AI terdesentralisasi mengevaluasi respons secara akurat tanpa data kebenaran dasar.

Jaringan AI terdesentralisasi memiliki masalah pembayaran yang telah diam-diam diatasi oleh para peneliti selama bertahun-tahun, dan sebuah makalah terbaru dari DGrid AI menempatkan isu tersebut secara langsung di meja. Sistem penilaian kualitas yang mendukung hadiah node sebagian besar bergantung pada keberadaan jawaban yang benar untuk dibandingkan. Dalam praktiknya, jawaban tersebut jarang ada.

Makalah ini, yang keempat dalam rangkaian penelitian berkelanjutan DGrid tentang Bukti Kualitas (PoQ), mengusulkan alternatif yang dilatih dan mempublikasikan angka-angkanya. PoQ menggunakan model evaluator kecil untuk menilai kualitas setiap output, dan skor tersebut menggerakkan hadiah. Murah, dan dapat diskalakan.

DGrid membangun ini secara bertahap: versi yang sadar biaya yang memasukkan latensi ke dalam matematika pembayaran, lapisan ketahanan terhadap penipu yang bertahan saat penilai menjadi pembohong atau malas, dan kerangka kerja yang membagi “kualitas” menjadi bagian-bagian yang dapat diperiksa. Rekayasa yang solid. Dan setiap lapisan terus menghadapi tembok yang sama.

Bagaimana masalah penilaian berkembang

Struktur dasar jaringan inferensi terdesentralisasi menciptakan tantangan pengukuran. Node independen menjalankan model bahasa dan merespons pertanyaan pengguna. Respons tersebut perlu dinilai karena skor menentukan pembayaran. Verifikasi kriptografi dari setiap perhitungan secara teknis sangat aman tetapi secara biaya sangat mahal dalam skala besar, sehingga jalur praktisnya adalah evaluasi kualitas otomatis menggunakan model yang lebih kecil.

Karya awal DGrid membangun pendekatan tersebut secara bertahap, menambahkan pembayaran yang disesuaikan dengan latensi, pertahanan terhadap penilai yang manipulatif, dan rincian yang lebih granular tentang apa arti “kualitas” dalam konteks penilaian. Apa yang tidak bisa diselesaikan sepenuhnya adalah sinyal evaluasi itu sendiri.

Sinyal terkuat yang dimiliki tim adalah kesamaan semantik: membandingkan output model dengan jawaban yang diketahui benar dan mengukur jaraknya dalam ruang embedding. Itu berhasil di lingkungan benchmark di mana jawaban referensi ada. Tidak berlaku di jaringan langsung di mana pengguna mengajukan pertanyaan terbuka dan tidak ada kebenaran dasar yang menunggu di database.

Alternatif yang tersedia di pasaran terbukti lebih buruk. Cross-encoder NLI, sebuah model yang dirancang untuk menilai implikasi logis antar kalimat, menghasilkan korelasi Pearson sebesar −0,363 saat digunakan untuk menilai kualitas jawaban tanpa jawaban referensi. Korelasi negatif berarti model lebih cenderung memilih respons buruk daripada yang baik. Itu bukan alat evaluasi yang dapat digunakan.

Apa yang diusulkan makalah

Alih-alih mengadaptasi model yang ada, para peneliti melatih tiga hakim secara khusus untuk penilaian kualitas tanpa referensi. Masing-masing mengambil pertanyaan dan respons sebagai input dan menghasilkan skor dari 0 sampai 10, tanpa jawaban yang benar disediakan.

Tiga model berbeda terutama dalam ukuran dan kecepatan:

  • TextCNN (~10 juta parameter) berjalan sekitar 1 milidetik per panggilan, cocok untuk penyaringan awal dengan throughput tinggi.
  • MiniLM (22 juta parameter) berada di tengah sekitar 13 milidetik.
  • DeBERTa (184 juta parameter) membutuhkan sekitar 15 milidetik dan dioptimalkan untuk akurasi.

Pelatihan mengikuti proses dua tahap. Model pertama dilatih pra-pelatihan di UltraFeedback, dataset publik berisi respons yang dinilai GPT-4, sebelum disempurnakan pada distribusi tugas jaringan sendiri. Tujuannya memberi hakim pemahaman dasar yang luas tentang kualitas sebelum mempersempit fokus mereka ke konteks penilaian tertentu.

Hasil inti

Pada set pengujian yang diabaikan sebanyak 300 contoh, hakim DeBERTa mencapai korelasi Pearson sebesar 0,747 terhadap proxy kebenaran dasar — tanpa akses ke jawaban referensi. Penilai berbasis referensi dari kerangka kerja sebelumnya, yang memang memiliki akses ke jawaban yang benar, mencapai maksimum 0,647.

Perbedaan ini memiliki penjelasan yang sederhana. Penilai yang lebih lama adalah metrik kesamaan yang mengukur jarak kosinus ke embedding referensi. Hakim baru dioptimalkan secara end-to-end untuk tugas penilaian itu sendiri. Perbedaan performa mencerminkan perbedaan tersebut lebih dari terobosan arsitektur apa pun.

Satu catatan dari penulis: kebenaran dasar yang digunakan di sini sendiri adalah proxy — tumpang tindih kata tingkat token daripada penilaian manusia. Hakim-hakim ini berkorelasi baik dengan metrik ini, tetapi apakah tumpang tindih kata secara andal mencerminkan apa yang akan dipertimbangkan manusia sebagai respons berkualitas adalah pertanyaan yang terpisah dan belum terpecahkan.

Dua fitur yang berorientasi pada penerapan menyertai hakim-hakim ini. Sebuah pipeline berantai mengarahkan pertanyaan melalui model ringan terlebih dahulu dan meningkatkan ke model yang lebih berat hanya saat skor ambigu, mengurangi biaya evaluasi hingga 72,7% pada ambang batas paling agresif, meskipun korelasi turun ke sekitar 0,51 dalam konfigurasi tersebut. Mekanisme kalibrasi online, yang berjalan tanpa penyesuaian manual, secara konsisten mengidentifikasi kualitas semantik sebagai sinyal dominan dan menyesuaikan bobotnya, memberikannya 4,7 kali bobot awalnya seiring waktu.

Di mana sistem masih mengalami kesulitan

Hakim-hakim ini berkinerja tidak merata di berbagai jenis tugas. Pada pertanyaan menjawab, korelasi mencapai 0,830. Pada rangkuman, turun menjadi 0,199. Makalah ini mengaitkan ini bukan karena kegagalan hakim itu sendiri tetapi karena metrik evaluasi yang digunakan selama pelatihan: tumpang tindih kata mentah adalah ukuran yang buruk untuk kualitas rangkuman, sehingga model yang dilatih melawannya belajar mengikuti sinyal yang lemah. Penulis menggambarkan ini sebagai masalah terbuka utama daripada keterbatasan yang dikelola secara diam-diam.

Kerangka ini konsisten dengan bagaimana makalah menyajikan hasilnya secara keseluruhan — secara metodis, dengan kasus kegagalan yang dijelaskan sama jelasnya dengan peningkatan. Setelah empat makalah dalam rangkaian penelitian ini, karya ini terdengar kurang seperti pengumuman produk dan lebih seperti tim yang secara bertahap menutup celah dalam sesuatu yang mereka niatkan untuk benar-benar diterapkan.

Pengungkapan: Konten ini disediakan oleh pihak ketiga. Baik crypto.news maupun penulis artikel ini tidak mendukung produk apa pun yang disebutkan di halaman ini. Pengguna harus melakukan riset sendiri sebelum mengambil tindakan terkait perusahaan.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan