Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
CFD
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
CFD
Derivatif CFD Saham AS
Saham AS
Akses saham AS dan ETF yang nyata
Saham HK
Perdagangkan saham berkualitas yang terdaftar di Hong Kong
Saham Futures
Leverage tinggi, perdagangan 24/7
Tokenized Stocks
Didukung oleh aset saham nyata
IPO Access
Buka akses penuh ke IPO saham global
GUSD
Mint GUSD untuk Imbal Hasil Treasury RWA
Aktivitas Saham
Perdagangkan Saham Populer dan Dapatkan Airdrop yang Melimpah
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
IPO Access
Buka akses penuh ke IPO saham global
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Promosi
AI
Gate AI
Partner AI serbaguna untuk Anda
Gate AI Bot
Gunakan Gate AI langsung di aplikasi sosial Anda
GateClaw
Gate Blue Lobster, langsung pakai
Gate for AI Agent
Infrastruktur AI, Gate MCP, Skills, dan CLI
Gate Skills Hub
10RB+ Skills
Dari kantor hingga trading, satu platform keterampilan membuat AI jadi lebih mudah digunakan
Penelitian terbaru DGrid AI mengatasi kekurangan utama dalam Penilaian AI terdesentralisasi
DGrid AI memperkenalkan kerangka Kerangka Bukti Kualitas baru yang dirancang untuk mengevaluasi output AI dan meningkatkan distribusi hadiah di seluruh jaringan terdesentralisasi.
Ringkasan
Jaringan AI terdesentralisasi memiliki masalah pembayaran yang telah diam-diam diatasi oleh para peneliti selama bertahun-tahun, dan sebuah makalah terbaru dari DGrid AI menempatkan isu tersebut secara langsung di meja. Sistem penilaian kualitas yang mendukung hadiah node sebagian besar bergantung pada keberadaan jawaban yang benar untuk dibandingkan. Dalam praktiknya, jawaban tersebut jarang ada.
Makalah ini, yang keempat dalam rangkaian penelitian berkelanjutan DGrid tentang Bukti Kualitas (PoQ), mengusulkan alternatif yang dilatih dan mempublikasikan angka-angkanya. PoQ menggunakan model evaluator kecil untuk menilai kualitas setiap output, dan skor tersebut menggerakkan hadiah. Murah, dan dapat diskalakan.
DGrid membangun ini secara bertahap: versi yang sadar biaya yang memasukkan latensi ke dalam matematika pembayaran, lapisan ketahanan terhadap penipu yang bertahan saat penilai menjadi pembohong atau malas, dan kerangka kerja yang membagi “kualitas” menjadi bagian-bagian yang dapat diperiksa. Rekayasa yang solid. Dan setiap lapisan terus menghadapi tembok yang sama.
Bagaimana masalah penilaian berkembang
Struktur dasar jaringan inferensi terdesentralisasi menciptakan tantangan pengukuran. Node independen menjalankan model bahasa dan merespons pertanyaan pengguna. Respons tersebut perlu dinilai karena skor menentukan pembayaran. Verifikasi kriptografi dari setiap perhitungan secara teknis sangat aman tetapi secara biaya sangat mahal dalam skala besar, sehingga jalur praktisnya adalah evaluasi kualitas otomatis menggunakan model yang lebih kecil.
Karya awal DGrid membangun pendekatan tersebut secara bertahap, menambahkan pembayaran yang disesuaikan dengan latensi, pertahanan terhadap penilai yang manipulatif, dan rincian yang lebih granular tentang apa arti “kualitas” dalam konteks penilaian. Apa yang tidak bisa diselesaikan sepenuhnya adalah sinyal evaluasi itu sendiri.
Sinyal terkuat yang dimiliki tim adalah kesamaan semantik: membandingkan output model dengan jawaban yang diketahui benar dan mengukur jaraknya dalam ruang embedding. Itu berhasil di lingkungan benchmark di mana jawaban referensi ada. Tidak berlaku di jaringan langsung di mana pengguna mengajukan pertanyaan terbuka dan tidak ada kebenaran dasar yang menunggu di database.
Alternatif yang tersedia di pasaran terbukti lebih buruk. Cross-encoder NLI, sebuah model yang dirancang untuk menilai implikasi logis antar kalimat, menghasilkan korelasi Pearson sebesar −0,363 saat digunakan untuk menilai kualitas jawaban tanpa jawaban referensi. Korelasi negatif berarti model lebih cenderung memilih respons buruk daripada yang baik. Itu bukan alat evaluasi yang dapat digunakan.
Apa yang diusulkan makalah
Alih-alih mengadaptasi model yang ada, para peneliti melatih tiga hakim secara khusus untuk penilaian kualitas tanpa referensi. Masing-masing mengambil pertanyaan dan respons sebagai input dan menghasilkan skor dari 0 sampai 10, tanpa jawaban yang benar disediakan.
Tiga model berbeda terutama dalam ukuran dan kecepatan:
Pelatihan mengikuti proses dua tahap. Model pertama dilatih pra-pelatihan di UltraFeedback, dataset publik berisi respons yang dinilai GPT-4, sebelum disempurnakan pada distribusi tugas jaringan sendiri. Tujuannya memberi hakim pemahaman dasar yang luas tentang kualitas sebelum mempersempit fokus mereka ke konteks penilaian tertentu.
Hasil inti
Pada set pengujian yang diabaikan sebanyak 300 contoh, hakim DeBERTa mencapai korelasi Pearson sebesar 0,747 terhadap proxy kebenaran dasar — tanpa akses ke jawaban referensi. Penilai berbasis referensi dari kerangka kerja sebelumnya, yang memang memiliki akses ke jawaban yang benar, mencapai maksimum 0,647.
Perbedaan ini memiliki penjelasan yang sederhana. Penilai yang lebih lama adalah metrik kesamaan yang mengukur jarak kosinus ke embedding referensi. Hakim baru dioptimalkan secara end-to-end untuk tugas penilaian itu sendiri. Perbedaan performa mencerminkan perbedaan tersebut lebih dari terobosan arsitektur apa pun.
Satu catatan dari penulis: kebenaran dasar yang digunakan di sini sendiri adalah proxy — tumpang tindih kata tingkat token daripada penilaian manusia. Hakim-hakim ini berkorelasi baik dengan metrik ini, tetapi apakah tumpang tindih kata secara andal mencerminkan apa yang akan dipertimbangkan manusia sebagai respons berkualitas adalah pertanyaan yang terpisah dan belum terpecahkan.
Dua fitur yang berorientasi pada penerapan menyertai hakim-hakim ini. Sebuah pipeline berantai mengarahkan pertanyaan melalui model ringan terlebih dahulu dan meningkatkan ke model yang lebih berat hanya saat skor ambigu, mengurangi biaya evaluasi hingga 72,7% pada ambang batas paling agresif, meskipun korelasi turun ke sekitar 0,51 dalam konfigurasi tersebut. Mekanisme kalibrasi online, yang berjalan tanpa penyesuaian manual, secara konsisten mengidentifikasi kualitas semantik sebagai sinyal dominan dan menyesuaikan bobotnya, memberikannya 4,7 kali bobot awalnya seiring waktu.
Di mana sistem masih mengalami kesulitan
Hakim-hakim ini berkinerja tidak merata di berbagai jenis tugas. Pada pertanyaan menjawab, korelasi mencapai 0,830. Pada rangkuman, turun menjadi 0,199. Makalah ini mengaitkan ini bukan karena kegagalan hakim itu sendiri tetapi karena metrik evaluasi yang digunakan selama pelatihan: tumpang tindih kata mentah adalah ukuran yang buruk untuk kualitas rangkuman, sehingga model yang dilatih melawannya belajar mengikuti sinyal yang lemah. Penulis menggambarkan ini sebagai masalah terbuka utama daripada keterbatasan yang dikelola secara diam-diam.
Kerangka ini konsisten dengan bagaimana makalah menyajikan hasilnya secara keseluruhan — secara metodis, dengan kasus kegagalan yang dijelaskan sama jelasnya dengan peningkatan. Setelah empat makalah dalam rangkaian penelitian ini, karya ini terdengar kurang seperti pengumuman produk dan lebih seperti tim yang secara bertahap menutup celah dalam sesuatu yang mereka niatkan untuk benar-benar diterapkan.
Pengungkapan: Konten ini disediakan oleh pihak ketiga. Baik crypto.news maupun penulis artikel ini tidak mendukung produk apa pun yang disebutkan di halaman ini. Pengguna harus melakukan riset sendiri sebelum mengambil tindakan terkait perusahaan.