買幣

付款方式為

USD

買幣&賣幣

Hot

支援 Visa、Mastercard、SEPA 等多種支付方式

基礎交易

進階交易

打新

理財產品

推廣

在社交 App 中直接使用 Gate AI

GateClaw

Gate 藍龍蝦，開箱即用

Gate for AI Agent

AI 基礎設施，Gate MCP、Skills 與 CLI

Gate Skills Hub

萬級技能

從辦公到交易，一站式技能庫讓 AI 更好用

其他

DGrid AI 的最新研究解決了去中心化 AI 評分中的核心缺陷

Crypto_News

2026-06-18 10:43:54

DGrid AI 引入了一個旨在評估 AI 輸出並改善去中心化網絡獎勵分配的新證明質量（Proof of Quality）框架。

摘要

DGrid AI 的新 PoQ 研究引入了無需正確答案的參考自由評分，以獎勵 AI 節點。
DGrid 訓練了專門的 AI 評判員來評分輸出質量，規模化改善去中心化 AI 獎勵系統。
DGrid AI 的新證明質量模型幫助去中心化 AI 網絡在沒有地面真實數據的情況下準確評估回應。

去中心化 AI 網絡一直面臨支付問題，研究人員多年來一直在悄悄解決，而最近一篇來自 DGrid AI 的論文將這個問題擺在了桌面上。驅動節點獎勵的質量評分系統在很大程度上依賴於擁有正確答案來進行比較，但在實際運行中，這個答案很少存在。

這篇論文是 DGrid 持續研究系列中關於證明質量（PoQ）的第四篇，提出了一個訓練好的替代方案並公布了背後的數據。PoQ 使用小型評估模型來評分每個輸出的質量，這些分數驅動獎勵。成本低廉，且具有擴展性。

DGrid 一點一滴構建了這個系統：一個考慮成本的版本將延遲融入支付計算，一個對抗性魯棒層在評分者說謊或懶惰時仍能堅持，還有一個將“質量”拆分成可檢查部分的框架。工程堅實。而每一層都遇到同樣的壁壘。

評分問題的發展歷程

去中心化推理網絡的基本結構造成了一個測量挑戰。獨立節點運行語言模型並回應用戶查詢，這些回應需要被評分，因為分數決定支付。每次計算的加密驗證在技術上是無懈可擊的，但在規模上成本過高，因此實用的方案一直是用較小模型進行自動質量評估。

DGrid 早期的工作逐步擴展了這一方法，加入了延遲調整的支付、防篡改的評分者防護，以及更細粒度的“質量”定義拆分。但它無法完全解決的，是評估信號本身。

團隊擁有的最強信號是語義相似度：比較模型輸出與已知正確答案的相似度，並測量它們在嵌入空間中的距離。在有參考答案的基準環境中這有效，但在用戶提出開放式問題、沒有資料庫中等待地面真實答案的實時網絡中，這就不適用了。

現成的替代方案效果更差。一個用於判斷句子之間邏輯蘊涵的交叉編碼器（NLI cross-encoder），在沒有參考答案的情況下評分，得到的皮爾森相關係數為−0.363。負相關意味著模型更傾向於偏好較差的回應而非較好的。這不是一個可用的評估工具。

論文的提案內容

研究人員沒有改造現有模型，而是專門訓練了三個判評員來進行無參考質量評分。每個模型接受一個問題和一個回應作為輸入，輸出一個0到10的分數，沒有提供正確答案。

這三個模型主要在大小和速度上有所不同：

TextCNN（約1000萬參數） 每次運行約1毫秒，適合高通量的第一階段篩選。
MiniLM（2200萬參數） 位於中間，大約13毫秒。
DeBERTa（1億8400萬參數） 約15毫秒，並針對準確性進行優化。

訓練採用兩階段流程。模型首先在公開數據集 UltraFeedback 上預訓練，該數據集包含 GPT-4 評分的回應，然後在網絡的任務分佈上微調。目的是讓評判員在專注於特定評分場景前，先獲得較廣泛的質量基線理解。

核心結果

在一個包含300個樣本的保留測試集上，DeBERTa 評判員達到了0.747的皮爾森相關係數，與地面真實代理（ground-truth proxy）相比——而沒有使用任何參考答案。之前框架中的參考基準評估器，雖然能訪問正確答案，最高相關係數為0.647。

差距的原因很直觀。較早的評估器是衡量與參考嵌入的餘弦距離的相似度指標。而新評判員則是端到端優化，專門針對評分任務。性能差異反映的更多是這一點，而非架構上的突破。

作者也指出一個限制：這裡使用的“真實值”本身也是一個代理——是詞元層面的重疊，而非人類判斷。評判員與這個指標相關良好，但詞元重疊是否可靠反映人類認為的高質量回應，仍是未解之謎。

兩個面向部署的特性伴隨評判員：一個層疊管道，先用輕量模型篩選，模糊時再升級到較重模型，將評估成本最多降低72.7%，但在最激進的閾值設定下相關性約降至0.51。另一個線上校準機制，無需手動調整，持續識別語義質量為主要信號，並相應調整權重，隨時間將其分配比重提高4.7倍。

系統仍面臨的挑戰

評判員在不同任務類型上的表現不均。在問答任務中，相關性高達0.830；在摘要任務中，則降至0.199。論文認為這不是評判員本身的失誤，而是訓練時使用的評估指標——詞元重疊——本身就是一個較差的摘要質量衡量標準，因此模型學會追蹤一個較弱的信號。作者將此描述為主要的未解問題，而非默默管理的已知限制。

這種描述方式與論文整體呈現結果的方式一致——有條不紊，明確指出失敗案例與改進之處。經過四篇相關論文的研究，這個工作更像是一個團隊逐步彌補差距、準備實際部署的進展，而非純粹的產品公告。

披露：本文內容由第三方提供。crypto.news 和本文作者均不對頁面上提及的任何產品作出背書。用戶在採取任何與公司相關的行動前，應自行進行研究。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

熱門話題
查看更多
#
我的Gate交易時刻
96.57萬熱度
#
美伊談判推遲
189.01萬熱度
#
預測世界盃巴西VS海地
83.51萬熱度
#
TradFiCFD黃金大師賽
182.72萬熱度
#
持有USD1即享收益
9.28萬熱度

DGrid AI 的最新研究解決了去中心化 AI 評分中的核心缺陷

評分問題的發展歷程

論文的提案內容

核心結果

系統仍面臨的挑戰

熱門話題

我的Gate交易時刻

美伊談判推遲

預測世界盃巴西VS海地

TradFiCFD黃金大師賽

持有USD1即享收益

已置頂