⚽ 預測世界盃,瓜分 $40,000!Gate 懂王集結令!
2026世界盃燃爆今夏,來 Gate 廣場當預言家,豪華獎池等您來戰!
💥 輕鬆兩步參與:
1️⃣ 帶 #广场预测世界杯赢40000U 發帖,或分享官方活動至廣場發帖
👉️ https://www.gate.com/competition/football-2026
2️⃣ 發帖內容可圍繞賽事結果預測、賽事勝率分析、交易策略/截圖分享等。
💰 三重大獎等您拿:
1️⃣ 日獎:每天評選 10 位“單日預測王”瓜分 $500!
2️⃣ 周獎:每周狂抽 50 名幸運分享錦鯉瓜分 $1,000!
3️⃣ 榜單獎:衝進周/月度排行榜,斬獲 Gate 世界盃限量球衣禮盒、預測市場體驗券!
詳情:https://www.gate.com/announcements/article/51597
DGrid AI 的最新研究解決了去中心化 AI 評分中的核心缺陷
DGrid AI 引入了一個旨在評估 AI 輸出並改善去中心化網絡獎勵分配的新證明質量(Proof of Quality)框架。
摘要
去中心化 AI 網絡一直面臨支付問題,研究人員多年來一直在悄悄解決,而最近一篇來自 DGrid AI 的論文將這個問題擺在了桌面上。驅動節點獎勵的質量評分系統在很大程度上依賴於擁有正確答案來進行比較,但在實際運行中,這個答案很少存在。
這篇論文是 DGrid 持續研究系列中關於證明質量(PoQ)的第四篇,提出了一個訓練好的替代方案並公布了背後的數據。PoQ 使用小型評估模型來評分每個輸出的質量,這些分數驅動獎勵。成本低廉,且具有擴展性。
DGrid 一點一滴構建了這個系統:一個考慮成本的版本將延遲融入支付計算,一個對抗性魯棒層在評分者說謊或懶惰時仍能堅持,還有一個將“質量”拆分成可檢查部分的框架。工程堅實。而每一層都遇到同樣的壁壘。
評分問題的發展歷程
去中心化推理網絡的基本結構造成了一個測量挑戰。獨立節點運行語言模型並回應用戶查詢,這些回應需要被評分,因為分數決定支付。每次計算的加密驗證在技術上是無懈可擊的,但在規模上成本過高,因此實用的方案一直是用較小模型進行自動質量評估。
DGrid 早期的工作逐步擴展了這一方法,加入了延遲調整的支付、防篡改的評分者防護,以及更細粒度的“質量”定義拆分。但它無法完全解決的,是評估信號本身。
團隊擁有的最強信號是語義相似度:比較模型輸出與已知正確答案的相似度,並測量它們在嵌入空間中的距離。在有參考答案的基準環境中這有效,但在用戶提出開放式問題、沒有資料庫中等待地面真實答案的實時網絡中,這就不適用了。
現成的替代方案效果更差。一個用於判斷句子之間邏輯蘊涵的交叉編碼器(NLI cross-encoder),在沒有參考答案的情況下評分,得到的皮爾森相關係數為−0.363。負相關意味著模型更傾向於偏好較差的回應而非較好的。這不是一個可用的評估工具。
論文的提案內容
研究人員沒有改造現有模型,而是專門訓練了三個判評員來進行無參考質量評分。每個模型接受一個問題和一個回應作為輸入,輸出一個0到10的分數,沒有提供正確答案。
這三個模型主要在大小和速度上有所不同:
訓練採用兩階段流程。模型首先在公開數據集 UltraFeedback 上預訓練,該數據集包含 GPT-4 評分的回應,然後在網絡的任務分佈上微調。目的是讓評判員在專注於特定評分場景前,先獲得較廣泛的質量基線理解。
核心結果
在一個包含300個樣本的保留測試集上,DeBERTa 評判員達到了0.747的皮爾森相關係數,與地面真實代理(ground-truth proxy)相比——而沒有使用任何參考答案。之前框架中的參考基準評估器,雖然能訪問正確答案,最高相關係數為0.647。
差距的原因很直觀。較早的評估器是衡量與參考嵌入的餘弦距離的相似度指標。而新評判員則是端到端優化,專門針對評分任務。性能差異反映的更多是這一點,而非架構上的突破。
作者也指出一個限制:這裡使用的“真實值”本身也是一個代理——是詞元層面的重疊,而非人類判斷。評判員與這個指標相關良好,但詞元重疊是否可靠反映人類認為的高質量回應,仍是未解之謎。
兩個面向部署的特性伴隨評判員:一個層疊管道,先用輕量模型篩選,模糊時再升級到較重模型,將評估成本最多降低72.7%,但在最激進的閾值設定下相關性約降至0.51。另一個線上校準機制,無需手動調整,持續識別語義質量為主要信號,並相應調整權重,隨時間將其分配比重提高4.7倍。
系統仍面臨的挑戰
評判員在不同任務類型上的表現不均。在問答任務中,相關性高達0.830;在摘要任務中,則降至0.199。論文認為這不是評判員本身的失誤,而是訓練時使用的評估指標——詞元重疊——本身就是一個較差的摘要質量衡量標準,因此模型學會追蹤一個較弱的信號。作者將此描述為主要的未解問題,而非默默管理的已知限制。
這種描述方式與論文整體呈現結果的方式一致——有條不紊,明確指出失敗案例與改進之處。經過四篇相關論文的研究,這個工作更像是一個團隊逐步彌補差距、準備實際部署的進展,而非純粹的產品公告。
披露:本文內容由第三方提供。crypto.news 和本文作者均不對頁面上提及的任何產品作出背書。用戶在採取任何與公司相關的行動前,應自行進行研究。