DGrid AI 最新的研究解决了去中心化 AI 评分中的核心缺陷

2026-06-18 10:43:54

DGrid AI 引入了一种新的质量证明框架，旨在评估 AI 输出并改善去中心化网络中的奖励分配。

摘要

去中心化 AI 网络存在一个支付问题，研究人员多年来一直在悄悄绕过这个问题，最近一篇来自 DGrid AI 的论文将这个问题摆在了桌面上。支撑节点奖励的质量评分系统在很大程度上依赖于手头有正确答案进行比较。而在实际应用中，这个答案很少存在。

这篇论文是 DGrid 持续研究系列中关于质量证明（PoQ）的第四篇，提出了一种经过训练的替代方案，并公布了背后的数据。PoQ 使用小型评估模型对每个输出的质量进行评分，这些分数驱动奖励。成本低廉，且具有扩展性。

DGrid 一点点构建了这个系统：一个考虑成本的版本，将延迟融入支付计算中；一个对抗鲁棒性层，在评分者变得说谎或懒惰时依然有效；以及一个将“质量”拆分成可检查部分的框架。工程扎实。而每一层都不断遇到同样的难题。

去中心化推理网络的基本结构带来了测量挑战。独立节点运行语言模型并响应用户查询。这些响应需要被评分，因为评分决定支付。对每次计算进行密码验证在技术上是严密的，但在规模上成本过高，因此实际路径是使用较小模型进行自动化质量评估。

DGrid 早期的工作逐步完善了这种方法，加入了延迟调整的支付、防止操控评分者的防御措施，以及对“质量”在评分中的具体含义进行更细粒度的拆分。它无法完全解决的问题是评估信号本身。

团队拥有的最强信号是语义相似度：将模型输出与已知正确答案进行比较，测量它们在嵌入空间中的距离。在存在参考答案的基准环境中，这种方法有效。但在用户提出开放式问题、没有等待在数据库中的真实答案的实时网络中，这种方法就不适用了。

现成的替代方案表现更差。一种名为 NLI 交叉编码器的模型，用于评估句子之间的逻辑蕴涵关系，在没有参考答案的情况下对答案质量进行评分时，皮尔逊相关系数为 -0.363。负相关意味着模型更倾向于偏好差的回答而非好的回答。这不是一个可用的评估工具。

研究人员没有改造现有模型，而是专门训练了三个判断者，用于无参考的质量评分。每个模型接受一个问题和一个回答作为输入，输出一个从 0 到 10 的分数，没有提供正确答案。

这三个模型主要在规模和速度上有所不同：

训练采用两阶段流程。模型首先在 UltraFeedback 上进行预训练，这是一个包含 GPT-4 评分响应的公共数据集，然后在网络自身的任务分布上进行微调。目的是让判断者在专注于特定评分场景之前，拥有广泛的质量基础理解。

在一个包含300个样本的留出测试集上，DeBERTa 判断者在没有参考答案的情况下，达到了 0.747 的皮尔逊相关系数，接近真实值的代理。而之前框架中的参考基础评估器，虽然可以访问正确答案，最高也只有 0.647。

差距的原因很直白。旧的评估器是衡量与参考嵌入的余弦距离的相似度指标。而新判断者是端到端优化的，专门针对评分任务。性能差异更多反映了这一点，而非架构上的突破。

作者还指出：这里使用的真实值本身也是一个代理——基于词级重叠的指标，而非人工判断。判断者与这个指标相关，但词重叠是否可靠反映人类认为的高质量回答，仍是一个未解决的问题。

两个面向部署的特性伴随判断者：一个级联管道，先用轻量模型筛选，只有当分数模糊时才升级到更重的模型，最大可减少72.7%的评估成本，但相关性在这种配置下会降到约0.51。另一个在线校准机制，无需手动调节，持续识别语义质量为主要信号，并相应调整权重，随着时间推移赋予其原始权重的4.7倍。

判断者在不同任务类型上的表现不均。在问答任务中，相关性高达0.830；在摘要任务中，降至0.199。论文认为这不是判断者本身的失败，而是训练中使用的评估指标——词重叠——本身就是衡量摘要质量的差指标。因此，训练模型时追踪的信号较弱。作者将此描述为主要的未解决问题，而非默默管理的已知限制。

这种描述与论文整体呈现结果的方式一致——方法论严谨，失败案例与改进点一样明确。经过四篇论文的研究，这项工作更像是一个团队逐步弥补差距、准备实际部署的过程，而非单纯的产品发布。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

请输入评论内容

暂无评论

热门话题