DGrid AI introduit un nouveau cadre de preuve de qualité conçu pour évaluer les résultats de l'IA et améliorer la répartition des récompenses dans les réseaux décentralisés.

Résumé

La nouvelle recherche PoQ de DGrid AI introduit une notation sans référence pour récompenser les nœuds IA sans avoir besoin de réponses correctes.
DGrid a formé des juges IA spécialisés pour évaluer la qualité des résultats, améliorant ainsi à grande échelle les systèmes de récompense décentralisés pour l'IA.
Les nouveaux modèles de preuve de qualité de DGrid AI aident les réseaux d'IA décentralisés à évaluer les réponses avec précision sans données de vérité terrain.

Les réseaux d'IA décentralisés ont un problème de paiement sur lequel les chercheurs travaillent discrètement depuis des années, et un récent article de DGrid AI met directement cette question sur la table. Les systèmes de notation de la qualité qui alimentent les récompenses des nœuds dépendaient largement de la disponibilité d'une réponse correcte pour la comparer. En production, cette réponse existe rarement.

L'article, le quatrième de la série de recherches en cours de DGrid sur la preuve de qualité (PoQ), propose une alternative entraînée et publie les chiffres qui la soutiennent. PoQ utilise de petits modèles d’évaluation pour noter la qualité de chaque résultat, et ces scores déterminent les récompenses. Peu coûteux, et évolutif.

DGrid a construit cela étape par étape : une version consciente des coûts intégrant la latence dans le calcul des paiements, une couche de robustesse adversariale qui résiste lorsque les évaluateurs mentent ou sont paresseux, et un cadre qui divise la “qualité” en parties que l’on peut inspecter. Une ingénierie solide. Et chaque couche butait sur le même mur.

Comment le problème de notation s’est développé

La structure de base d’un réseau d’inférence décentralisé crée un défi de mesure. Des nœuds indépendants exécutent des modèles linguistiques et répondent aux requêtes des utilisateurs. Ces réponses doivent être notées car les scores déterminent la rémunération. La vérification cryptographique de chaque calcul serait techniquement infaillible mais prohibitivement coûteuse à grande échelle, donc la voie pratique a été l’évaluation automatique de la qualité à l’aide de modèles plus petits.

Les travaux antérieurs de DGrid ont construit cette approche progressivement, ajoutant des paiements ajustés en fonction de la latence, des défenses contre les évaluateurs manipulateurs, et une décomposition plus granulaire de ce que signifie “qualité” dans un contexte de notation. Ce qu’ils n’ont pas pu résoudre complètement, c’était le signal d’évaluation lui-même.

Le signal le plus fort dont disposait l’équipe était la similarité sémantique : comparer la sortie du modèle à une réponse correcte connue et mesurer la distance entre elles dans l’espace d’intégration. Cela fonctionne dans des environnements de référence où des réponses de référence existent. Cela ne fonctionne pas dans un réseau en direct où les utilisateurs posent des questions ouvertes et aucune vérité terrain n’attend dans une base de données.

Les alternatives toutes faites testées donnaient de moins bons résultats. Un encodeur croisé NLI, un type de modèle conçu pour évaluer l’entaillement logique entre phrases, a obtenu une corrélation de Pearson de −0,363 lorsqu’il était utilisé pour évaluer la qualité des réponses sans réponse de référence. Une corrélation négative signifie que le modèle favorisait plus probablement de mauvaises réponses que de bonnes. Ce n’est pas un outil d’évaluation utilisable.

Ce que propose l’article

Au lieu d’adapter des modèles existants, les chercheurs ont entraîné trois juges spécifiquement pour la notation de qualité sans référence. Chacun prend une question et une réponse en entrée et donne un score de 0 à 10, sans réponse correcte fournie.

Les trois modèles diffèrent principalement par leur taille et leur rapidité :

TextCNN (~10M de paramètres) fonctionne en environ 1 milliseconde par appel, ce qui le rend adapté pour un filtrage en première passe à haut débit.
MiniLM (22M de paramètres) se situe au milieu avec environ 13 millisecondes.
DeBERTa (184M de paramètres) prend environ 15 millisecondes et est optimisé pour la précision.

La formation a suivi un processus en deux étapes. Les modèles ont d’abord été pré-entraînés sur UltraFeedback, un ensemble de données public de réponses notées par GPT-4, avant d’être affiné sur la distribution de tâches propre au réseau. L’objectif était de donner aux juges une compréhension de base large de la qualité avant de concentrer leur attention sur le contexte spécifique de notation.

Le résultat principal

Sur un ensemble de test de 300 exemples, le juge DeBERTa a atteint une corrélation de Pearson de 0,747 avec le proxy de vérité terrain — sans accès à une réponse de référence. Les évaluateurs basés sur la référence du cadre précédent, qui avaient accès à des réponses correctes, atteignaient un maximum de 0,647.

L’écart s’explique simplement. Les évaluateurs plus anciens utilisaient des métriques de similarité mesurant la distance cosinus par rapport à une intégration de référence. Les nouveaux juges ont été optimisés de bout en bout pour la tâche de notation elle-même. La différence de performance reflète cette distinction plus que toute avancée architecturale.

Une mise en garde que les auteurs incluent : la vérité terrain utilisée ici est elle-même une approximation — une superposition de mots au niveau des tokens plutôt qu’un jugement humain. Les juges ont une bonne corrélation avec cette métrique, mais savoir si la superposition de mots reflète de manière fiable ce qu’un humain considérerait comme une réponse de qualité reste une question non résolue.

Deux fonctionnalités orientées déploiement accompagnent les juges. Une pipeline en cascade dirige d’abord les requêtes via le modèle léger, puis les escalade vers des modèles plus lourds uniquement lorsque les scores sont ambigus, réduisant ainsi les coûts d’évaluation jusqu’à 72,7 % dans la configuration la plus agressive, bien que la corrélation chute à environ 0,51 dans cette configuration. Un mécanisme de calibration en ligne, fonctionnant sans réglage manuel, identifie systématiquement la qualité sémantique comme le signal dominant et ajuste les poids en conséquence, lui attribuant 4,7 fois son poids initial au fil du temps.

Où le système rencontre encore des difficultés

Les juges ont des performances inégales selon le type de tâche. Sur la réponse à une question, la corrélation atteint 0,830. Sur la synthèse, elle chute à 0,199. L’article attribue cela non pas à une défaillance des juges eux-mêmes, mais à la métrique d’évaluation utilisée lors de l’entraînement : la superposition brute de mots est une mauvaise mesure de la qualité de la synthèse, donc les modèles entraînés contre celle-ci apprennent à suivre un signal faible. Les auteurs décrivent cela comme le principal problème ouvert plutôt qu’une limitation connue gérée discrètement.

Ce cadre est cohérent avec la façon dont l’article présente ses résultats dans l’ensemble — méthodiquement, avec les cas d’échec aussi clairement exposés que les améliorations. Après quatre articles dans cette série de recherche, le travail ressemble moins à une annonce de produit et plus à une équipe comblant progressivement des lacunes dans quelque chose qu’elle prévoit de déployer réellement.

Divulgation : Ce contenu est fourni par un tiers. Ni crypto.news ni l’auteur de cet article ne soutiennent un produit mentionné sur cette page. Les utilisateurs doivent effectuer leurs propres recherches avant d’agir concernant l’entreprise.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
MyGateTradeStory
965,74K Popularité
#
USIranTalksPostponed
1,89M Popularité
#
IsraelStrikesIranBTCPlunges
59,83K Popularité
#
PredictWorldCup🇺🇸vs🇵🇾
835,14K Popularité
#
TradFiCFDGoldMaster
1,82M Popularité

Épinglé

Les dernières recherches de DGrid AI s'attaquent à une faille fondamentale dans le système de notation de l'IA décentralisée

Comment le problème de notation s’est développé

Ce que propose l’article

Le résultat principal

Où le système rencontre encore des difficultés

Sujets populaires

MyGateTradeStory

USIranTalksPostponed

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

Épinglé