Futures
Accédez à des centaines de contrats perpétuels
CFD
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
CFD
Produits dérivés CFD sur actions américaines
US Stocks
Accédez à de véritables actions et ETF américains
HK Stocks
Tradez des actions des actions de qualité cotées à Hong Kong
Futures sur actions
Effet de levier élevé, trading 24h/24 et 7j/7
Actions tokenisées
Adossé à de véritables actions
IPO Access
Accédez à l'intégralité des introductions en bourse mondiales
GUSD
Mint GUSD pour des rendements de Treasury RWA
Activités boursières
Tradez des actions populaires et débloquez des airdrops généreux
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
IPO Access
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Promotions
Centre d'activités
Participez et gagnez des récompenses
Parrainage
20 USDT
Invitez des amis et gagnez des récompenses
Programme d'affiliation
Obtenez des commissions exclusives
Gate Booster
Développez votre influence et gagnez des airdrops
Annoncement
Mises à jour en temps réel
Blog Gate
Articles sur le secteur de la crypto
AI
Gate AI
Votre assistant IA polyvalent pour toutes vos conversations
Gate AI Bot
Utilisez Gate AI directement dans votre application sociale
GateClaw
Gate Blue Lobster, prêt à l’emploi
Gate for AI Agent
Infrastructure IA, Gate MCP, Skills et CLI
Gate Skills Hub
+10K compétences
De la bureautique au trading, une bibliothèque de compétences tout-en-un pour exploiter pleinement l’IA
Les dernières recherches de DGrid AI s'attaquent à une faille fondamentale dans le système de notation de l'IA décentralisée
DGrid AI introduit un nouveau cadre de preuve de qualité conçu pour évaluer les résultats de l'IA et améliorer la répartition des récompenses dans les réseaux décentralisés.
Résumé
Les réseaux d'IA décentralisés ont un problème de paiement sur lequel les chercheurs travaillent discrètement depuis des années, et un récent article de DGrid AI met directement cette question sur la table. Les systèmes de notation de la qualité qui alimentent les récompenses des nœuds dépendaient largement de la disponibilité d'une réponse correcte pour la comparer. En production, cette réponse existe rarement.
L'article, le quatrième de la série de recherches en cours de DGrid sur la preuve de qualité (PoQ), propose une alternative entraînée et publie les chiffres qui la soutiennent. PoQ utilise de petits modèles d’évaluation pour noter la qualité de chaque résultat, et ces scores déterminent les récompenses. Peu coûteux, et évolutif.
DGrid a construit cela étape par étape : une version consciente des coûts intégrant la latence dans le calcul des paiements, une couche de robustesse adversariale qui résiste lorsque les évaluateurs mentent ou sont paresseux, et un cadre qui divise la “qualité” en parties que l’on peut inspecter. Une ingénierie solide. Et chaque couche butait sur le même mur.
Comment le problème de notation s’est développé
La structure de base d’un réseau d’inférence décentralisé crée un défi de mesure. Des nœuds indépendants exécutent des modèles linguistiques et répondent aux requêtes des utilisateurs. Ces réponses doivent être notées car les scores déterminent la rémunération. La vérification cryptographique de chaque calcul serait techniquement infaillible mais prohibitivement coûteuse à grande échelle, donc la voie pratique a été l’évaluation automatique de la qualité à l’aide de modèles plus petits.
Les travaux antérieurs de DGrid ont construit cette approche progressivement, ajoutant des paiements ajustés en fonction de la latence, des défenses contre les évaluateurs manipulateurs, et une décomposition plus granulaire de ce que signifie “qualité” dans un contexte de notation. Ce qu’ils n’ont pas pu résoudre complètement, c’était le signal d’évaluation lui-même.
Le signal le plus fort dont disposait l’équipe était la similarité sémantique : comparer la sortie du modèle à une réponse correcte connue et mesurer la distance entre elles dans l’espace d’intégration. Cela fonctionne dans des environnements de référence où des réponses de référence existent. Cela ne fonctionne pas dans un réseau en direct où les utilisateurs posent des questions ouvertes et aucune vérité terrain n’attend dans une base de données.
Les alternatives toutes faites testées donnaient de moins bons résultats. Un encodeur croisé NLI, un type de modèle conçu pour évaluer l’entaillement logique entre phrases, a obtenu une corrélation de Pearson de −0,363 lorsqu’il était utilisé pour évaluer la qualité des réponses sans réponse de référence. Une corrélation négative signifie que le modèle favorisait plus probablement de mauvaises réponses que de bonnes. Ce n’est pas un outil d’évaluation utilisable.
Ce que propose l’article
Au lieu d’adapter des modèles existants, les chercheurs ont entraîné trois juges spécifiquement pour la notation de qualité sans référence. Chacun prend une question et une réponse en entrée et donne un score de 0 à 10, sans réponse correcte fournie.
Les trois modèles diffèrent principalement par leur taille et leur rapidité :
La formation a suivi un processus en deux étapes. Les modèles ont d’abord été pré-entraînés sur UltraFeedback, un ensemble de données public de réponses notées par GPT-4, avant d’être affiné sur la distribution de tâches propre au réseau. L’objectif était de donner aux juges une compréhension de base large de la qualité avant de concentrer leur attention sur le contexte spécifique de notation.
Le résultat principal
Sur un ensemble de test de 300 exemples, le juge DeBERTa a atteint une corrélation de Pearson de 0,747 avec le proxy de vérité terrain — sans accès à une réponse de référence. Les évaluateurs basés sur la référence du cadre précédent, qui avaient accès à des réponses correctes, atteignaient un maximum de 0,647.
L’écart s’explique simplement. Les évaluateurs plus anciens utilisaient des métriques de similarité mesurant la distance cosinus par rapport à une intégration de référence. Les nouveaux juges ont été optimisés de bout en bout pour la tâche de notation elle-même. La différence de performance reflète cette distinction plus que toute avancée architecturale.
Une mise en garde que les auteurs incluent : la vérité terrain utilisée ici est elle-même une approximation — une superposition de mots au niveau des tokens plutôt qu’un jugement humain. Les juges ont une bonne corrélation avec cette métrique, mais savoir si la superposition de mots reflète de manière fiable ce qu’un humain considérerait comme une réponse de qualité reste une question non résolue.
Deux fonctionnalités orientées déploiement accompagnent les juges. Une pipeline en cascade dirige d’abord les requêtes via le modèle léger, puis les escalade vers des modèles plus lourds uniquement lorsque les scores sont ambigus, réduisant ainsi les coûts d’évaluation jusqu’à 72,7 % dans la configuration la plus agressive, bien que la corrélation chute à environ 0,51 dans cette configuration. Un mécanisme de calibration en ligne, fonctionnant sans réglage manuel, identifie systématiquement la qualité sémantique comme le signal dominant et ajuste les poids en conséquence, lui attribuant 4,7 fois son poids initial au fil du temps.
Où le système rencontre encore des difficultés
Les juges ont des performances inégales selon le type de tâche. Sur la réponse à une question, la corrélation atteint 0,830. Sur la synthèse, elle chute à 0,199. L’article attribue cela non pas à une défaillance des juges eux-mêmes, mais à la métrique d’évaluation utilisée lors de l’entraînement : la superposition brute de mots est une mauvaise mesure de la qualité de la synthèse, donc les modèles entraînés contre celle-ci apprennent à suivre un signal faible. Les auteurs décrivent cela comme le principal problème ouvert plutôt qu’une limitation connue gérée discrètement.
Ce cadre est cohérent avec la façon dont l’article présente ses résultats dans l’ensemble — méthodiquement, avec les cas d’échec aussi clairement exposés que les améliorations. Après quatre articles dans cette série de recherche, le travail ressemble moins à une annonce de produit et plus à une équipe comblant progressivement des lacunes dans quelque chose qu’elle prévoit de déployer réellement.
Divulgation : Ce contenu est fourni par un tiers. Ni crypto.news ni l’auteur de cet article ne soutiennent un produit mentionné sur cette page. Les utilisateurs doivent effectuer leurs propres recherches avant d’agir concernant l’entreprise.