Futuros
Acesse centenas de contratos perpétuos
CFD
Ouro
Plataforma única para ativos tradicionais globais
Opções
Hot
Negocie opções vanilla no estilo europeu
Conta unificada
Maximize sua eficiência de capital
Negociação demo
Introdução à negociação de futuros
Prepare-se para sua negociação de futuros
Eventos de futuros
Participe de eventos e ganhe recompensas
Negociação demo
Use fundos virtuais para experimentar negociações sem riscos
CFD
Derivativos de CFD de ações dos EUA
Ações dos EUA
Acesse ações e ETFs reais dos EUA
Ações de Hong Kong
Negocie ações de qualidade listadas em Hong Kong
Futuros de ações
Alta alavancagem, negociação 24/7
Ações tokenizadas
Respaldado por ativos de ações reais
IPO Access
Desbloqueie o acesso completo a IPO de ações globais
GUSD
Cunhe GUSD para rendimentos de RWA do Tesouro
Atividades de ações
Negocie ações populares e desbloqueie airdrops generosos
Lançamento
CandyDrop
Colete candies para ganhar airdrops
Launchpool
Staking rápido, ganhe novos tokens em potencial
HODLer Airdrop
Possua GT em hold e ganhe airdrops massivos de graça
IPO Access
Desbloqueie o acesso completo a IPO de ações globais
Pontos Alpha
Negocie on-chain e receba airdrops
Pontos de futuros
Ganhe pontos de futuros e colete recompensas em airdrop
Investimento
Simple Earn
Ganhe juros com tokens ociosos
Autoinvestimento
Invista automaticamente regularmente
Investimento duplo
Lucre com a volatilidade do mercado
Soft Staking
Ganhe recompensas com stakings flexíveis
Empréstimo de criptomoedas
0 Fees
Penhore uma criptomoeda para pegar outra emprestado
Centro de empréstimos
Centro de empréstimos integrado
Centro de riqueza VIP
Planos premium de crescimento de patrimônio
Gestão privada de patrimônio
Alocação premium de ativos
Fundo Quantitativo
Estratégias quant de alto nível
Apostar
Faça staking de criptomoedas para ganhar em produtos PoS
Alavancagem Inteligente
Alavancagem sem liquidação
USD1 12% a.a.
Sem bloqueio, negocie e saque
Promoções
Centro de atividade
Participe de atividades e ganhe recompensas
Indicação
20 USDT
Convide amigos para recompensas de ind.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Anúncio
Atualizações na plataforma em tempo real
Blog da Gate
Artigos do setor de criptomoedas
Serviços VIP
Grandes Descontos nas Taxas
Gerenciamento de ativos
Solução completa de gerenciamento de ativos
Institucional
Soluções de ativos digitais para empresas
Desenvolvedores (API)
Conecta-se ao ecossistema de aplicativos da Gate
Transferência Bancária OTC
Deposite e retire moedas fiat
Programa de corretoras
Mecanismos de grandes descontos via API
AI
Gate AI
Seu parceiro de IA conversacional para todas as horas
Gate AI Bot
Use o Gate AI diretamente no seu aplicativo social
GateClaw
Gate Blue Lobster, pronto para usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
10K+ habilidades
Do escritório à negociação: um hub completo de habilidades para turbinar o uso da IA
A última pesquisa da DGrid AI aborda uma falha central na pontuação de IA descentralizada
DGrid AI apresenta uma nova estrutura de Prova de Qualidade projetada para avaliar saídas de IA e melhorar a distribuição de recompensas em redes descentralizadas.
Resumo
Redes de IA descentralizadas têm um problema de pagamento que pesquisadores vêm contornando silenciosamente há anos, e um artigo recente da DGrid AI coloca a questão diretamente na mesa. Os sistemas de pontuação de qualidade que alimentam as recompensas dos nós dependem em grande parte de ter a resposta correta à mão para comparar. Na prática, essa resposta raramente existe.
O artigo, o quarto da série de pesquisas contínuas da DGrid sobre Prova de Qualidade (PoQ), propõe uma alternativa treinada e publica os números por trás dela. PoQ usa pequenos modelos avaliadores para pontuar a qualidade de cada saída, e essas pontuações impulsionam as recompensas. Barato, e escalável.
A DGrid construiu isso passo a passo: uma versão consciente de custos que incorpora a latência na matemática do pagamento, uma camada de robustez contra adversários que mentem ou são preguiçosos, e uma estrutura que divide a “qualidade” em partes que podem ser inspecionadas. Engenharia sólida. E cada camada enfrentava a mesma barreira.
Como o problema de pontuação se desenvolveu
A estrutura básica de uma rede de inferência descentralizada cria um desafio de medição. Nós independentes executam modelos de linguagem e respondem a perguntas de usuários. Essas respostas precisam ser avaliadas porque as pontuações determinam o pagamento. A verificação criptográfica de cada cálculo seria tecnicamente à prova de falhas, mas proibitivamente cara em escala, então o caminho prático tem sido a avaliação automatizada de qualidade usando modelos menores.
O trabalho anterior da DGrid expandiu essa abordagem incrementalmente, adicionando pagamentos ajustados por latência, defesas contra avaliadores manipuladores e uma divisão mais granular do que “qualidade” realmente significa em um contexto de pontuação. O que não pôde resolver completamente foi o próprio sinal de avaliação.
O sinal mais forte que a equipe tinha era a similaridade semântica: comparar a saída do modelo com uma resposta correta conhecida e medir a distância entre elas no espaço de incorporação. Isso funciona em ambientes de benchmark onde respostas de referência existem. Não funciona em uma rede ao vivo onde os usuários fazem perguntas abertas e nenhuma verdade fundamental espera-se em um banco de dados.
Alternativas prontas para uso testaram pior. Um codificador cruzado NLI, uma classe de modelos projetados para avaliar a implicação lógica entre sentenças, retornou uma correlação de Pearson de −0,363 ao ser usado para avaliar a qualidade da resposta sem uma resposta de referência. Uma correlação negativa significa que o modelo tinha mais probabilidade de favorecer respostas ruins em vez de boas. Isso não é uma ferramenta de avaliação utilizável.
O que o artigo propõe
Em vez de adaptar modelos existentes, os pesquisadores treinaram três juízes especificamente para pontuação de qualidade sem referência. Cada um recebe uma pergunta e uma resposta como entrada e fornece uma pontuação de 0 a 10, sem uma resposta correta fornecida.
Os três modelos diferem principalmente em tamanho e velocidade:
O treinamento seguiu um processo de duas etapas. Os modelos foram primeiro pré-treinados no UltraFeedback, um conjunto de dados público de respostas avaliadas pelo GPT-4, antes de serem ajustados na própria distribuição de tarefas da rede. A intenção era dar aos juízes uma compreensão ampla de qualidade antes de focar especificamente no contexto de pontuação.
O resultado principal
Em um conjunto de teste reservado de 300 exemplos, o juiz DeBERTa atingiu uma correlação de Pearson de 0,747 contra o proxy de verdade fundamental — sem acesso a qualquer resposta de referência. Os avaliadores baseados em referência do framework anterior, que tinham acesso às respostas corretas, atingiram um máximo de 0,647.
A diferença é facilmente explicável. Os avaliadores mais antigos eram métricas de similaridade que mediam a distância do cosseno até uma incorporação de referência. Os novos juízes foram otimizados de ponta a ponta para a própria tarefa de pontuação. A diferença de desempenho reflete essa distinção mais do que qualquer avanço arquitetônico.
Uma advertência que os autores incluem: a verdade fundamental usada aqui é ela mesma uma proxy — sobreposição de palavras ao nível de token, em vez de julgamento humano. Os juízes correlacionam-se bem com essa métrica, mas se a sobreposição de palavras reflete de forma confiável o que um humano consideraria uma resposta de qualidade é uma questão separada e não resolvida.
Duas funcionalidades voltadas para implantação acompanham os juízes. Um pipeline em cascata encaminha as perguntas pelo modelo leve primeiro e só escala para modelos mais pesados quando as pontuações são ambíguas, reduzindo os custos de avaliação em até 72,7% na configuração mais agressiva, embora a correlação caia para cerca de 0,51 nessa configuração. Um mecanismo de calibração online, que funciona sem ajuste manual, identifica consistentemente a qualidade semântica como o sinal dominante e ajusta os pesos de acordo, atribuindo a ela 4,7 vezes seu peso inicial ao longo do tempo.
Onde o sistema ainda enfrenta dificuldades
Os juízes apresentam desempenho desigual dependendo do tipo de tarefa. Em perguntas e respostas, a correlação atinge 0,830. Em sumarização, cai para 0,199. O artigo atribui isso não a uma falha nos juízes, mas à métrica de avaliação usada durante o treinamento: a sobreposição bruta de palavras é uma medida fraca de qualidade de sumarização, então modelos treinados contra ela aprendem a rastrear um sinal fraco. Os autores descrevem isso como o principal problema em aberto, e não uma limitação conhecida sendo gerenciada silenciosamente.
Essa estrutura é consistente com a forma como o artigo apresenta seus resultados — de maneira metódica, com os casos de falha tão claramente apresentados quanto as melhorias. Quatro artigos nesta linha de pesquisa, o trabalho parece menos um anúncio de produto e mais uma equipe fechando lacunas incrementalmente em algo que pretendem realmente implantar.
Divulgação: Este conteúdo é fornecido por terceiros. Nem crypto.news nem o autor deste artigo endossam qualquer produto mencionado nesta página. Os usuários devem conduzir suas próprias pesquisas antes de tomar qualquer ação relacionada à empresa.