Futuros
Aceda a centenas de contratos perpétuos
CFD
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
CFD
Derivados CFD de ações dos EUA
Ações dos EUA
Aceder a ações e ETF reais dos EUA
Ações de Hong Kong
Negociar ações de qualidade cotadas em Hong Kong
Futuros de ações
Alta alavancagem, negociação 24/7
Ações tokenizadas
Garantido por ativos de ações reais
IPO Access
Desbloquear acesso completo a IPO de ações globais
GUSD
Cunhe GUSD para rendimentos de RWA do Tesouro
Atividades de ações
Negociar ações populares e desbloquear airdrops generosos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
IPO Access
Desbloquear acesso completo a IPO de ações globais
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
Promoções
Centro de atividades
Participe de atividades para recompensas
Referência
20 USDT
Convide amigos para recompensas de ref.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Announcements
Atualizações na plataforma em tempo real
Blog da Gate
Artigos da indústria cripto
Serviços VIP
Enormes descontos nas taxas
Gestão de ativos
Solução integral para a gestão de ativos
Institucional
Soluções de ativos digitais para empresas
Desenvolvedores (API)
Conecta-se ao ecossistema de aplicações Gate
Transferência Bancária OTC
Deposite e levante moeda fiduciária
Programa de corretora
Mecanismo generoso de reembolso de API
AI
Gate AI
O seu parceiro de IA conversacional tudo-em-um
Gate AI Bot
Utilize o Gate AI diretamente na sua aplicação social
GateClaw
Gate Lagosta Azul, pronto a usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
Mais de 10 mil competências
Do escritório à negociação, uma biblioteca de competências tudo-em-um torna a IA ainda mais útil
A última pesquisa da DGrid AI aborda uma falha central na Avaliação de IA descentralizada
DGrid AI apresenta uma nova estrutura de Prova de Qualidade projetada para avaliar outputs de IA e melhorar a distribuição de recompensas em redes descentralizadas.
Resumo
As redes de IA descentralizadas têm um problema de pagamento que pesquisadores vêm contornando silenciosamente há anos, e um artigo recente da DGrid AI coloca a questão diretamente na mesa. Os sistemas de pontuação de qualidade que alimentam as recompensas dos nós dependem em grande parte de ter a resposta correta à mão para comparar. Na prática, essa resposta raramente existe.
O artigo, o quarto da série de pesquisa contínua da DGrid sobre Prova de Qualidade (PoQ), propõe uma alternativa treinada e publica os números por trás dela. PoQ usa pequenos modelos avaliadores para pontuar a qualidade de cada output, e essas pontuações impulsionam as recompensas. Barato, e escalável.
A DGrid construiu isso passo a passo: uma versão consciente de custos que incorpora latência na matemática do pagamento, uma camada de robustez contra adversários que mentem ou são preguiçosos, e uma estrutura que divide a “qualidade” em partes que podem ser inspecionadas. Engenharia sólida. E cada camada enfrentava a mesma barreira.
Como o problema de pontuação se desenvolveu
A estrutura básica de uma rede de inferência descentralizada cria um desafio de medição. Nós independentes executam modelos de linguagem e respondem a perguntas de usuários. Essas respostas precisam ser avaliadas porque as pontuações determinam o pagamento. A verificação criptográfica de cada cálculo seria tecnicamente à prova de falhas, mas proibitivamente cara em escala, então o caminho prático tem sido a avaliação automática de qualidade usando modelos menores.
O trabalho anterior da DGrid expandiu essa abordagem incrementalmente, adicionando pagamentos ajustados por latência, defesas contra avaliadores manipuladores, e uma divisão mais granular do que “qualidade” realmente significa em um contexto de pontuação. O que não pôde resolver completamente foi o próprio sinal de avaliação.
O sinal mais forte que a equipe tinha era a similaridade semântica: comparar a saída do modelo com uma resposta correta conhecida e medir a distância entre elas no espaço de embeddings. Isso funciona em ambientes de benchmark onde respostas de referência existem. Não funciona em uma rede ao vivo onde os usuários fazem perguntas abertas e nenhuma verdade fundamental espera-se em um banco de dados.
Alternativas prontas testaram pior. Um codificador cruzado NLI, uma classe de modelos projetada para avaliar a implicação lógica entre sentenças, retornou uma correlação de Pearson de −0,363 ao ser usado para avaliar a qualidade da resposta sem uma resposta de referência. Uma correlação negativa significa que o modelo tinha mais probabilidade de favorecer respostas ruins em vez de boas. Isso não é uma ferramenta de avaliação utilizável.
O que o artigo propõe
Em vez de adaptar modelos existentes, os pesquisadores treinaram três juízes especificamente para pontuação de qualidade sem referência. Cada um recebe uma pergunta e uma resposta como entrada e fornece uma pontuação de 0 a 10, sem uma resposta correta fornecida.
Os três modelos diferem principalmente em tamanho e velocidade:
O treinamento seguiu um processo de duas etapas. Os modelos foram primeiro pré-treinados no UltraFeedback, um conjunto de dados público de respostas avaliadas pelo GPT-4, antes de serem ajustados na própria distribuição de tarefas da rede. A intenção era dar aos juízes uma compreensão ampla de qualidade antes de focar especificamente no contexto de pontuação.
O resultado principal
Em um conjunto de teste reservado de 300 exemplos, o juiz DeBERTa atingiu uma correlação de Pearson de 0,747 contra o proxy de verdade fundamental — sem acesso a qualquer resposta de referência. Os avaliadores baseados em referência do framework anterior, que tinham acesso às respostas corretas, atingiram um máximo de 0,647.
A diferença é facilmente explicável. Os avaliadores mais antigos eram métricas de similaridade que mediam a distância do cosseno até uma embedding de referência. Os novos juízes foram otimizados de ponta a ponta para a tarefa de pontuação em si. A diferença de desempenho reflete essa distinção mais do que qualquer avanço arquitetônico.
Uma advertência que os autores incluem: a verdade fundamental usada aqui é ela mesma uma proxy — sobreposição de palavras ao nível de token, em vez de julgamento humano. Os juízes correlacionam-se bem com essa métrica, mas se a sobreposição de palavras reflete de forma confiável o que um humano consideraria uma resposta de qualidade é uma questão separada e ainda não resolvida.
Duas funcionalidades voltadas para implantação acompanham os juízes. Um pipeline em cascata encaminha as perguntas primeiro pelo modelo leve e só escala para modelos mais pesados quando as pontuações são ambíguas, reduzindo os custos de avaliação em até 72,7% na configuração mais agressiva, embora a correlação caia para cerca de 0,51 nessa configuração. Um mecanismo de calibração online, que funciona sem ajuste manual, identifica consistentemente a qualidade semântica como o sinal dominante e ajusta os pesos de acordo, atribuindo a ela 4,7 vezes seu peso inicial ao longo do tempo.
Onde o sistema ainda enfrenta dificuldades
Os juízes apresentam desempenho desigual dependendo do tipo de tarefa. Em perguntas e respostas, a correlação atinge 0,830. Em sumarização, cai para 0,199. O artigo atribui isso não a uma falha nos juízes, mas à métrica de avaliação usada durante o treinamento: a sobreposição de palavras bruta é uma medida fraca de qualidade de sumarização, então modelos treinados contra ela aprendem a rastrear um sinal fraco. Os autores descrevem isso como o principal problema em aberto, e não uma limitação conhecida sendo gerenciada silenciosamente.
Essa abordagem é consistente com a forma como o artigo apresenta seus resultados — de maneira metódica, com os casos de falha tão claramente apresentados quanto as melhorias. Quatro artigos nesta linha de pesquisa, o trabalho parece menos um anúncio de produto e mais uma equipe fechando lacunas incrementalmente em algo que pretendem realmente implantar.
Divulgação: Este conteúdo é fornecido por um terceiro. Nem crypto.news nem o autor deste artigo endossam qualquer produto mencionado nesta página. Os usuários devem conduzir suas próprias pesquisas antes de tomar qualquer ação relacionada à empresa.