DGrid AI apresenta uma nova estrutura de Prova de Qualidade projetada para avaliar outputs de IA e melhorar a distribuição de recompensas em redes descentralizadas.

Resumo

A nova pesquisa PoQ da DGrid AI introduz uma pontuação sem referência para recompensar nós de IA sem precisar de respostas corretas.
A DGrid treinou juízes de IA especializados para avaliar a qualidade do output, melhorando os sistemas de recompensa de IA descentralizados em escala.
Os novos modelos de Prova de Qualidade da DGrid AI ajudam redes de IA descentralizadas a avaliar respostas com precisão, sem precisar de dados de verdade fundamental.

As redes de IA descentralizadas têm um problema de pagamento que pesquisadores vêm contornando silenciosamente há anos, e um artigo recente da DGrid AI coloca a questão diretamente na mesa. Os sistemas de pontuação de qualidade que alimentam as recompensas dos nós dependem em grande parte de ter a resposta correta à mão para comparar. Na prática, essa resposta raramente existe.

O artigo, o quarto da série de pesquisa contínua da DGrid sobre Prova de Qualidade (PoQ), propõe uma alternativa treinada e publica os números por trás dela. PoQ usa pequenos modelos avaliadores para pontuar a qualidade de cada output, e essas pontuações impulsionam as recompensas. Barato, e escalável.

A DGrid construiu isso passo a passo: uma versão consciente de custos que incorpora latência na matemática do pagamento, uma camada de robustez contra adversários que mentem ou são preguiçosos, e uma estrutura que divide a “qualidade” em partes que podem ser inspecionadas. Engenharia sólida. E cada camada enfrentava a mesma barreira.

Como o problema de pontuação se desenvolveu

A estrutura básica de uma rede de inferência descentralizada cria um desafio de medição. Nós independentes executam modelos de linguagem e respondem a perguntas de usuários. Essas respostas precisam ser avaliadas porque as pontuações determinam o pagamento. A verificação criptográfica de cada cálculo seria tecnicamente à prova de falhas, mas proibitivamente cara em escala, então o caminho prático tem sido a avaliação automática de qualidade usando modelos menores.

O trabalho anterior da DGrid expandiu essa abordagem incrementalmente, adicionando pagamentos ajustados por latência, defesas contra avaliadores manipuladores, e uma divisão mais granular do que “qualidade” realmente significa em um contexto de pontuação. O que não pôde resolver completamente foi o próprio sinal de avaliação.

O sinal mais forte que a equipe tinha era a similaridade semântica: comparar a saída do modelo com uma resposta correta conhecida e medir a distância entre elas no espaço de embeddings. Isso funciona em ambientes de benchmark onde respostas de referência existem. Não funciona em uma rede ao vivo onde os usuários fazem perguntas abertas e nenhuma verdade fundamental espera-se em um banco de dados.

Alternativas prontas testaram pior. Um codificador cruzado NLI, uma classe de modelos projetada para avaliar a implicação lógica entre sentenças, retornou uma correlação de Pearson de −0,363 ao ser usado para avaliar a qualidade da resposta sem uma resposta de referência. Uma correlação negativa significa que o modelo tinha mais probabilidade de favorecer respostas ruins em vez de boas. Isso não é uma ferramenta de avaliação utilizável.

O que o artigo propõe

Em vez de adaptar modelos existentes, os pesquisadores treinaram três juízes especificamente para pontuação de qualidade sem referência. Cada um recebe uma pergunta e uma resposta como entrada e fornece uma pontuação de 0 a 10, sem uma resposta correta fornecida.

Os três modelos diferem principalmente em tamanho e velocidade:

TextCNN (~10M de parâmetros) roda em aproximadamente 1 milissegundo por chamada, tornando-o adequado para filtragem de alta vazão na primeira passagem.
MiniLM (22M de parâmetros) fica no meio, com cerca de 13 milissegundos.
DeBERTa (184M de parâmetros) leva aproximadamente 15 milissegundos e é otimizado para precisão.

O treinamento seguiu um processo de duas etapas. Os modelos foram primeiro pré-treinados no UltraFeedback, um conjunto de dados público de respostas avaliadas pelo GPT-4, antes de serem ajustados na própria distribuição de tarefas da rede. A intenção era dar aos juízes uma compreensão ampla de qualidade antes de focar especificamente no contexto de pontuação.

O resultado principal

Em um conjunto de teste reservado de 300 exemplos, o juiz DeBERTa atingiu uma correlação de Pearson de 0,747 contra o proxy de verdade fundamental — sem acesso a qualquer resposta de referência. Os avaliadores baseados em referência do framework anterior, que tinham acesso às respostas corretas, atingiram um máximo de 0,647.

A diferença é facilmente explicável. Os avaliadores mais antigos eram métricas de similaridade que mediam a distância do cosseno até uma embedding de referência. Os novos juízes foram otimizados de ponta a ponta para a tarefa de pontuação em si. A diferença de desempenho reflete essa distinção mais do que qualquer avanço arquitetônico.

Uma advertência que os autores incluem: a verdade fundamental usada aqui é ela mesma uma proxy — sobreposição de palavras ao nível de token, em vez de julgamento humano. Os juízes correlacionam-se bem com essa métrica, mas se a sobreposição de palavras reflete de forma confiável o que um humano consideraria uma resposta de qualidade é uma questão separada e ainda não resolvida.

Duas funcionalidades voltadas para implantação acompanham os juízes. Um pipeline em cascata encaminha as perguntas primeiro pelo modelo leve e só escala para modelos mais pesados quando as pontuações são ambíguas, reduzindo os custos de avaliação em até 72,7% na configuração mais agressiva, embora a correlação caia para cerca de 0,51 nessa configuração. Um mecanismo de calibração online, que funciona sem ajuste manual, identifica consistentemente a qualidade semântica como o sinal dominante e ajusta os pesos de acordo, atribuindo a ela 4,7 vezes seu peso inicial ao longo do tempo.

Onde o sistema ainda enfrenta dificuldades

Os juízes apresentam desempenho desigual dependendo do tipo de tarefa. Em perguntas e respostas, a correlação atinge 0,830. Em sumarização, cai para 0,199. O artigo atribui isso não a uma falha nos juízes, mas à métrica de avaliação usada durante o treinamento: a sobreposição de palavras bruta é uma medida fraca de qualidade de sumarização, então modelos treinados contra ela aprendem a rastrear um sinal fraco. Os autores descrevem isso como o principal problema em aberto, e não uma limitação conhecida sendo gerenciada silenciosamente.

Essa abordagem é consistente com a forma como o artigo apresenta seus resultados — de maneira metódica, com os casos de falha tão claramente apresentados quanto as melhorias. Quatro artigos nesta linha de pesquisa, o trabalho parece menos um anúncio de produto e mais uma equipe fechando lacunas incrementalmente em algo que pretendem realmente implantar.

Divulgação: Este conteúdo é fornecido por um terceiro. Nem crypto.news nem o autor deste artigo endossam qualquer produto mencionado nesta página. Os usuários devem conduzir suas próprias pesquisas antes de tomar qualquer ação relacionada à empresa.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
MyGateTradeStory
965,74K Popularidade
#
USIranTalksPostponed
1,89M Popularidade
#
IsraelStrikesIranBTCPlunges
59,83K Popularidade
#
PredictWorldCup🇺🇸vs🇵🇾
835,14K Popularidade
#
TradFiCFDGoldMaster
1,82M Popularidade

Fixado

A última pesquisa da DGrid AI aborda uma falha central na Avaliação de IA descentralizada

Como o problema de pontuação se desenvolveu

O que o artigo propõe

O resultado principal

Onde o sistema ainda enfrenta dificuldades

Tópicos em destaque

MyGateTradeStory

USIranTalksPostponed

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

Fixado