A última pesquisa da DGrid AI aborda uma falha central na pontuação de IA descentralizada

DGrid AI apresenta uma nova estrutura de Prova de Qualidade projetada para avaliar saídas de IA e melhorar a distribuição de recompensas em redes descentralizadas.

Resumo

  • A nova pesquisa PoQ da DGrid AI introduz uma pontuação sem referência para recompensar nós de IA sem precisar de respostas corretas.
  • A DGrid treinou juízes de IA especializados para avaliar a qualidade das saídas, melhorando os sistemas de recompensa de IA descentralizados em escala.
  • Os novos modelos de Prova de Qualidade da DGrid AI ajudam redes de IA descentralizadas a avaliar respostas com precisão, sem precisar de dados de verdade fundamental.

Redes de IA descentralizadas têm um problema de pagamento que pesquisadores vêm contornando silenciosamente há anos, e um artigo recente da DGrid AI coloca a questão diretamente na mesa. Os sistemas de pontuação de qualidade que alimentam as recompensas dos nós dependem em grande parte de ter a resposta correta à mão para comparar. Na prática, essa resposta raramente existe.

O artigo, o quarto da série de pesquisas contínuas da DGrid sobre Prova de Qualidade (PoQ), propõe uma alternativa treinada e publica os números por trás dela. PoQ usa pequenos modelos avaliadores para pontuar a qualidade de cada saída, e essas pontuações impulsionam as recompensas. Barato, e escalável.

A DGrid construiu isso passo a passo: uma versão consciente de custos que incorpora a latência na matemática do pagamento, uma camada de robustez contra adversários que mentem ou são preguiçosos, e uma estrutura que divide a “qualidade” em partes que podem ser inspecionadas. Engenharia sólida. E cada camada enfrentava a mesma barreira.

Como o problema de pontuação se desenvolveu

A estrutura básica de uma rede de inferência descentralizada cria um desafio de medição. Nós independentes executam modelos de linguagem e respondem a perguntas de usuários. Essas respostas precisam ser avaliadas porque as pontuações determinam o pagamento. A verificação criptográfica de cada cálculo seria tecnicamente à prova de falhas, mas proibitivamente cara em escala, então o caminho prático tem sido a avaliação automatizada de qualidade usando modelos menores.

O trabalho anterior da DGrid expandiu essa abordagem incrementalmente, adicionando pagamentos ajustados por latência, defesas contra avaliadores manipuladores e uma divisão mais granular do que “qualidade” realmente significa em um contexto de pontuação. O que não pôde resolver completamente foi o próprio sinal de avaliação.

O sinal mais forte que a equipe tinha era a similaridade semântica: comparar a saída do modelo com uma resposta correta conhecida e medir a distância entre elas no espaço de incorporação. Isso funciona em ambientes de benchmark onde respostas de referência existem. Não funciona em uma rede ao vivo onde os usuários fazem perguntas abertas e nenhuma verdade fundamental espera-se em um banco de dados.

Alternativas prontas para uso testaram pior. Um codificador cruzado NLI, uma classe de modelos projetados para avaliar a implicação lógica entre sentenças, retornou uma correlação de Pearson de −0,363 ao ser usado para avaliar a qualidade da resposta sem uma resposta de referência. Uma correlação negativa significa que o modelo tinha mais probabilidade de favorecer respostas ruins em vez de boas. Isso não é uma ferramenta de avaliação utilizável.

O que o artigo propõe

Em vez de adaptar modelos existentes, os pesquisadores treinaram três juízes especificamente para pontuação de qualidade sem referência. Cada um recebe uma pergunta e uma resposta como entrada e fornece uma pontuação de 0 a 10, sem uma resposta correta fornecida.

Os três modelos diferem principalmente em tamanho e velocidade:

  • TextCNN (~10 milhões de parâmetros) roda em aproximadamente 1 milissegundo por chamada, tornando-o adequado para filtragem de alta vazão na primeira passagem.
  • MiniLM (22 milhões de parâmetros) fica no meio, com cerca de 13 milissegundos.
  • DeBERTa (184 milhões de parâmetros) leva aproximadamente 15 milissegundos e é otimizado para precisão.

O treinamento seguiu um processo de duas etapas. Os modelos foram primeiro pré-treinados no UltraFeedback, um conjunto de dados público de respostas avaliadas pelo GPT-4, antes de serem ajustados na própria distribuição de tarefas da rede. A intenção era dar aos juízes uma compreensão ampla de qualidade antes de focar especificamente no contexto de pontuação.

O resultado principal

Em um conjunto de teste reservado de 300 exemplos, o juiz DeBERTa atingiu uma correlação de Pearson de 0,747 contra o proxy de verdade fundamental — sem acesso a qualquer resposta de referência. Os avaliadores baseados em referência do framework anterior, que tinham acesso às respostas corretas, atingiram um máximo de 0,647.

A diferença é facilmente explicável. Os avaliadores mais antigos eram métricas de similaridade que mediam a distância do cosseno até uma incorporação de referência. Os novos juízes foram otimizados de ponta a ponta para a própria tarefa de pontuação. A diferença de desempenho reflete essa distinção mais do que qualquer avanço arquitetônico.

Uma advertência que os autores incluem: a verdade fundamental usada aqui é ela mesma uma proxy — sobreposição de palavras ao nível de token, em vez de julgamento humano. Os juízes correlacionam-se bem com essa métrica, mas se a sobreposição de palavras reflete de forma confiável o que um humano consideraria uma resposta de qualidade é uma questão separada e não resolvida.

Duas funcionalidades voltadas para implantação acompanham os juízes. Um pipeline em cascata encaminha as perguntas pelo modelo leve primeiro e só escala para modelos mais pesados quando as pontuações são ambíguas, reduzindo os custos de avaliação em até 72,7% na configuração mais agressiva, embora a correlação caia para cerca de 0,51 nessa configuração. Um mecanismo de calibração online, que funciona sem ajuste manual, identifica consistentemente a qualidade semântica como o sinal dominante e ajusta os pesos de acordo, atribuindo a ela 4,7 vezes seu peso inicial ao longo do tempo.

Onde o sistema ainda enfrenta dificuldades

Os juízes apresentam desempenho desigual dependendo do tipo de tarefa. Em perguntas e respostas, a correlação atinge 0,830. Em sumarização, cai para 0,199. O artigo atribui isso não a uma falha nos juízes, mas à métrica de avaliação usada durante o treinamento: a sobreposição bruta de palavras é uma medida fraca de qualidade de sumarização, então modelos treinados contra ela aprendem a rastrear um sinal fraco. Os autores descrevem isso como o principal problema em aberto, e não uma limitação conhecida sendo gerenciada silenciosamente.

Essa estrutura é consistente com a forma como o artigo apresenta seus resultados — de maneira metódica, com os casos de falha tão claramente apresentados quanto as melhorias. Quatro artigos nesta linha de pesquisa, o trabalho parece menos um anúncio de produto e mais uma equipe fechando lacunas incrementalmente em algo que pretendem realmente implantar.

Divulgação: Este conteúdo é fornecido por terceiros. Nem crypto.news nem o autor deste artigo endossam qualquer produto mencionado nesta página. Os usuários devem conduzir suas próprias pesquisas antes de tomar qualquer ação relacionada à empresa.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado