La última investigación de DGrid AI aborda una falla central en la puntuación de IA descentralizada

DGrid AI presenta un nuevo marco de Prueba de Calidad diseñado para evaluar los resultados de IA y mejorar la distribución de recompensas en redes descentralizadas.

Resumen

  • La nueva investigación de PoQ de DGrid AI introduce puntuaciones sin referencia para recompensar a los nodos de IA sin necesidad de respuestas correctas.
  • DGrid entrenó jueces de IA especializados para puntuar la calidad de los resultados, mejorando los sistemas de recompensa de IA descentralizados a gran escala.
  • Los nuevos modelos de Prueba de Calidad de DGrid AI ayudan a las redes de IA descentralizadas a evaluar respuestas con precisión sin datos de verdad fundamental.

Las redes de IA descentralizadas tienen un problema de pago en el que los investigadores han estado trabajando en silencio durante años, y un artículo reciente de DGrid AI pone el tema directamente sobre la mesa. Los sistemas de puntuación de calidad que impulsan las recompensas de los nodos han dependido en gran medida de tener la respuesta correcta a mano para compararla. En producción, esa respuesta rara vez existe.

El artículo, el cuarto en la serie de investigación continua de DGrid sobre Prueba de Calidad (PoQ), propone una alternativa entrenada y publica los números detrás de ella. PoQ utiliza pequeños modelos evaluadores para puntuar la calidad de cada resultado, y esas puntuaciones impulsan las recompensas. Barato, y escalable.

DGrid construyó esto paso a paso: una versión consciente de costos que incorpora la latencia en el cálculo de pagos, una capa de robustez contra adversarios que mienten o son perezosos, y un marco que divide la “calidad” en partes que se pueden inspeccionar. Ingeniería sólida. Y cada capa chocaba contra la misma pared.

Cómo se desarrolló el problema de puntuación

La estructura básica de una red de inferencia descentralizada crea un desafío de medición. Nodos independientes ejecutan modelos de lenguaje y responden a consultas de usuarios. Esas respuestas necesitan ser puntuadas porque las puntuaciones determinan el pago. La verificación criptográfica de cada cálculo sería técnicamente a prueba de fallos, pero prohibitivamente costosa a escala, por lo que el camino práctico ha sido la evaluación automática de calidad usando modelos más pequeños.

El trabajo previo de DGrid amplió ese enfoque de manera incremental, añadiendo pagos ajustados por latencia, defensas contra evaluadores manipuladores, y un desglose más granular de lo que realmente significa “calidad” en un contexto de puntuación. Lo que no pudo resolver completamente fue la señal de evaluación en sí misma.

La señal más fuerte que tenía el equipo era la similitud semántica: comparar la salida del modelo con una respuesta correcta conocida y medir la distancia entre ellas en el espacio de incrustaciones. Eso funciona en entornos de referencia donde existen respuestas de referencia. No funciona en una red en vivo donde los usuarios hacen preguntas abiertas y no hay una verdad fundamental esperando en una base de datos.

Alternativas listas para usar probaron peor. Un codificador cruzado NLI, una clase de modelos diseñada para evaluar la implicación lógica entre oraciones, arrojó una correlación de Pearson de −0.363 cuando se usó para calificar la calidad de respuestas sin una respuesta de referencia. Una correlación negativa significa que el modelo favorecía respuestas pobres sobre buenas. Eso no es una herramienta de evaluación usable.

Qué propone el artículo

En lugar de adaptar modelos existentes, los investigadores entrenaron tres jueces específicamente para puntuación de calidad sin referencia. Cada uno toma una pregunta y una respuesta como entrada y produce una puntuación de 0 a 10, sin proporcionar una respuesta correcta.

Los tres modelos difieren principalmente en tamaño y velocidad:

  • TextCNN (~10M de parámetros) funciona en aproximadamente 1 milisegundo por llamada, siendo adecuado para filtrado de primera pasada de alto rendimiento.
  • MiniLM (22M de parámetros) se sitúa en el medio, en unos 13 milisegundos.
  • DeBERTa (184M de parámetros) tarda aproximadamente 15 milisegundos y está optimizado para precisión.

El entrenamiento siguió un proceso de dos etapas. Primero, los modelos se preentrenaron en UltraFeedback, un conjunto de datos público de respuestas calificadas por GPT-4, antes de ajustarlos en la distribución de tareas propia de la red. La intención era dar a los jueces una comprensión general de la calidad antes de enfocar su atención en el contexto específico de puntuación.

El resultado principal

En un conjunto de prueba reservado de 300 ejemplos, el juez DeBERTa alcanzó una correlación de Pearson de 0.747 frente al proxy de verdad fundamental — sin acceso a ninguna respuesta de referencia. Los evaluadores basados en referencia del marco anterior, que sí tenían acceso a respuestas correctas, alcanzaron un máximo de 0.647.

La diferencia tiene una explicación sencilla. Los evaluadores antiguos eran métricas de similitud que medían la distancia coseno a una incrustación de referencia. Los nuevos jueces estaban optimizados de extremo a extremo para la tarea de puntuación en sí misma. La diferencia en rendimiento refleja esa distinción más que un avance arquitectónico.

Una advertencia que incluyen los autores: la verdad fundamental utilizada aquí es en sí misma un proxy — superposición de palabras a nivel de token en lugar de juicio humano. Los jueces correlacionan bien con esta métrica, pero si la superposición de palabras refleja de manera confiable lo que un humano consideraría una respuesta de calidad, es una cuestión separada y sin resolver.

Dos características orientadas a despliegues acompañan a los jueces. Una canalización en cascada enruta las consultas primero a un modelo liviano y solo las escala a modelos más pesados cuando las puntuaciones son ambiguas, reduciendo los costos de evaluación hasta en un 72.7% en la configuración más agresiva, aunque la correlación cae a alrededor de 0.51 en esa configuración. Un mecanismo de calibración en línea, que funciona sin ajuste manual, identifica consistentemente la calidad semántica como la señal dominante y ajusta los pesos en consecuencia, asignándole 4.7 veces su peso inicial con el tiempo.

Dónde aún tiene dificultades el sistema

Los jueces rinden de manera desigual según el tipo de tarea. En preguntas y respuestas, la correlación alcanza 0.830. En resumen, cae a 0.199. El artículo atribuye esto no a una falla en los jueces en sí, sino a la métrica de evaluación utilizada durante el entrenamiento: la superposición de palabras en bruto es una medida pobre de la calidad de un resumen, por lo que los modelos entrenados contra ella aprenden a seguir una señal débil. Los autores describen esto como el principal problema abierto en lugar de una limitación conocida gestionada en silencio.

Este enfoque es coherente con cómo el artículo presenta sus resultados en general — de manera metódica, con los casos de fallo tan claramente expuestos como las mejoras. Cuatro artículos en esta línea de investigación, el trabajo se lee menos como un anuncio de producto y más como un equipo que cierra gradualmente brechas en algo que realmente planean desplegar.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado