Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
CFD
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
CFD
Derivados de CFD de acciones estadounidenses
Acciones EE. UU.
Accede a acciones y ETF estadounidenses reales
Acciones HK
Opera con acciones de calidad cotizadas en Hong Kong
Futuros de acciones
Alto apalancamiento, trading 24/7
Acciones tokenizadas
Respaldado por acciones reales
IPO Access
Accede al acceso completo a las OPV de acciones globales
GUSD
Acuña GUSD para obtener rendimientos de RWA del Tesoro
Actividades de acciones
Opera con acciones populares y desbloquea grandes airdrops
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
IPO Access
Accede al acceso completo a las OPV de acciones globales
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
Apalancamiento sin liquidación
USD1 12% TAE
Sin bloqueo, opera y retira
Promociones
Centro de actividades
Únete a actividades y gana recompensas
Referido
20 USDT
Invita amigos y gana por tus referidos
Programa de afiliados
Gana recompensas de comisión exclusivas
Gate Booster
Aumenta tu influencia y gana airdrops
Anuncio
Novedades de plataforma en tiempo real
Gate Blog
Artículos del sector de las criptomonedas
Servicios VIP
Grandes descuentos en tarifas
Gestión de activos
Solución integral para la gestión de activos
Institucional
Soluciones de activos digitales: empresas
Desarrolladores (API)
Conecta con el ecosistema de aplicaciones Gate
Transferencia bancaria OTC
Deposita y retira fiat
Programa de bróker
Reembolsos generosos mediante API
AI
Gate AI
Tu compañero de IA conversacional para todo
Gate AI Bot
Usa Gate AI directamente en tu aplicación social
GateClaw
Gate Blue Lobster, listo para usar
Gate for AI Agent
Infraestructura de IA, Gate MCP, Skills y CLI
Gate Skills Hub
+10 000 habilidades
De la oficina al trading, una biblioteca de habilidades todo en uno para sacar el máximo partido a la IA
La última investigación de DGrid AI aborda una falla central en la puntuación de IA descentralizada
DGrid AI presenta un nuevo marco de Prueba de Calidad diseñado para evaluar los resultados de IA y mejorar la distribución de recompensas en redes descentralizadas.
Resumen
Las redes de IA descentralizadas tienen un problema de pago en el que los investigadores han estado trabajando en silencio durante años, y un artículo reciente de DGrid AI pone el tema directamente sobre la mesa. Los sistemas de puntuación de calidad que impulsan las recompensas de los nodos han dependido en gran medida de tener la respuesta correcta a mano para compararla. En producción, esa respuesta rara vez existe.
El artículo, el cuarto en la serie de investigación continua de DGrid sobre Prueba de Calidad (PoQ), propone una alternativa entrenada y publica los números detrás de ella. PoQ utiliza pequeños modelos evaluadores para puntuar la calidad de cada resultado, y esas puntuaciones impulsan las recompensas. Barato, y escalable.
DGrid construyó esto paso a paso: una versión consciente de costos que incorpora la latencia en el cálculo de pagos, una capa de robustez contra adversarios que mienten o son perezosos, y un marco que divide la “calidad” en partes que se pueden inspeccionar. Ingeniería sólida. Y cada capa chocaba contra la misma pared.
Cómo se desarrolló el problema de puntuación
La estructura básica de una red de inferencia descentralizada crea un desafío de medición. Nodos independientes ejecutan modelos de lenguaje y responden a consultas de usuarios. Esas respuestas necesitan ser puntuadas porque las puntuaciones determinan el pago. La verificación criptográfica de cada cálculo sería técnicamente a prueba de fallos, pero prohibitivamente costosa a escala, por lo que el camino práctico ha sido la evaluación automática de calidad usando modelos más pequeños.
El trabajo previo de DGrid amplió ese enfoque de manera incremental, añadiendo pagos ajustados por latencia, defensas contra evaluadores manipuladores, y un desglose más granular de lo que realmente significa “calidad” en un contexto de puntuación. Lo que no pudo resolver completamente fue la señal de evaluación en sí misma.
La señal más fuerte que tenía el equipo era la similitud semántica: comparar la salida del modelo con una respuesta correcta conocida y medir la distancia entre ellas en el espacio de incrustaciones. Eso funciona en entornos de referencia donde existen respuestas de referencia. No funciona en una red en vivo donde los usuarios hacen preguntas abiertas y no hay una verdad fundamental esperando en una base de datos.
Alternativas listas para usar probaron peor. Un codificador cruzado NLI, una clase de modelos diseñada para evaluar la implicación lógica entre oraciones, arrojó una correlación de Pearson de −0.363 cuando se usó para calificar la calidad de respuestas sin una respuesta de referencia. Una correlación negativa significa que el modelo favorecía respuestas pobres sobre buenas. Eso no es una herramienta de evaluación usable.
Qué propone el artículo
En lugar de adaptar modelos existentes, los investigadores entrenaron tres jueces específicamente para puntuación de calidad sin referencia. Cada uno toma una pregunta y una respuesta como entrada y produce una puntuación de 0 a 10, sin proporcionar una respuesta correcta.
Los tres modelos difieren principalmente en tamaño y velocidad:
El entrenamiento siguió un proceso de dos etapas. Primero, los modelos se preentrenaron en UltraFeedback, un conjunto de datos público de respuestas calificadas por GPT-4, antes de ajustarlos en la distribución de tareas propia de la red. La intención era dar a los jueces una comprensión general de la calidad antes de enfocar su atención en el contexto específico de puntuación.
El resultado principal
En un conjunto de prueba reservado de 300 ejemplos, el juez DeBERTa alcanzó una correlación de Pearson de 0.747 frente al proxy de verdad fundamental — sin acceso a ninguna respuesta de referencia. Los evaluadores basados en referencia del marco anterior, que sí tenían acceso a respuestas correctas, alcanzaron un máximo de 0.647.
La diferencia tiene una explicación sencilla. Los evaluadores antiguos eran métricas de similitud que medían la distancia coseno a una incrustación de referencia. Los nuevos jueces estaban optimizados de extremo a extremo para la tarea de puntuación en sí misma. La diferencia en rendimiento refleja esa distinción más que un avance arquitectónico.
Una advertencia que incluyen los autores: la verdad fundamental utilizada aquí es en sí misma un proxy — superposición de palabras a nivel de token en lugar de juicio humano. Los jueces correlacionan bien con esta métrica, pero si la superposición de palabras refleja de manera confiable lo que un humano consideraría una respuesta de calidad, es una cuestión separada y sin resolver.
Dos características orientadas a despliegues acompañan a los jueces. Una canalización en cascada enruta las consultas primero a un modelo liviano y solo las escala a modelos más pesados cuando las puntuaciones son ambiguas, reduciendo los costos de evaluación hasta en un 72.7% en la configuración más agresiva, aunque la correlación cae a alrededor de 0.51 en esa configuración. Un mecanismo de calibración en línea, que funciona sin ajuste manual, identifica consistentemente la calidad semántica como la señal dominante y ajusta los pesos en consecuencia, asignándole 4.7 veces su peso inicial con el tiempo.
Dónde aún tiene dificultades el sistema
Los jueces rinden de manera desigual según el tipo de tarea. En preguntas y respuestas, la correlación alcanza 0.830. En resumen, cae a 0.199. El artículo atribuye esto no a una falla en los jueces en sí, sino a la métrica de evaluación utilizada durante el entrenamiento: la superposición de palabras en bruto es una medida pobre de la calidad de un resumen, por lo que los modelos entrenados contra ella aprenden a seguir una señal débil. Los autores describen esto como el principal problema abierto en lugar de una limitación conocida gestionada en silencio.
Este enfoque es coherente con cómo el artículo presenta sus resultados en general — de manera metódica, con los casos de fallo tan claramente expuestos como las mejoras. Cuatro artículos en esta línea de investigación, el trabajo se lee menos como un anuncio de producto y más como un equipo que cierra gradualmente brechas en algo que realmente planean desplegar.