Tether amplía los datos de entrenamiento de Open AI con el lanzamiento del conjunto de datos QVAC Genesis II

SleepTrader

2026-03-28 19:18:33

¡Descubre las principales noticias y eventos fintech!

Suscríbete al boletín de FinTech Weekly

Leído por ejecutivos de JP Morgan, Coinbase, Blackrock, Klarna y más

Una Gran Expansión en los Datos de Entrenamiento de Open AI

Tether Data ha lanzado una nueva versión de su conjunto de datos sintético educativo para inteligencia artificial, aumentando significativamente el volumen y el alcance del material de entrenamiento abierto disponible para investigadores en todo el mundo. La división de investigación en IA de la compañía, QVAC, anunció que la nueva versión, llamada QVAC Genesis II, agrega 107 mil millones de tokens a su conjunto de datos anterior, llevando el tamaño total a 148 mil millones de tokens.

El conjunto de datos expandido es ahora el recurso educativo sintético más grande disponible públicamente diseñado específicamente para el pre-entrenamiento de IA. Cubre 19 dominios académicos y tiene como objetivo mejorar la forma en que los modelos aprenden razonamiento, explicación y toma de decisiones en lugar de solo reconocimiento de patrones superficiales.

El anuncio posiciona la liberación como un paso hacia un desarrollo de IA más transparente y accesible, en un momento en que muchos conjuntos de datos de entrenamiento avanzados permanecen bloqueados dentro de sistemas propietarios.

Construyendo sobre la Primera Versión de Genesis

QVAC Genesis II se basa en el trabajo introducido por primera vez con Genesis I, que se centró en crear un conjunto de datos sintético validado, centrado en la educación, que cubre materias fundamentales de ciencia, tecnología, ingeniería y matemáticas. Esa versión anterior estableció un marco para generar preguntas de entrenamiento estructuradas destinadas a mejorar la precisión del razonamiento.

La nueva versión amplía la cobertura a diez campos adicionales, incluyendo química, informática, estadística, aprendizaje automático, astronomía, geografía, econometría e ingeniería eléctrica. También revisita el contenido de física a nivel universitario, regenerándolo utilizando una metodología actualizada diseñada para mejorar la claridad conceptual.

Juntas, las dos versiones forman lo que QVAC describe como el conjunto de datos educativo sintético más extenso que se ha puesto a disposición del público. El conjunto de datos está destinado para su uso en el pre-entrenamiento de grandes modelos de lenguaje y otros sistemas de IA que requieren material académico estructurado.

Un Cambio en Cómo se Generan los Datos de Entrenamiento

En el núcleo de Genesis II hay un nuevo método de generación de datos conocido como Razonamiento a Nivel de Opción. Este enfoque se diferencia de muchas técnicas de datos sintéticos existentes al centrarse no solo en respuestas incorrectas, sino también en las correctas.

En lugar de tratar una respuesta correcta como el final del proceso, el método analiza cada opción de respuesta en una pregunta de opción múltiple. Las elecciones correctas se desglosan para reforzar por qué son correctas, mientras que las opciones incorrectas se examinan para abordar conceptos erróneos comunes. Esta estructura permite a los modelos aprender razonamiento causal y lógica de decisiones en lugar de simplemente asociar preguntas con resultados.

El enfoque complementa el método de Análisis de Fallas introducido en Genesis I, que se centró en extraer valor de los errores del modelo. Juntos, los dos métodos forman una línea de producción donde cada pregunta generada está diseñada para contribuir valor instruccional.

Evaluaciones independientes citadas por QVAC indican que los modelos entrenados con datos de Genesis II muestran una mayor precisión en razonamiento y producen respuestas más claras que aquellos entrenados con conjuntos de datos sintéticos anteriores.

Énfasis en la Comprensión Sobre la Fluidez

Gran parte del actual ecosistema de entrenamiento de IA se basa en ensamblar volúmenes muy grandes de texto, a menudo extraídos de fuentes públicas, para mejorar la fluidez del lenguaje. El objetivo declarado de QVAC difiere en énfasis. Los conjuntos de datos de Genesis están estructurados para enseñar a los modelos cómo razonar a través de problemas y explicar conclusiones de manera clara.

La dirección de la compañía ha indicado que la intención es avanzar más allá de los sistemas de entrenamiento que predicen secuencias de texto probables, hacia modelos que demuestran comprensión de los conceptos subyacentes. El diseño del conjunto de datos prioriza claridad, causalidad y lógica, con el objetivo de reducir la ambigüedad en las salidas del modelo.

Este enfoque se alinea con discusiones más amplias en la investigación de IA sobre confiabilidad y explicabilidad, especialmente a medida que los sistemas de IA se utilizan en educación, ciencia y contextos de apoyo a la toma de decisiones.

Acceso Abierto para Investigadores y Desarrolladores

Al igual que el conjunto de datos original de Genesis, QVAC Genesis II se está liberando abiertamente. El conjunto de datos está disponible bajo una licencia de Creative Commons Atribución–NoComercial 4.0, permitiendo a investigadores, instituciones académicas y desarrolladores independientes utilizar y estudiar los datos fuera de entornos comerciales.

El conjunto de datos y los modelos asociados están alojados en Hugging Face, junto con un artículo técnico detallado que describe la metodología de generación y los resultados de evaluación. Esta distribución abierta está destinada a reducir las barreras para los investigadores que no tienen acceso a grandes conjuntos de datos propietarios.

Al mantener una licencia no comercial, QVAC busca apoyar la investigación académica y comunitaria mientras limita la explotación comercial directa.

Apoyo al Desarrollo Descentralizado de IA

La liberación también encaja dentro de una estrategia más amplia que persigue Tether Data para fomentar el desarrollo descentralizado de IA. La compañía ha declarado que los datos de entrenamiento de alta calidad no deben estar restringidos a organizaciones con acceso a infraestructura de nube centralizada.

Al hacer conjuntos de datos estructurados a gran escala disponibles públicamente, QVAC busca habilitar el entrenamiento local, la experimentación y el despliegue de modelos de IA. Este enfoque está destinado a apoyar entornos de investigación donde los recursos de computación pueden ser limitados, pero las contribuciones intelectuales siguen siendo significativas.

El énfasis en la descentralización refleja el creciente interés en reducir la dependencia de un pequeño número de plataformas de IA dominantes y fomentar un ecosistema de investigación más distribuido.

El Papel de Tether en la Investigación de IA

QVAC opera como la división de investigación de IA de Tether Data. Si bien Tether es ampliamente conocido por su papel en activos digitales y stablecoins, la compañía ha ampliado sus actividades en investigación de datos e IA en los últimos años.

A través de QVAC, Tether Data se ha centrado en construir infraestructura y recursos que apoyen la investigación abierta. Los conjuntos de datos de Genesis representan uno de los resultados más visibles de ese esfuerzo, posicionando a la compañía dentro de discusiones sobre el desarrollo abierto de IA y datos de entrenamiento centrados en la educación.

Este trabajo también refleja la creciente superposición entre compañías fintech e investigación avanzada de IA, a medida que las empresas de tecnología financiera invierten cada vez más en capacidades de ciencia de datos y aprendizaje automático.

Perspectiva de Liderazgo sobre la Liberación

La dirección de la compañía ha enmarcado la liberación de Genesis II como un movimiento lejos de enfoques de entrenamiento que priorizan solo el volumen. El enfoque, según declaraciones del equipo ejecutivo de Tether, es enseñar a los sistemas de IA cómo razonar y explicar en lugar de simplemente generar respuestas fluidas.

Paolo Ardoino, director ejecutivo de Tether, ha enfatizado que la IA confiable debe estar fundamentada en entender por qué las respuestas son correctas. Ha indicado que hacer que el conjunto de datos esté disponible abiertamente refleja una creencia de que una IA más fuerte y explicable beneficia a la sociedad en su conjunto.

Estas opiniones hacen eco de las preocupaciones planteadas por investigadores sobre las limitaciones de modelos entrenados principalmente en texto no estructurado.

Alcance Educativo y Cobertura de Dominio

Los conjuntos de datos combinados de Genesis I y II cubren 19 dominios, con contenido diseñado para niveles de educación secundaria y terciaria. Las materias van desde matemáticas y física fundamentales hasta campos aplicados como econometría y aprendizaje automático.

Cada dominio incluye preguntas estructuradas, explicaciones y caminos de razonamiento destinados a reflejar cómo se enseñan y evalúan los conceptos en entornos educativos formales. Este diseño está destinado a apoyar tareas de pre-entrenamiento que requieren consistencia lógica y profundidad conceptual.

Al regenerar y expandir el contenido utilizando métodos mejorados, QVAC busca refinar cómo se representa el material educativo en conjuntos de datos sintéticos.

Evaluación y Rendimiento del Modelo

Según evaluaciones internas e independientes referenciadas por QVAC, los modelos entrenados con datos de Genesis II muestran un rendimiento mejorado en tareas que requieren razonamiento. Esto incluye responder preguntas estructuradas, explicar conclusiones y evitar respuestas ambiguas o contradictorias.

Los resultados de la evaluación sugieren que la combinación de Análisis de Fallas y Razonamiento a Nivel de Opción conduce a salidas más consistentes. Si bien la compañía no ha posicionado el conjunto de datos como una solución independiente, lo ha presentado como una base sólida para un mayor entrenamiento y ajuste fino.

Se espera que los investigadores realicen evaluaciones adicionales a medida que el conjunto de datos se utilice más en la comunidad.

Implicaciones para la Investigación Abierta de IA

La liberación de un conjunto de datos tan grande y abierto puede influir en cómo los investigadores académicos e independientes abordan el entrenamiento de modelos. El acceso a datos educativos estructurados a esta escala ha estado tradicionalmente limitado a organizaciones bien financiadas.

Al proporcionar una alternativa, QVAC Genesis II podría apoyar la experimentación con modelos más pequeños, esfuerzos de entrenamiento localizados e investigación en métodos de IA explicables.

El conjunto de datos también puede servir como un punto de referencia para futuros proyectos de datos sintéticos que priorizan la calidad del razonamiento sobre el tamaño puro.

Posición Dentro del Ecosistema de IA Más Amplio

QVAC Genesis II entra en un ecosistema de IA marcado por un desarrollo rápido y una creciente concentración de recursos. Muchos de los modelos más capaces son entrenados en conjuntos de datos propietarios que no son accesibles para la revisión o replicación.

Los conjuntos de datos abiertos como Genesis II ofrecen un contrapunto, permitiendo transparencia y progreso compartido. También plantean preguntas sobre cómo los recursos abiertos pueden coexistir con el desarrollo comercial de IA.

La participación de una compañía arraigada en fintech y activos digitales destaca cómo la investigación de IA está atrayendo interés de una amplia gama de industrias más allá de las empresas de tecnología tradicionales.

Disponibilidad y Próximos Pasos

La documentación técnica completa para el conjunto de datos, titulada “QVAC Genesis II: Expandiendo el Conjunto de Datos Sintético Educativo Multi-dominio Más Grande y de Mayor Calidad para Pre-entrenamiento,” ha sido publicada en el blog de investigación de QVAC. El acceso al conjunto de datos y modelos relacionados está disponible a través de Hugging Face.

QVAC ha indicado que planea continuar refinando sus métodos y expandiendo la cobertura educativa en futuras versiones. Se espera que la retroalimentación de la comunidad investigadora juegue un papel en la formación de iteraciones posteriores.

Un Esfuerzo Continuo por Fundaciones Abiertas

Con Genesis II, QVAC refuerza su posición de que los datos de entrenamiento abiertos y estructurados son esenciales para construir sistemas de IA confiables. La liberación refleja una visión de que la inteligencia debe estar fundamentada en razonamiento y explicación, no solo en asociación estadística.

A medida que los sistemas de IA se integran más en la educación, la ciencia y los servicios financieros, incluidas las aplicaciones fintech, la calidad de sus datos de entrenamiento seguirá siendo una preocupación central.

Por ahora, el conjunto de datos expandido de Genesis se presenta como una contribución notable a la investigación abierta de IA, ofreciendo escala, estructura y accesibilidad a un nivel raramente visto fuera de entornos propietarios.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
WinGoldBarsWithGrowthPoints
1.03M Popularidad
#
RangeTradingStrategy
24.64K Popularidad
#
IsraelStrikesIranBTCPlunges
17.22K Popularidad
#
BitcoinWeakens
101.06M Popularidad
#
FedRateHikeExpectationsResurface
857.83K Popularidad

Gate Fun en tendencia
Ver más

1
ZX
张雪
Cap.M.:$2.27KHolders:1
0.00%
2
DSB袋鼠币
DSB
Cap.M.:$2.25KHolders:1
0.00%
3
MINA
Mina Coin
Cap.M.:$0.1Holders:2
0.00%
4
SU
Satoru
Cap.M.:$0.1Holders:1
0.00%
5
CoCo
Coco
Cap.M.:$2.25KHolders:1
0.00%

Anclado

Tether amplía los datos de entrenamiento de Open AI con el lanzamiento del conjunto de datos QVAC Genesis II

Una Gran Expansión en los Datos de Entrenamiento de Open AI

Construyendo sobre la Primera Versión de Genesis

Un Cambio en Cómo se Generan los Datos de Entrenamiento

Énfasis en la Comprensión Sobre la Fluidez

Acceso Abierto para Investigadores y Desarrolladores

Apoyo al Desarrollo Descentralizado de IA

El Papel de Tether en la Investigación de IA

Perspectiva de Liderazgo sobre la Liberación

Alcance Educativo y Cobertura de Dominio

Evaluación y Rendimiento del Modelo

Implicaciones para la Investigación Abierta de IA

Posición Dentro del Ecosistema de IA Más Amplio

Disponibilidad y Próximos Pasos

Un Esfuerzo Continuo por Fundaciones Abiertas

Temas de actualidad

WinGoldBarsWithGrowthPoints

RangeTradingStrategy

IsraelStrikesIranBTCPlunges

BitcoinWeakens

FedRateHikeExpectationsResurface

Gate Fun en tendencia

ZX

张雪

DSB袋鼠币

DSB

MINA

Mina Coin

SU

Satoru

CoCo

Coco

Anclado