Tether amplía los datos de entrenamiento de Open AI con el lanzamiento del conjunto de datos QVAC Genesis II


¡Descubre las principales noticias y eventos de fintech!

Suscríbete al boletín informativo de FinTech Weekly

Leído por ejecutivos de JP Morgan, Coinbase, Blackrock, Klarna y más


Una gran expansión en los datos de entrenamiento de Open AI

Tether Data ha publicado una nueva versión de su conjunto de datos educativo sintético para inteligencia artificial, incrementando significativamente el volumen y el alcance del material de entrenamiento abierto disponible para investigadores de todo el mundo. La división de investigación en IA de la empresa, QVAC, anunció que el nuevo lanzamiento, llamado QVAC Genesis II, agrega 107 mil millones de tokens a su conjunto de datos anterior, llevando el tamaño total a 148 mil millones de tokens.

El conjunto de datos ampliado es ahora el recurso educativo sintético público más grande disponible, diseñado específicamente para el preentrenamiento de IA. Abarca 19 dominios académicos y está destinado a mejorar la forma en que los modelos aprenden razonamiento, explicación y toma de decisiones, en lugar de reconocer patrones a nivel superficial.

El anuncio sitúa el lanzamiento como un paso hacia un desarrollo de IA más transparente y accesible, en un momento en que muchos conjuntos de datos avanzados de entrenamiento siguen estando bloqueados dentro de sistemas propietarios.

Construyendo sobre el primer lanzamiento de Genesis

QVAC Genesis II se basa en el trabajo introducido por primera vez con Genesis I, que se enfocó en crear un conjunto de datos sintético validado, centrado en educación, que cubre materias fundamentales de ciencias, tecnología, ingeniería y matemáticas. Ese lanzamiento anterior estableció un marco para generar preguntas de entrenamiento estructuradas destinadas a mejorar la precisión del razonamiento.

El nuevo lanzamiento amplía la cobertura en diez campos adicionales, incluyendo química, informática, estadística, aprendizaje automático, astronomía, geografía, econometría e ingeniería eléctrica. También revisita el contenido de física a nivel universitario, regenerándolo con una metodología actualizada diseñada para mejorar la claridad conceptual.

En conjunto, los dos lanzamientos forman lo que QVAC describe como el conjunto de datos educativo sintético más extenso disponible hasta ahora y puesto a disposición del público. El conjunto de datos está destinado a usarse en el preentrenamiento de modelos de lenguaje grandes y otros sistemas de IA que requieren material académico estructurado.

Un cambio en cómo se generan los datos de entrenamiento

En el núcleo de Genesis II hay un nuevo método de generación de datos al que se le denomina Option-Level Reasoning. Este enfoque difiere de muchas técnicas existentes de datos sintéticos al centrarse no solo en las respuestas incorrectas, sino también en las correctas.

En lugar de tratar una respuesta correcta como el final del proceso, el método analiza cada opción de respuesta en una pregunta de opción múltiple. Las opciones correctas se desglosan para reforzar por qué son correctas, mientras que las opciones incorrectas se examinan para abordar ideas erróneas comunes. Esta estructura permite que los modelos aprendan razonamiento causal y lógica de decisión en lugar de limitarse a asociar preguntas con resultados.

El enfoque complementa el método Failure Analysis introducido en Genesis I, que se centró en extraer valor de los errores del modelo. Juntos, los dos métodos forman un pipeline en el que cada pregunta generada está diseñada para aportar valor instructivo.

Las evaluaciones independientes citadas por QVAC indican que los modelos entrenados con datos de Genesis II muestran mayor precisión de razonamiento y producen respuestas más claras que los entrenados en conjuntos de datos sintéticos anteriores.

Énfasis en comprender por encima de la fluidez

Mucho del ecosistema actual de entrenamiento de IA se basa en ensamblar volúmenes muy grandes de texto, a menudo extraídos de fuentes públicas, para mejorar la fluidez del lenguaje. La meta declarada de QVAC difiere en su énfasis. Los conjuntos de datos Genesis están estructurados para enseñar a los modelos cómo razonar a través de los problemas y explicar conclusiones de una manera clara.

La dirección de la empresa ha indicado que la intención es ir más allá de los sistemas de entrenamiento que predicen secuencias de texto probables, hacia modelos que demuestran comprensión de los conceptos subyacentes. El diseño del conjunto de datos prioriza la claridad, la causalidad y la lógica, con el objetivo de reducir la ambigüedad en las salidas del modelo.

Este enfoque se alinea con conversaciones más amplias en investigación de IA sobre confiabilidad y explicabilidad, especialmente a medida que los sistemas de IA se utilizan en educación, ciencia y contextos de apoyo a decisiones.

Acceso abierto para investigadores y desarrolladores

Al igual que el conjunto de datos original de Genesis, QVAC Genesis II se publica de forma abierta. El conjunto de datos está disponible bajo una licencia Creative Commons Attribution–NonCommercial 4.0, lo que permite a investigadores, instituciones académicas y desarrolladores independientes usar y estudiar los datos fuera de entornos comerciales.

El conjunto de datos y los modelos asociados se alojan en Hugging Face, junto con un detallado documento técnico que describe la metodología de generación y los resultados de evaluación. Esta distribución abierta pretende reducir las barreras para investigadores que no tienen acceso a grandes conjuntos de datos propietarios.

Al mantener licencias no comerciales, QVAC pretende apoyar la investigación académica y basada en la comunidad, limitando al mismo tiempo la explotación comercial directa.

Apoyando el desarrollo descentralizado de IA

El lanzamiento también encaja en una estrategia más amplia impulsada por Tether Data para fomentar el desarrollo descentralizado de IA. La empresa ha indicado que los datos de entrenamiento de alta calidad no deberían restringirse a organizaciones que tengan acceso a infraestructura cloud centralizada.

Al poner a disposición públicamente conjuntos de datos estructurados a gran escala, QVAC busca habilitar el entrenamiento local, la experimentación y el despliegue de modelos de IA. Este enfoque pretende respaldar entornos de investigación donde los recursos de cómputo pueden ser limitados, pero las contribuciones intelectuales siguen siendo significativas.

El énfasis en la descentralización refleja el creciente interés en reducir la dependencia de un pequeño número de plataformas dominantes de IA y fomentar un ecosistema de investigación más distribuido.

El papel de Tether en la investigación de IA

QVAC opera como la división de investigación en IA de Tether Data. Aunque Tether es ampliamente conocido por su papel en activos digitales y stablecoins, la empresa ha expandido sus actividades hacia la investigación de datos y la IA en los últimos años.

A través de QVAC, Tether Data se ha centrado en construir infraestructura y recursos que respaldan la investigación abierta. Los conjuntos de datos Genesis representan uno de los resultados más visibles de ese esfuerzo, posicionando a la empresa en conversaciones sobre el desarrollo de Open AI y datos de entrenamiento centrados en educación.

Este trabajo también refleja la creciente superposición entre empresas fintech e investigación avanzada en IA, ya que las firmas de tecnología financiera invierten cada vez más en capacidades de ciencia de datos y machine learning.

Perspectiva de liderazgo sobre el lanzamiento

La dirección de la empresa ha enmarcado el lanzamiento de Genesis II como un movimiento alejado de enfoques de entrenamiento que priorizan solo el volumen. El enfoque, según declaraciones del equipo ejecutivo de Tether, consiste en enseñar a los sistemas de IA a razonar y explicar, en lugar de simplemente generar respuestas fluidas.

Paolo Ardoino, director ejecutivo de Tether, ha enfatizado que una IA confiable debe basarse en entender por qué las respuestas son correctas. Ha indicado que poner el conjunto de datos a disposición de forma abierta refleja una creencia de que una IA más fuerte y más explicable beneficia a la sociedad en su conjunto.

Estas posturas hacen eco de las preocupaciones planteadas por investigadores sobre las limitaciones de los modelos entrenados principalmente con texto no estructurado.

Alcance educativo y cobertura de dominios

Los conjuntos de datos combinados Genesis I y II cubren 19 dominios, con contenido diseñado para niveles de educación secundaria y terciaria. Las materias van desde matemáticas y física fundamentales hasta campos aplicados como econometría y machine learning.

Cada dominio incluye preguntas estructuradas, explicaciones y rutas de razonamiento destinadas a imitar cómo se enseñan y evalúan los conceptos en entornos educativos formales. Este diseño pretende respaldar tareas de preentrenamiento que requieren consistencia lógica y profundidad conceptual.

Al regenerar y ampliar contenido usando métodos mejorados, QVAC busca refinar la forma en que el material educativo se representa en conjuntos de datos sintéticos.

Evaluación y desempeño de los modelos

Según evaluaciones internas e independientes citadas por QVAC, los modelos entrenados con datos de Genesis II muestran un rendimiento mejorado en tareas centradas en el razonamiento. Estas incluyen responder preguntas estructuradas, explicar conclusiones y evitar respuestas ambiguas o contradictorias.

Los resultados de la evaluación sugieren que la combinación de Failure Analysis y Option-Level Reasoning conduce a salidas más consistentes. Aunque la empresa no ha presentado el conjunto de datos como una solución independiente, lo ha presentado como una base sólida para entrenamientos adicionales y ajustes finos.

Se espera que los investigadores realicen evaluaciones adicionales a medida que el conjunto de datos tenga un uso más amplio en la comunidad.

Implicaciones para la investigación de Open AI

El lanzamiento de un conjunto de datos tan grande y abierto podría influir en cómo los investigadores académicos e independientes abordan el entrenamiento de modelos. El acceso a datos educativos estructurados a esta escala tradicionalmente ha estado limitado a organizaciones bien financiadas.

Al ofrecer una alternativa, QVAC Genesis II podría respaldar la experimentación con modelos más pequeños, esfuerzos de entrenamiento localizados y la investigación en métodos de IA explicable.

El conjunto de datos también puede servir como punto de referencia para futuros proyectos de datos sintéticos que prioricen la calidad del razonamiento por encima de la mera cantidad.

Posición dentro del ecosistema general de IA

QVAC Genesis II entra en un ecosistema de IA marcado por un desarrollo rápido y una concentración cada vez mayor de recursos. Muchos de los modelos más capaces se entrenan con conjuntos de datos propietarios que no están disponibles para su escrutinio o replicación.

Los conjuntos de datos abiertos como Genesis II ofrecen un contrapunto, habilitando transparencia y progreso compartido. También plantean preguntas sobre cómo los recursos abiertos pueden coexistir con el desarrollo comercial de IA.

La participación de una empresa con raíces en fintech y activos digitales pone de relieve cómo la investigación en IA está atrayendo interés de una amplia gama de industrias más allá de las firmas tecnológicas tradicionales.

Disponibilidad y próximos pasos

La documentación técnica completa del conjunto de datos, titulada “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training,” ha sido publicada en el blog de investigación de QVAC. El acceso al conjunto de datos y a los modelos relacionados está disponible a través de Hugging Face.

QVAC ha indicado que planea seguir refinando sus métodos y expandiendo la cobertura educativa en futuros lanzamientos. Se espera que las opiniones de la comunidad de investigación desempeñen un papel en la conformación de iteraciones posteriores.

Un impulso continuo por fundamentos abiertos

Con Genesis II, QVAC refuerza su postura de que los datos de entrenamiento abiertos y estructurados son esenciales para construir sistemas de IA confiables. El lanzamiento refleja la visión de que la inteligencia debe basarse en el razonamiento y la explicación, no solo en la asociación estadística.

A medida que los sistemas de IA se integren más en la educación, la ciencia y los servicios financieros, incluidas las aplicaciones fintech, la calidad de sus datos de entrenamiento seguirá siendo una preocupación central.

Por ahora, el conjunto de datos Genesis ampliado se mantiene como una contribución notable para la investigación abierta en Open AI, ofreciendo escala, estructura y accesibilidad en un nivel raramente visto fuera de entornos propietarios.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado