Tether étend ses données d'entraînement Open AI avec la sortie du jeu de données QVAC Genesis II

SleepTrader

2026-03-30 16:31:00

Découvrez les principales actualités et les événements fintech !

Abonnez-vous à la newsletter de FinTech Weekly

Lue par des dirigeants chez JP Morgan, Coinbase, Blackrock, Klarna et plus encore

Une expansion majeure des données d’entraînement pour Open AI

Tether Data a publié une nouvelle version de son jeu de données éducatif synthétique pour l’intelligence artificielle, augmentant considérablement le volume et la portée des supports d’entraînement ouverts disponibles pour les chercheurs dans le monde entier. La division recherche en IA de l’entreprise, QVAC, a annoncé que la nouvelle publication, baptisée QVAC Genesis II, ajoute 107 milliards de tokens à son jeu de données précédent, portant la taille totale à 148 milliards de tokens.

Le jeu de données élargi est désormais la plus grande ressource éducative synthétique publiquement disponible, conçue spécifiquement pour le pré-entraînement de l’IA. Il couvre 19 domaines académiques et vise à améliorer la manière dont les modèles apprennent le raisonnement, l’explication et la prise de décision plutôt que la simple reconnaissance de motifs au niveau de la surface.

L’annonce présente cette publication comme une étape vers un développement de l’IA plus transparent et accessible, à un moment où de nombreux ensembles de données d’entraînement avancés restent enfermés dans des systèmes propriétaires.

S’appuyer sur la première publication Genesis

QVAC Genesis II s’appuie sur un travail introduit pour la première fois avec Genesis I, qui visait à créer un jeu de données synthétique validé, centré sur l’éducation, couvrant les matières fondamentales des sciences, de la technologie, de l’ingénierie et des mathématiques. Cette publication précédente a établi un cadre de génération de questions d’entraînement structurées, destinées à améliorer la précision du raisonnement.

La nouvelle publication étend la couverture à dix domaines supplémentaires, dont la chimie, l’informatique, les statistiques, l’apprentissage automatique, l’astronomie, la géographie, l’économétrie et le génie électrique. Elle revisite également du contenu de physique de niveau universitaire, en le régénérant à l’aide d’une méthodologie mise à jour conçue pour renforcer la clarté conceptuelle.

Ensemble, ces deux publications forment ce que QVAC décrit comme le jeu de données éducatif synthétique le plus vaste jamais rendu disponible au public. Le jeu de données est destiné à être utilisé pour le pré-entraînement de grands modèles de langage et d’autres systèmes d’IA qui nécessitent un contenu académique structuré.

Un changement dans la façon dont les données d’entraînement sont générées

Au cœur de Genesis II se trouve une nouvelle méthode de génération de données appelée Option-Level Reasoning. Cette approche diffère de nombreuses techniques existantes de données synthétiques en se concentrant non seulement sur les réponses incorrectes, mais aussi sur les réponses correctes.

Au lieu de considérer une réponse correcte comme la fin du processus, la méthode analyse chaque option de réponse dans une question à choix multiples. Les choix corrects sont décomposés afin de renforcer pourquoi ils sont corrects, tandis que les options incorrectes sont examinées pour répondre aux idées reçues courantes. Cette structure permet aux modèles d’apprendre un raisonnement causal et une logique de décision, plutôt que de simplement associer des questions à des résultats.

Cette approche complète la méthode Failure Analysis introduite dans Genesis I, qui visait à extraire de la valeur des erreurs du modèle. Ensemble, ces deux méthodes constituent un pipeline dans lequel chaque question générée est conçue pour apporter une valeur pédagogique.

Des évaluations indépendantes citées par QVAC indiquent que les modèles entraînés sur les données de Genesis II montrent une meilleure précision du raisonnement et produisent des réponses plus claires que ceux entraînés sur des ensembles de données synthétiques antérieurs.

Mettre l’accent sur la compréhension plutôt que sur la fluidité

Une grande partie de l’écosystème actuel d’entraînement de l’IA repose sur l’assemblage de volumes très importants de texte, souvent récupéré sur des sources publiques, afin d’améliorer la fluidité du langage. L’objectif déclaré de QVAC diffère sur ce point. Les jeux de données Genesis sont structurés pour apprendre aux modèles à raisonner à travers des problèmes et à expliquer les conclusions de manière claire.

La direction de l’entreprise a indiqué que l’intention est d’aller au-delà des systèmes d’entraînement qui prédisent simplement des séquences de texte plausibles, vers des modèles qui démontrent une compréhension des concepts sous-jacents. La conception du jeu de données privilégie la clarté, la causalité et la logique, visant à réduire l’ambiguïté dans les sorties des modèles.

Cette approche s’inscrit dans des discussions plus larges en recherche sur l’IA concernant la fiabilité et l’explicabilité, en particulier lorsque les systèmes d’IA sont utilisés dans l’éducation, la science et des contextes d’aide à la décision.

Accès ouvert pour les chercheurs et les développeurs

Comme pour le jeu de données original Genesis, QVAC Genesis II est publié en accès ouvert. Le jeu de données est disponible sous une licence Creative Commons Attribution–NonCommercial 4.0, permettant aux chercheurs, institutions académiques et développeurs indépendants d’utiliser et d’étudier les données en dehors des contextes commerciaux.

Le jeu de données et les modèles associés sont hébergés sur Hugging Face, accompagnés d’un article technique détaillé décrivant la méthodologie de génération et les résultats d’évaluation. Cette distribution ouverte vise à réduire les barrières pour les chercheurs qui n’ont pas accès à de grands ensembles de données propriétaires.

En maintenant une licence à usage non commercial, QVAC vise à soutenir la recherche académique et portée par la communauté tout en limitant l’exploitation commerciale directe.

Soutenir le développement décentralisé de l’IA

La publication s’inscrit également dans une stratégie plus large poursuivie par Tether Data visant à encourager le développement décentralisé de l’IA. L’entreprise a déclaré que des données d’entraînement de haute qualité ne devraient pas être limitées aux organisations disposant d’un accès à une infrastructure cloud centralisée.

En rendant publiques des jeux de données structurés à grande échelle, QVAC cherche à permettre l’entraînement local, l’expérimentation et le déploiement de modèles d’IA. Cette approche est conçue pour soutenir des environnements de recherche où les ressources de calcul peuvent être limitées, mais où les contributions intellectuelles restent importantes.

L’accent mis sur la décentralisation reflète un intérêt croissant pour réduire la dépendance à un petit nombre de plateformes d’IA dominantes et favoriser un écosystème de recherche plus distribué.

Le rôle de Tether dans la recherche sur l’IA

QVAC fonctionne comme la division de recherche en IA de Tether Data. Bien que Tether soit largement connu pour son rôle dans les actifs numériques et les stablecoins, l’entreprise a étendu ses activités à la donnée et à la recherche en IA ces dernières années.

Grâce à QVAC, Tether Data s’est concentré sur la construction d’infrastructures et de ressources soutenant la recherche ouverte. Les jeux de données Genesis constituent l’une des productions les plus visibles de cet effort, positionnant l’entreprise dans les discussions autour du développement d’une IA ouverte et de données d’entraînement axées sur l’éducation.

Ce travail reflète aussi le chevauchement croissant entre les entreprises fintech et la recherche avancée en IA, alors que les sociétés de technologie financière investissent de plus en plus dans des capacités de data science et d’apprentissage automatique.

Point de vue de la direction sur la publication

La direction de l’entreprise a présenté la publication de Genesis II comme un virage par rapport à des approches d’entraînement qui privilégient uniquement le volume. Le focus, selon les déclarations de l’équipe de direction de Tether, est d’enseigner aux systèmes d’IA à raisonner et à expliquer, plutôt qu’à simplement générer des réponses fluides.

Paolo Ardoino, directeur général de Tether, a souligné qu’une IA fiable doit être fondée sur la compréhension du pourquoi les réponses sont correctes. Il a indiqué que rendre le jeu de données disponible ouvertement reflète la conviction qu’une IA plus robuste et davantage explicable profite à la société dans son ensemble.

Ces points de vue font écho aux préoccupations soulevées par des chercheurs au sujet des limites de modèles entraînés principalement sur du texte non structuré.

Périmètre éducatif et couverture des domaines

Les ensembles de données combinés Genesis I et II couvrent 19 domaines, avec du contenu conçu à des niveaux d’enseignement secondaire et tertiaire. Les matières vont des mathématiques et de la physique fondamentales à des domaines appliqués comme l’économétrie et l’apprentissage automatique.

Chaque domaine inclut des questions structurées, des explications et des parcours de raisonnement destinés à reproduire la manière dont les concepts sont enseignés et évalués dans des contextes éducatifs formels. Cette conception vise à soutenir des tâches de pré-entraînement qui exigent une cohérence logique et une profondeur conceptuelle.

En régénérant et en étendant le contenu à l’aide de méthodes améliorées, QVAC vise à affiner la façon dont le matériel éducatif est représenté dans des jeux de données synthétiques.

Évaluation et performance des modèles

Selon des évaluations internes et indépendantes citées par QVAC, les modèles entraînés sur les données de Genesis II affichent de meilleures performances dans les tâches axées sur le raisonnement. Il s’agit notamment de répondre à des questions structurées, d’expliquer des conclusions et d’éviter des réponses ambiguës ou contradictoires.

Les résultats d’évaluation suggèrent que la combinaison de Failure Analysis et Option-Level Reasoning conduit à des sorties plus cohérentes. Bien que l’entreprise n’ait pas présenté le jeu de données comme une solution autonome, elle l’a présenté comme une base solide pour un entraînement et un ajustement supplémentaires.

Les chercheurs sont censés mener des évaluations additionnelles à mesure que le jeu de données sera davantage utilisé dans la communauté.

Implications pour la recherche sur une IA ouverte

La publication d’un jeu de données aussi vaste et ouvert pourrait influencer la manière dont les chercheurs académiques et indépendants abordent l’entraînement des modèles. L’accès à des données éducatives structurées à cette échelle a traditionnellement été limité aux organisations bien financées.

En fournissant une alternative, QVAC Genesis II pourrait soutenir l’expérimentation avec des modèles plus petits, des efforts d’entraînement localisés, et la recherche sur des méthodes d’IA explicable.

Le jeu de données pourrait aussi servir de référence pour de futurs projets de données synthétiques qui privilégient la qualité du raisonnement plutôt que la simple taille.

Position dans l’écosystème IA plus large

QVAC Genesis II fait son entrée dans un écosystème d’IA marqué par un développement rapide et une concentration croissante des ressources. Beaucoup des modèles les plus performants sont entraînés sur des jeux de données propriétaires qui ne sont pas accessibles pour vérification ou réplication.

Des ensembles de données ouverts comme Genesis II apportent un contrepoint, en offrant transparence et progrès partagés. Ils soulèvent aussi des questions sur la manière dont des ressources ouvertes peuvent coexister avec le développement commercial d’une IA.

L’implication d’une entreprise ancrée dans la fintech et les actifs numériques met en lumière comment la recherche en IA attire l’intérêt d’un large éventail d’industries au-delà des entreprises technologiques traditionnelles.

Disponibilité et prochaines étapes

La documentation technique complète du jeu de données, intitulée “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training,” a été publiée sur le blog de recherche de QVAC. L’accès au jeu de données et aux modèles associés est disponible via Hugging Face.

QVAC a indiqué qu’elle prévoit de continuer à affiner ses méthodes et à étendre la couverture éducative dans les futures publications. Les retours de la communauté de recherche devraient jouer un rôle dans la façon dont les itérations suivantes seront façonnées.

Poursuivre une impulsion pour des fondations ouvertes

Avec Genesis II, QVAC renforce sa position selon laquelle des données d’entraînement structurées et ouvertes sont essentielles pour construire des systèmes d’IA fiables. La publication reflète l’idée que l’intelligence devrait être fondée sur le raisonnement et l’explication, et pas uniquement sur l’association statistique.

À mesure que les systèmes d’IA sont davantage intégrés dans l’éducation, la science et les services financiers, y compris les applications fintech, la qualité de leurs données d’entraînement restera une préoccupation centrale.

Pour l’instant, le jeu de données Genesis élargi constitue une contribution notable à la recherche sur une IA ouverte, offrant une mise à l’échelle, une structure et un accès qui sont rarement observés en dehors d’environnements propriétaires.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateGoldenTouch
70.77K Popularité
#
CryptoMarketsRiseBroadly
33.94K Popularité
#
IsraelStrikesIranBTCPlunges
19.32K Popularité
#
PowellDovishRemarksReviveRateCutHopes
2.82M Popularité
#
TrumpSignalsPossibleCeasefire
411.93K Popularité

Hot Gate Fun
Afficher plus

1
mb
macbook
MC:$2.27KDétenteurs:2
0.00%
2
TBKB
特不靠谱
MC:$2.37KDétenteurs:2
1.04%
3
ch
chill
MC:$2.24KDétenteurs:1
0.00%
4
MIP
MIP
MC:$2.24KDétenteurs:1
0.00%
5
Usdc
Usdc
MC:$2.25KDétenteurs:1
0.00%

Épingler

Tether étend ses données d'entraînement Open AI avec la sortie du jeu de données QVAC Genesis II

Une expansion majeure des données d’entraînement pour Open AI

S’appuyer sur la première publication Genesis

Un changement dans la façon dont les données d’entraînement sont générées

Mettre l’accent sur la compréhension plutôt que sur la fluidité

Accès ouvert pour les chercheurs et les développeurs

Soutenir le développement décentralisé de l’IA

Le rôle de Tether dans la recherche sur l’IA

Point de vue de la direction sur la publication

Périmètre éducatif et couverture des domaines

Évaluation et performance des modèles

Implications pour la recherche sur une IA ouverte

Position dans l’écosystème IA plus large

Disponibilité et prochaines étapes

Poursuivre une impulsion pour des fondations ouvertes

Sujets populaires

GateGoldenTouch

CryptoMarketsRiseBroadly

IsraelStrikesIranBTCPlunges

PowellDovishRemarksReviveRateCutHopes

TrumpSignalsPossibleCeasefire

Hot Gate Fun

mb

macbook

TBKB

特不靠谱

ch

chill

MIP

MIP

Usdc

Usdc

Épingler