Futures
Accédez à des centaines de contrats perpétuels
TradFi
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Launchpad
Soyez les premiers à participer au prochain grand projet de jetons
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Tether étend ses données d'entraînement Open AI avec la sortie du jeu de données QVAC Genesis II
Découvrez les principales actualités et les événements fintech !
Abonnez-vous à la newsletter de FinTech Weekly
Lue par des dirigeants chez JP Morgan, Coinbase, Blackrock, Klarna et plus encore
Une expansion majeure des données d’entraînement pour Open AI
Tether Data a publié une nouvelle version de son jeu de données éducatif synthétique pour l’intelligence artificielle, augmentant considérablement le volume et la portée des supports d’entraînement ouverts disponibles pour les chercheurs dans le monde entier. La division recherche en IA de l’entreprise, QVAC, a annoncé que la nouvelle publication, baptisée QVAC Genesis II, ajoute 107 milliards de tokens à son jeu de données précédent, portant la taille totale à 148 milliards de tokens.
Le jeu de données élargi est désormais la plus grande ressource éducative synthétique publiquement disponible, conçue spécifiquement pour le pré-entraînement de l’IA. Il couvre 19 domaines académiques et vise à améliorer la manière dont les modèles apprennent le raisonnement, l’explication et la prise de décision plutôt que la simple reconnaissance de motifs au niveau de la surface.
L’annonce présente cette publication comme une étape vers un développement de l’IA plus transparent et accessible, à un moment où de nombreux ensembles de données d’entraînement avancés restent enfermés dans des systèmes propriétaires.
S’appuyer sur la première publication Genesis
QVAC Genesis II s’appuie sur un travail introduit pour la première fois avec Genesis I, qui visait à créer un jeu de données synthétique validé, centré sur l’éducation, couvrant les matières fondamentales des sciences, de la technologie, de l’ingénierie et des mathématiques. Cette publication précédente a établi un cadre de génération de questions d’entraînement structurées, destinées à améliorer la précision du raisonnement.
La nouvelle publication étend la couverture à dix domaines supplémentaires, dont la chimie, l’informatique, les statistiques, l’apprentissage automatique, l’astronomie, la géographie, l’économétrie et le génie électrique. Elle revisite également du contenu de physique de niveau universitaire, en le régénérant à l’aide d’une méthodologie mise à jour conçue pour renforcer la clarté conceptuelle.
Ensemble, ces deux publications forment ce que QVAC décrit comme le jeu de données éducatif synthétique le plus vaste jamais rendu disponible au public. Le jeu de données est destiné à être utilisé pour le pré-entraînement de grands modèles de langage et d’autres systèmes d’IA qui nécessitent un contenu académique structuré.
Un changement dans la façon dont les données d’entraînement sont générées
Au cœur de Genesis II se trouve une nouvelle méthode de génération de données appelée Option-Level Reasoning. Cette approche diffère de nombreuses techniques existantes de données synthétiques en se concentrant non seulement sur les réponses incorrectes, mais aussi sur les réponses correctes.
Au lieu de considérer une réponse correcte comme la fin du processus, la méthode analyse chaque option de réponse dans une question à choix multiples. Les choix corrects sont décomposés afin de renforcer pourquoi ils sont corrects, tandis que les options incorrectes sont examinées pour répondre aux idées reçues courantes. Cette structure permet aux modèles d’apprendre un raisonnement causal et une logique de décision, plutôt que de simplement associer des questions à des résultats.
Cette approche complète la méthode Failure Analysis introduite dans Genesis I, qui visait à extraire de la valeur des erreurs du modèle. Ensemble, ces deux méthodes constituent un pipeline dans lequel chaque question générée est conçue pour apporter une valeur pédagogique.
Des évaluations indépendantes citées par QVAC indiquent que les modèles entraînés sur les données de Genesis II montrent une meilleure précision du raisonnement et produisent des réponses plus claires que ceux entraînés sur des ensembles de données synthétiques antérieurs.
Mettre l’accent sur la compréhension plutôt que sur la fluidité
Une grande partie de l’écosystème actuel d’entraînement de l’IA repose sur l’assemblage de volumes très importants de texte, souvent récupéré sur des sources publiques, afin d’améliorer la fluidité du langage. L’objectif déclaré de QVAC diffère sur ce point. Les jeux de données Genesis sont structurés pour apprendre aux modèles à raisonner à travers des problèmes et à expliquer les conclusions de manière claire.
La direction de l’entreprise a indiqué que l’intention est d’aller au-delà des systèmes d’entraînement qui prédisent simplement des séquences de texte plausibles, vers des modèles qui démontrent une compréhension des concepts sous-jacents. La conception du jeu de données privilégie la clarté, la causalité et la logique, visant à réduire l’ambiguïté dans les sorties des modèles.
Cette approche s’inscrit dans des discussions plus larges en recherche sur l’IA concernant la fiabilité et l’explicabilité, en particulier lorsque les systèmes d’IA sont utilisés dans l’éducation, la science et des contextes d’aide à la décision.
Accès ouvert pour les chercheurs et les développeurs
Comme pour le jeu de données original Genesis, QVAC Genesis II est publié en accès ouvert. Le jeu de données est disponible sous une licence Creative Commons Attribution–NonCommercial 4.0, permettant aux chercheurs, institutions académiques et développeurs indépendants d’utiliser et d’étudier les données en dehors des contextes commerciaux.
Le jeu de données et les modèles associés sont hébergés sur Hugging Face, accompagnés d’un article technique détaillé décrivant la méthodologie de génération et les résultats d’évaluation. Cette distribution ouverte vise à réduire les barrières pour les chercheurs qui n’ont pas accès à de grands ensembles de données propriétaires.
En maintenant une licence à usage non commercial, QVAC vise à soutenir la recherche académique et portée par la communauté tout en limitant l’exploitation commerciale directe.
Soutenir le développement décentralisé de l’IA
La publication s’inscrit également dans une stratégie plus large poursuivie par Tether Data visant à encourager le développement décentralisé de l’IA. L’entreprise a déclaré que des données d’entraînement de haute qualité ne devraient pas être limitées aux organisations disposant d’un accès à une infrastructure cloud centralisée.
En rendant publiques des jeux de données structurés à grande échelle, QVAC cherche à permettre l’entraînement local, l’expérimentation et le déploiement de modèles d’IA. Cette approche est conçue pour soutenir des environnements de recherche où les ressources de calcul peuvent être limitées, mais où les contributions intellectuelles restent importantes.
L’accent mis sur la décentralisation reflète un intérêt croissant pour réduire la dépendance à un petit nombre de plateformes d’IA dominantes et favoriser un écosystème de recherche plus distribué.
Le rôle de Tether dans la recherche sur l’IA
QVAC fonctionne comme la division de recherche en IA de Tether Data. Bien que Tether soit largement connu pour son rôle dans les actifs numériques et les stablecoins, l’entreprise a étendu ses activités à la donnée et à la recherche en IA ces dernières années.
Grâce à QVAC, Tether Data s’est concentré sur la construction d’infrastructures et de ressources soutenant la recherche ouverte. Les jeux de données Genesis constituent l’une des productions les plus visibles de cet effort, positionnant l’entreprise dans les discussions autour du développement d’une IA ouverte et de données d’entraînement axées sur l’éducation.
Ce travail reflète aussi le chevauchement croissant entre les entreprises fintech et la recherche avancée en IA, alors que les sociétés de technologie financière investissent de plus en plus dans des capacités de data science et d’apprentissage automatique.
Point de vue de la direction sur la publication
La direction de l’entreprise a présenté la publication de Genesis II comme un virage par rapport à des approches d’entraînement qui privilégient uniquement le volume. Le focus, selon les déclarations de l’équipe de direction de Tether, est d’enseigner aux systèmes d’IA à raisonner et à expliquer, plutôt qu’à simplement générer des réponses fluides.
Paolo Ardoino, directeur général de Tether, a souligné qu’une IA fiable doit être fondée sur la compréhension du pourquoi les réponses sont correctes. Il a indiqué que rendre le jeu de données disponible ouvertement reflète la conviction qu’une IA plus robuste et davantage explicable profite à la société dans son ensemble.
Ces points de vue font écho aux préoccupations soulevées par des chercheurs au sujet des limites de modèles entraînés principalement sur du texte non structuré.
Périmètre éducatif et couverture des domaines
Les ensembles de données combinés Genesis I et II couvrent 19 domaines, avec du contenu conçu à des niveaux d’enseignement secondaire et tertiaire. Les matières vont des mathématiques et de la physique fondamentales à des domaines appliqués comme l’économétrie et l’apprentissage automatique.
Chaque domaine inclut des questions structurées, des explications et des parcours de raisonnement destinés à reproduire la manière dont les concepts sont enseignés et évalués dans des contextes éducatifs formels. Cette conception vise à soutenir des tâches de pré-entraînement qui exigent une cohérence logique et une profondeur conceptuelle.
En régénérant et en étendant le contenu à l’aide de méthodes améliorées, QVAC vise à affiner la façon dont le matériel éducatif est représenté dans des jeux de données synthétiques.
Évaluation et performance des modèles
Selon des évaluations internes et indépendantes citées par QVAC, les modèles entraînés sur les données de Genesis II affichent de meilleures performances dans les tâches axées sur le raisonnement. Il s’agit notamment de répondre à des questions structurées, d’expliquer des conclusions et d’éviter des réponses ambiguës ou contradictoires.
Les résultats d’évaluation suggèrent que la combinaison de Failure Analysis et Option-Level Reasoning conduit à des sorties plus cohérentes. Bien que l’entreprise n’ait pas présenté le jeu de données comme une solution autonome, elle l’a présenté comme une base solide pour un entraînement et un ajustement supplémentaires.
Les chercheurs sont censés mener des évaluations additionnelles à mesure que le jeu de données sera davantage utilisé dans la communauté.
Implications pour la recherche sur une IA ouverte
La publication d’un jeu de données aussi vaste et ouvert pourrait influencer la manière dont les chercheurs académiques et indépendants abordent l’entraînement des modèles. L’accès à des données éducatives structurées à cette échelle a traditionnellement été limité aux organisations bien financées.
En fournissant une alternative, QVAC Genesis II pourrait soutenir l’expérimentation avec des modèles plus petits, des efforts d’entraînement localisés, et la recherche sur des méthodes d’IA explicable.
Le jeu de données pourrait aussi servir de référence pour de futurs projets de données synthétiques qui privilégient la qualité du raisonnement plutôt que la simple taille.
Position dans l’écosystème IA plus large
QVAC Genesis II fait son entrée dans un écosystème d’IA marqué par un développement rapide et une concentration croissante des ressources. Beaucoup des modèles les plus performants sont entraînés sur des jeux de données propriétaires qui ne sont pas accessibles pour vérification ou réplication.
Des ensembles de données ouverts comme Genesis II apportent un contrepoint, en offrant transparence et progrès partagés. Ils soulèvent aussi des questions sur la manière dont des ressources ouvertes peuvent coexister avec le développement commercial d’une IA.
L’implication d’une entreprise ancrée dans la fintech et les actifs numériques met en lumière comment la recherche en IA attire l’intérêt d’un large éventail d’industries au-delà des entreprises technologiques traditionnelles.
Disponibilité et prochaines étapes
La documentation technique complète du jeu de données, intitulée “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training,” a été publiée sur le blog de recherche de QVAC. L’accès au jeu de données et aux modèles associés est disponible via Hugging Face.
QVAC a indiqué qu’elle prévoit de continuer à affiner ses méthodes et à étendre la couverture éducative dans les futures publications. Les retours de la communauté de recherche devraient jouer un rôle dans la façon dont les itérations suivantes seront façonnées.
Poursuivre une impulsion pour des fondations ouvertes
Avec Genesis II, QVAC renforce sa position selon laquelle des données d’entraînement structurées et ouvertes sont essentielles pour construire des systèmes d’IA fiables. La publication reflète l’idée que l’intelligence devrait être fondée sur le raisonnement et l’explication, et pas uniquement sur l’association statistique.
À mesure que les systèmes d’IA sont davantage intégrés dans l’éducation, la science et les services financiers, y compris les applications fintech, la qualité de leurs données d’entraînement restera une préoccupation centrale.
Pour l’instant, le jeu de données Genesis élargi constitue une contribution notable à la recherche sur une IA ouverte, offrant une mise à l’échelle, une structure et un accès qui sont rarement observés en dehors d’environnements propriétaires.