Tether étend ses données d'entraînement Open AI avec la sortie du jeu de données QVAC Genesis II

SleepTrader

2026-03-28 19:18:33

Découvrez les meilleures actualités et événements fintech !

Abonnez-vous à la newsletter de FinTech Weekly

Lue par des dirigeants de JP Morgan, Coinbase, Blackrock, Klarna et plus encore

Une grande expansion des données d’entraînement Open AI

Tether Data a publié une nouvelle version de son ensemble de données éducatives synthétiques pour l’intelligence artificielle, augmentant considérablement le volume et la portée du matériel d’entraînement ouvert disponible pour les chercheurs du monde entier. La division de recherche en IA de l’entreprise, QVAC, a annoncé que la nouvelle version, appelée QVAC Genesis II, ajoute 107 milliards de jetons à son ensemble de données précédent, portant la taille totale à 148 milliards de jetons.

L’ensemble de données élargi est désormais la plus grande ressource éducative synthétique disponible publiquement, conçue spécifiquement pour le pré-entraînement de l’IA. Il couvre 19 domaines académiques et vise à améliorer la façon dont les modèles apprennent le raisonnement, l’explication et la prise de décision plutôt que la simple reconnaissance de motifs de surface.

L’annonce positionne la publication comme un pas vers un développement de l’IA plus transparent et accessible, à un moment où de nombreux ensembles de données d’entraînement avancés restent enfermés dans des systèmes propriétaires.

S’appuyant sur la première version de Genesis

QVAC Genesis II s’appuie sur les travaux introduits pour la première fois avec Genesis I, qui se concentrait sur la création d’un ensemble de données synthétiques validées, centré sur l’éducation, couvrant les matières fondamentales en sciences, technologie, ingénierie et mathématiques. Cette version précédente a établi un cadre pour générer des questions d’entraînement structurées visant à améliorer la précision du raisonnement.

La nouvelle version élargit la couverture à dix domaines supplémentaires, y compris la chimie, l’informatique, les statistiques, l’apprentissage automatique, l’astronomie, la géographie, l’économétrie et le génie électrique. Elle revisite également le contenu de physique de niveau universitaire, le régénérant à l’aide d’une méthodologie mise à jour destinée à améliorer la clarté conceptuelle.

Ensemble, les deux versions forment ce que QVAC décrit comme le plus vaste ensemble de données éducatives synthétiques jamais mis à la disposition du public. L’ensemble de données est destiné à être utilisé dans le pré-entraînement de modèles de langage de grande taille et d’autres systèmes d’IA nécessitant du matériel académique structuré.

Un changement dans la façon dont les données d’entraînement sont générées

Au cœur de Genesis II se trouve une nouvelle méthode de génération de données appelée Raisonnement au niveau des options. Cette approche diffère de nombreuses techniques de données synthétiques existantes en se concentrant non seulement sur les réponses incorrectes, mais aussi sur les bonnes.

Au lieu de traiter une réponse correcte comme la fin du processus, la méthode analyse chaque option de réponse dans une question à choix multiples. Les choix corrects sont décomposés pour renforcer pourquoi ils sont corrects, tandis que les options incorrectes sont examinées pour traiter les idées fausses courantes. Cette structure permet aux modèles d’apprendre le raisonnement causal et la logique de décision plutôt que de simplement associer des questions à des résultats.

L’approche complète la méthode d’analyse des échecs introduite dans Genesis I, qui se concentrait sur l’extraction de valeur à partir des erreurs de modèle. Ensemble, les deux méthodes forment un pipeline où chaque question générée est conçue pour contribuer à la valeur pédagogique.

Des évaluations indépendantes citées par QVAC indiquent que les modèles formés sur les données de Genesis II montrent une plus grande précision de raisonnement et produisent des réponses plus claires que ceux formés sur des ensembles de données synthétiques précédents.

Accent sur la compréhension plutôt que sur la fluidité

Une grande partie de l’écosystème actuel de formation de l’IA repose sur l’assemblage de volumes très importants de texte, souvent extraits de sources publiques, pour améliorer la fluidité linguistique. L’objectif déclaré de QVAC diffère en termes d’accent. Les ensembles de données Genesis sont structurés pour enseigner aux modèles comment raisonner à travers des problèmes et expliquer des conclusions de manière claire.

La direction de l’entreprise a indiqué que l’intention est de dépasser les systèmes d’entraînement qui prédisent des séquences de texte probables, vers des modèles qui démontrent une compréhension des concepts sous-jacents. La conception de l’ensemble de données privilégie la clarté, la causalité et la logique, visant à réduire l’ambiguïté dans les résultats des modèles.

Cette approche s’aligne avec des discussions plus larges dans la recherche en IA concernant la fiabilité et l’explicabilité, surtout alors que les systèmes d’IA sont utilisés dans l’éducation, la science et les contextes de soutien à la décision.

Accès ouvert pour les chercheurs et développeurs

Comme avec l’ensemble de données Genesis original, QVAC Genesis II est publié ouvertement. L’ensemble de données est disponible sous une licence Creative Commons Attribution–NonCommercial 4.0, permettant aux chercheurs, institutions académiques et développeurs indépendants d’utiliser et d’étudier les données en dehors des environnements commerciaux.

L’ensemble de données et les modèles associés sont hébergés sur Hugging Face, aux côtés d’un article technique détaillé décrivant la méthodologie de génération et les résultats d’évaluation. Cette distribution ouverte vise à réduire les barrières pour les chercheurs qui n’ont pas accès à de grands ensembles de données propriétaires.

En maintenant une licence non commerciale, QVAC vise à soutenir la recherche académique et communautaire tout en limitant l’exploitation commerciale directe.

Soutenir le développement décentralisé de l’IA

La publication s’inscrit également dans une stratégie plus large poursuivie par Tether Data pour encourager le développement décentralisé de l’IA. L’entreprise a déclaré que des données d’entraînement de haute qualité ne devraient pas être réservées aux organisations ayant accès à une infrastructure cloud centralisée.

En rendant des ensembles de données structurés à grande échelle disponibles publiquement, QVAC cherche à permettre l’entraînement local, l’expérimentation et le déploiement de modèles d’IA. Cette approche vise à soutenir des environnements de recherche où les ressources informatiques peuvent être limitées mais où les contributions intellectuelles restent significatives.

L’accent mis sur la décentralisation reflète un intérêt croissant à réduire la dépendance à un petit nombre de plateformes d’IA dominantes et à favoriser un écosystème de recherche plus distribué.

Le rôle de Tether dans la recherche en IA

QVAC opère en tant que division de recherche en IA de Tether Data. Bien que Tether soit largement connu pour son rôle dans les actifs numériques et les stablecoins, l’entreprise a élargi ses activités dans la recherche sur les données et l’IA ces dernières années.

À travers QVAC, Tether Data s’est concentré sur la construction d’infrastructures et de ressources qui soutiennent la recherche ouverte. Les ensembles de données Genesis représentent l’un des résultats les plus visibles de cet effort, positionnant l’entreprise dans les discussions autour du développement ouvert de l’IA et des données d’entraînement axées sur l’éducation.

Ce travail reflète également le chevauchement croissant entre les entreprises fintech et la recherche avancée en IA, alors que les entreprises de technologie financière investissent de plus en plus dans la science des données et les capacités d’apprentissage automatique.

Perspective de direction sur la publication

La direction de l’entreprise a présenté la publication de Genesis II comme un éloignement des approches de formation qui privilégient uniquement le volume. L’accent, selon les déclarations de l’équipe dirigeante de Tether, est mis sur l’enseignement aux systèmes d’IA comment raisonner et expliquer plutôt que de simplement générer des réponses fluides.

Paolo Ardoino, directeur général de Tether, a souligné que l’IA fiable devrait être fondée sur la compréhension des raisons pour lesquelles les réponses sont correctes. Il a indiqué que rendre l’ensemble de données disponible ouvertement reflète la conviction qu’une IA plus forte et plus explicable profite à la société dans son ensemble.

Ces vues font écho aux préoccupations soulevées par les chercheurs concernant les limites des modèles formés principalement sur du texte non structuré.

Portée éducative et couverture des domaines

Les ensembles de données combinés Genesis I et II couvrent 19 domaines, avec du contenu conçu aux niveaux de l’éducation secondaire et tertiaire. Les matières vont des mathématiques et de la physique fondamentales aux domaines appliqués tels que l’économétrie et l’apprentissage automatique.

Chaque domaine comprend des questions structurées, des explications et des chemins de raisonnement destinés à refléter la manière dont les concepts sont enseignés et évalués dans les cadres éducatifs formels. Cette conception vise à soutenir les tâches de pré-entraînement qui nécessitent une cohérence logique et une profondeur conceptuelle.

En régénérant et en élargissant le contenu à l’aide de méthodes améliorées, QVAC vise à affiner la représentation du matériel éducatif dans les ensembles de données synthétiques.

Évaluation et performance des modèles

Selon les évaluations internes et indépendantes référencées par QVAC, les modèles formés sur les données de Genesis II montrent une performance améliorée dans les tâches nécessitant du raisonnement. Celles-ci incluent la réponse à des questions structurées, l’explication des conclusions et l’évitement de réponses ambiguës ou contradictoires.

Les résultats d’évaluation suggèrent que la combinaison de l’analyse des échecs et du raisonnement au niveau des options conduit à des résultats plus cohérents. Bien que l’entreprise n’ait pas positionné l’ensemble de données comme une solution autonome, elle l’a présenté comme une base solide pour un entraînement et un ajustement supplémentaires.

Les chercheurs sont censés réaliser des évaluations supplémentaires à mesure que l’ensemble de données est utilisé plus largement dans la communauté.

Implications pour la recherche ouverte en IA

La publication d’un ensemble de données aussi vaste et ouvert peut influencer la manière dont les chercheurs académiques et indépendants abordent l’entraînement des modèles. L’accès à des données éducatives structurées à cette échelle a traditionnellement été limité aux organisations bien financées.

En offrant une alternative, QVAC Genesis II pourrait soutenir l’expérimentation avec des modèles plus petits, des efforts d’entraînement localisés et des recherches sur des méthodes d’IA explicables.

L’ensemble de données peut également servir de référence pour de futurs projets de données synthétiques qui privilégient la qualité du raisonnement plutôt que la taille brute.

Position dans l’écosystème plus large de l’IA

QVAC Genesis II entre dans un écosystème de l’IA marqué par un développement rapide et une concentration croissante des ressources. De nombreux modèles les plus capables sont formés sur des ensembles de données propriétaires qui ne sont pas accessibles pour examen ou réplication.

Des ensembles de données ouverts comme Genesis II offrent un contrepoint, permettant la transparence et le progrès partagé. Ils soulèvent également des questions sur la manière dont les ressources ouvertes peuvent coexister avec le développement commercial de l’IA.

L’implication d’une entreprise ancrée dans la fintech et les actifs numériques souligne comment la recherche en IA suscite de l’intérêt de divers secteurs au-delà des entreprises technologiques traditionnelles.

Disponibilité et prochaines étapes

La documentation technique complète pour l’ensemble de données, intitulée « QVAC Genesis II : Expansion du plus grand et du plus haut qualité des ensembles de données éducatives synthétiques multi-domaines pour le pré-entraînement », a été publiée sur le blog de recherche de QVAC. L’accès à l’ensemble de données et aux modèles associés est disponible via Hugging Face.

QVAC a indiqué qu’elle prévoit de continuer à affiner ses méthodes et à élargir la couverture éducative dans les publications futures. Les retours de la communauté de recherche devraient jouer un rôle dans l’élaboration des prochaines itérations.

Un effort continu pour des fondations ouvertes

Avec Genesis II, QVAC renforce sa position selon laquelle des données d’entraînement ouvertes et structurées sont essentielles pour construire des systèmes d’IA fiables. La publication reflète l’idée que l’intelligence devrait être fondée sur le raisonnement et l’explication, et non seulement sur l’association statistique.

À mesure que les systèmes d’IA deviennent plus intégrés dans l’éducation, la science et les services financiers, y compris les applications fintech, la qualité de leurs données d’entraînement restera une préoccupation centrale.

Pour l’instant, l’ensemble de données Genesis élargi se présente comme une contribution notable à la recherche ouverte en IA, offrant échelle, structure et accessibilité à un niveau rarement vu en dehors des environnements propriétaires.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
WinGoldBarsWithGrowthPoints
1.04M Popularité
#
RangeTradingStrategy
31.84K Popularité
#
IsraelStrikesIranBTCPlunges
17.27K Popularité
#
BitcoinWeakens
101.08M Popularité
#
FedRateHikeExpectationsResurface
862.07K Popularité

Hot Gate Fun
Afficher plus

1
get
get
MC:$2.29KDétenteurs:2
0.07%
2
ZQCJ
重拳出击
MC:$2.29KDétenteurs:2
0.10%
3
PERPY
PERPY
MC:$0.1Détenteurs:1
0.00%
4
BRAVO
BRAVO
MC:$2.27KDétenteurs:2
0.00%
5
ZX
张雪
MC:$2.27KDétenteurs:1
0.00%

Épingler

Tether étend ses données d'entraînement Open AI avec la sortie du jeu de données QVAC Genesis II

Une grande expansion des données d’entraînement Open AI

S’appuyant sur la première version de Genesis

Un changement dans la façon dont les données d’entraînement sont générées

Accent sur la compréhension plutôt que sur la fluidité

Accès ouvert pour les chercheurs et développeurs

Soutenir le développement décentralisé de l’IA

Le rôle de Tether dans la recherche en IA

Perspective de direction sur la publication

Portée éducative et couverture des domaines

Évaluation et performance des modèles

Implications pour la recherche ouverte en IA

Position dans l’écosystème plus large de l’IA

Disponibilité et prochaines étapes

Un effort continu pour des fondations ouvertes

Sujets populaires

WinGoldBarsWithGrowthPoints

RangeTradingStrategy

IsraelStrikesIranBTCPlunges

BitcoinWeakens

FedRateHikeExpectationsResurface

Hot Gate Fun

get

get

ZQCJ

重拳出击

PERPY

PERPY

BRAVO

BRAVO

ZX

张雪

Épingler