Tether étend ses données d'entraînement Open AI avec la sortie du jeu de données QVAC Genesis II


Découvrez les principales actualités et événements fintech !

Abonnez-vous à la newsletter de FinTech Weekly

Lue par des dirigeants de JP Morgan, Coinbase, Blackrock, Klarna et plus


Une expansion majeure des données d’entraînement pour Open AI

Tether Data a publié une nouvelle version de son jeu de données éducatif synthétique pour l’intelligence artificielle, augmentant de manière significative le volume et la portée des supports de formation ouverts disponibles pour les chercheurs dans le monde entier. La division de recherche en IA de l’entreprise, QVAC, a annoncé que la nouvelle publication, appelée QVAC Genesis II, ajoute 107 milliards de tokens à son jeu de données antérieur, portant la taille totale à 148 milliards de tokens.

Le jeu de données étendu est désormais la plus grande ressource éducative synthétique accessible au public, conçue spécifiquement pour le pré-entraînement à l’IA. Il couvre 19 domaines académiques et vise à améliorer la manière dont les modèles apprennent le raisonnement, l’explication et la prise de décision, plutôt que la simple reconnaissance de motifs au niveau superficiel.

L’annonce positionne la publication comme une étape vers un développement de l’IA plus transparent et accessible, à un moment où de nombreux jeux de données d’entraînement avancés restent verrouillés dans des systèmes propriétaires.

S’appuyer sur la première publication Genesis

QVAC Genesis II s’appuie sur des travaux d’abord introduits avec Genesis I, qui mettaient l’accent sur la création d’un jeu de données synthétique validé, centré sur l’éducation, couvrant les matières fondamentales des sciences, de la technologie, de l’ingénierie et des mathématiques. Cette publication antérieure a établi un cadre de génération de questions structurées d’entraînement visant à améliorer la précision du raisonnement.

La nouvelle publication étend la couverture vers dix domaines supplémentaires, incluant la chimie, l’informatique, les statistiques, le machine learning, l’astronomie, la géographie, l’économétrie et le génie électrique. Elle revient également sur le contenu de physique au niveau universitaire, en le régénérant à l’aide d’une méthodologie mise à jour conçue pour améliorer la clarté conceptuelle.

Ensemble, ces deux publications forment, selon ce que QVAC décrit, le jeu de données éducatif synthétique le plus vaste jamais mis à disposition du public. Le jeu de données est destiné à être utilisé pour le pré-entraînement des grands modèles de langage et d’autres systèmes d’IA qui nécessitent un contenu académique structuré.

Un changement dans la manière dont les données d’entraînement sont générées

Au cœur de Genesis II se trouve une nouvelle méthode de génération de données appelée Reasoning au niveau des options. Cette approche diffère de nombreuses techniques de données synthétiques existantes en se concentrant non seulement sur les réponses incorrectes, mais aussi sur les réponses correctes.

Au lieu de traiter une réponse correcte comme la fin du processus, la méthode analyse chaque option de réponse dans une question à choix multiples. Les choix corrects sont décomposés afin de renforcer pourquoi ils sont corrects, tandis que les options incorrectes sont examinées pour traiter les idées reçues courantes. Cette structure permet aux modèles d’apprendre un raisonnement causal et une logique de décision plutôt que de simplement associer des questions à des résultats.

L’approche complète la méthode d’analyse des échecs introduite dans Genesis I, qui visait à extraire de la valeur des erreurs du modèle. Ensemble, ces deux méthodes forment une chaîne de traitement dans laquelle chaque question générée est conçue pour apporter une valeur pédagogique.

Des évaluations indépendantes citées par QVAC indiquent que les modèles entraînés avec des données de Genesis II présentent une meilleure précision de raisonnement et produisent des réponses plus claires que ceux entraînés sur des jeux de données synthétiques antérieurs.

Mettre l’accent sur la compréhension plutôt que sur la fluidité

Une grande partie de l’écosystème actuel d’entraînement à l’IA repose sur l’assemblage de volumes très importants de texte, souvent prélevé sur des sources publiques, afin d’améliorer la fluidité du langage. L’objectif déclaré de QVAC diffère dans sa mise en avant. Les jeux de données Genesis sont structurés pour apprendre aux modèles comment raisonner à travers les problèmes et expliquer clairement les conclusions.

La direction de l’entreprise a indiqué que l’intention est d’aller au-delà des systèmes d’entraînement qui prédisent des séquences de texte probables, vers des modèles capables de démontrer une compréhension des concepts sous-jacents. La conception du jeu de données privilégie la clarté, la causalité et la logique, dans le but de réduire l’ambiguïté dans les sorties du modèle.

Cette approche s’aligne sur des discussions plus larges en recherche sur l’IA concernant la fiabilité et l’explicabilité, en particulier à mesure que les systèmes d’IA sont utilisés dans l’éducation, la science et les contextes d’aide à la décision.

Accès ouvert pour les chercheurs et les développeurs

Comme pour le jeu de données Genesis original, QVAC Genesis II est publié ouvertement. Le jeu de données est disponible sous une licence Creative Commons Attribution–NonCommercial 4.0, permettant aux chercheurs, aux institutions académiques et aux développeurs indépendants d’utiliser et d’étudier les données en dehors de contextes commerciaux.

Le jeu de données et les modèles associés sont hébergés sur Hugging Face, ainsi qu’un article technique détaillé décrivant la méthodologie de génération et les résultats d’évaluation. Cette distribution ouverte vise à réduire les barrières pour les chercheurs qui n’ont pas accès à de grands jeux de données propriétaires.

En maintenant une licence non commerciale, QVAC vise à soutenir la recherche académique et pilotée par la communauté tout en limitant l’exploitation commerciale directe.

Soutenir le développement décentralisé de l’IA

La publication s’inscrit également dans une stratégie plus large menée par Tether Data afin d’encourager le développement décentralisé de l’IA. L’entreprise a déclaré que des données d’entraînement de haute qualité ne devraient pas être limitées aux organisations ayant accès à une infrastructure cloud centralisée.

En rendant publiques des jeux de données structurés à grande échelle, QVAC cherche à permettre l’entraînement local, l’expérimentation et le déploiement de modèles d’IA. Cette approche est destinée à soutenir des environnements de recherche où les ressources de calcul peuvent être limitées, mais où les contributions intellectuelles restent importantes.

L’accent mis sur la décentralisation reflète l’intérêt croissant pour réduire la dépendance à un petit nombre de plateformes d’IA dominantes et favoriser un écosystème de recherche plus distribué.

Le rôle de Tether dans la recherche en IA

QVAC opère en tant que division de recherche en IA de Tether Data. Bien que Tether soit largement connu pour son rôle dans les actifs numériques et les stablecoins, l’entreprise a étendu ses activités à la donnée et à la recherche en IA ces dernières années.

Grâce à QVAC, Tether Data s’est concentré sur la construction d’infrastructures et de ressources qui soutiennent la recherche ouverte. Les jeux de données Genesis représentent l’un des résultats les plus visibles de cet effort, positionnant l’entreprise dans les discussions autour du développement d’une IA ouverte et de données d’entraînement centrées sur l’éducation.

Ce travail reflète aussi le chevauchement croissant entre les entreprises fintech et la recherche avancée en IA, alors que les sociétés de technologie financière investissent de plus en plus dans les capacités de science des données et de machine learning.

Point de vue de la direction sur la publication

La direction de l’entreprise a présenté la publication de Genesis II comme un changement par rapport aux approches d’entraînement qui privilégient uniquement le volume. L’accent, selon les déclarations de l’équipe de direction de Tether, est mis sur l’enseignement aux systèmes d’IA de la manière de raisonner et d’expliquer, plutôt que de simplement générer des réponses fluides.

Paolo Ardoino, directeur général de Tether, a souligné qu’une IA fiable devrait être fondée sur la compréhension de pourquoi les réponses sont correctes. Il a indiqué que le fait de rendre le jeu de données disponible ouvertement reflète une croyance selon laquelle une IA plus solide et davantage explicable profite à la société dans son ensemble.

Ces points de vue font écho aux préoccupations soulevées par des chercheurs concernant les limites des modèles entraînés principalement sur du texte non structuré.

Champ éducatif et couverture des domaines

Les jeux de données Genesis I et II combinés couvrent 19 domaines, avec du contenu conçu pour des niveaux d’éducation secondaire et supérieur. Les matières vont des mathématiques et de la physique fondamentales à des domaines appliqués tels que l’économétrie et le machine learning.

Chaque domaine inclut des questions structurées, des explications et des parcours de raisonnement destinés à refléter la manière dont les concepts sont enseignés et évalués dans des contextes d’éducation formelle. Cette conception vise à soutenir des tâches de pré-entraînement nécessitant une cohérence logique et une profondeur conceptuelle.

En régénérant et en étendant le contenu à l’aide de méthodes améliorées, QVAC vise à affiner la façon dont le matériel éducatif est représenté dans des jeux de données synthétiques.

Évaluation et performance des modèles

Selon des évaluations internes et indépendantes citées par QVAC, les modèles entraînés sur les données de Genesis II montrent de meilleures performances dans des tâches axées sur le raisonnement. Celles-ci incluent répondre à des questions structurées, expliquer des conclusions et éviter des réponses ambiguës ou contradictoires.

Les résultats d’évaluation suggèrent que la combinaison de Failure Analysis et Reasoning au niveau des options conduit à des sorties plus cohérentes. Bien que l’entreprise n’ait pas positionné le jeu de données comme une solution autonome, elle l’a présenté comme une base solide pour un entraînement supplémentaire et un ajustement fin.

On s’attend à ce que les chercheurs mènent des évaluations supplémentaires à mesure que le jeu de données sera davantage utilisé par la communauté.

Implications pour la recherche en IA ouverte

La publication d’un jeu de données aussi vaste et ouvert pourrait influencer la manière dont les chercheurs académiques et indépendants abordent l’entraînement des modèles. L’accès à des données éducatives structurées à cette échelle a traditionnellement été limité à des organisations bien financées.

En fournissant une alternative, QVAC Genesis II pourrait soutenir des expérimentations avec des modèles plus petits, des efforts d’entraînement localisés et des recherches sur des méthodes d’IA explicable.

Le jeu de données pourrait également servir de référence pour de futurs projets de données synthétiques qui privilégient la qualité du raisonnement plutôt que la seule taille.

Positionnement dans l’écosystème d’IA au sens large

QVAC Genesis II entre dans un écosystème d’IA marqué par un développement rapide et une concentration croissante des ressources. De nombreux des modèles les plus performants sont entraînés sur des jeux de données propriétaires qui ne sont pas accessibles pour vérification ou réplication.

Des ensembles de données ouverts comme Genesis II offrent un contrepoint, en permettant transparence et progrès partagés. Ils soulèvent aussi des questions sur la manière dont des ressources ouvertes peuvent coexister avec le développement d’IA commercial.

La participation d’une entreprise ancrée dans la fintech et les actifs numériques met en évidence l’intérêt croissant pour la recherche en IA venant d’un large éventail d’industries au-delà des entreprises technologiques traditionnelles.

Disponibilité et prochaines étapes

La documentation technique complète du jeu de données, intitulée “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training,” a été publiée sur le blog de recherche de QVAC. L’accès au jeu de données et aux modèles associés est disponible via Hugging Face.

QVAC a indiqué qu’il prévoit de continuer à affiner ses méthodes et à étendre la couverture éducative lors des prochaines publications. Les retours de la communauté de recherche devraient jouer un rôle dans la définition des itérations suivantes.

Poursuite de l’élan vers des fondations ouvertes

Avec Genesis II, QVAC renforce sa position selon laquelle des données d’entraînement ouvertes et structurées sont essentielles pour construire des systèmes d’IA fiables. La publication reflète l’idée que l’intelligence doit être fondée sur le raisonnement et l’explication, et pas seulement sur l’association statistique.

À mesure que les systèmes d’IA s’intègrent davantage dans l’éducation, la science et les services financiers, y compris les applications fintech, la qualité de leurs données d’entraînement restera une préoccupation centrale.

Pour l’instant, le jeu de données Genesis élargi constitue une contribution notable à la recherche en IA ouverte, offrant une échelle, une structure et une accessibilité à un niveau rarement observé en dehors des environnements propriétaires.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler