Le réglage fin de RL permet au modèle 4B de surpasser le 235B dans les questions-réponses financières : Snorkel AI publie un environnement d'entraînement FinQA open source

robot
Création du résumé en cours

Selon le suivi de 1M AI News, Snorkel AI a publié FinQA, un environnement d’entraînement par apprentissage par renforcement construit à partir de documents financiers SEC 10-K réels, désormais open source sur la plateforme OpenEnv, co-maintenu par Meta, PyTorch et Hugging Face. FinQA couvre 290 questions financières annotées par des experts provenant de 22 entreprises cotées en bourse, dont Alphabet, Amazon, Apple, Bank of America et Boeing, fournissant à l’Agent quatre outils MCP : lister les tables financières disponibles, récupérer la structure des tables, exécuter des requêtes SQL et soumettre des réponses. SQL applique des conditions de filtrage et interdit SELECT *, forçant l’Agent à ne récupérer que les données nécessaires au lieu de déverser l’intégralité de la table. Snorkel AI a collaboré avec l’équipe rLLM de l’Université de Californie à Berkeley pour affiner Qwen3-4B à l’aide de FinQA, aboutissant à un score de 59,7 % sur le benchmark de Q&R financiers SnorkelFinance, dépassant la même série Qwen3-235B (51,37 %), avec environ 1/60e du nombre de paramètres et une réduction de 90 % du coût d’inférence. Points clés : bien que les grands modèles puissent raisonner, ils peuvent générer des noms de colonnes halluciné(e)s et ignorer les contraintes SQL ; à l’inverse, le modèle plus petit entraîné avec RL peut invoquer les outils de manière exacte, ce qui indique que le goulot d’étranglement n’est pas l’échelle, mais la « discipline d’outils ». FinQA est le premier environnement open source publié par Snorkel AI sur OpenEnv, avec des projets de lancement d’environnements d’entreprise multi-tours couvrant des secteurs tels que la santé, l’assurance et le droit à l’avenir.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler