Hugging Face publie en open source ml-intern, un agent de recherche en apprentissage automatique pour la lecture automatisée de papiers, la sélection de données et la formation

Selon la surveillance de Dongcha Beating, Hugging Face a open-sourcé ml-intern, un agent de recherche en apprentissage automatique capable d’accomplir de manière autonome l’ensemble du processus de « lecture d’articles, organisation de jeux de données, lancement d’entraînements GPU, évaluation des résultats et itérations d’amélioration ». Le projet est construit sur leur propre framework smolagents et offre un accès CLI et web, avec le code disponible sur GitHub. La chaîne d’outils de ml-intern est conçue autour de l’écosystème Hugging Face : il récupère des articles sur arXiv et HF Papers et effectue une lecture approfondie le long des chaînes de citation ; il parcourt les jeux de données sur HF Hub, vérifie leur qualité, les reformate, puis les utilise pour l’entraînement ; lorsqu’il n’y a pas de GPU local, il peut appeler HF Jobs pour lancer des tâches d’entraînement dans le cloud, lisant automatiquement les résultats d’évaluation, diagnostiquant les causes d’échec, et relançant après la fin de l’entraînement. Par défaut, il utilise Claude Sonnet 4.5 pour piloter la boucle de décision, avec un maximum de 300 itérations par exécution et une compression automatique du contexte dépassant 170 000 tokens. Hugging Face a fourni trois études de cas dans leur post de lancement. Dans une tâche de raisonnement scientifique, l’agent a identifié les jeux de données OpenScience et NemoTron-CrossThink à partir de la chaîne de citation d’un article de référence, filtré sept variantes parmi ARC, SciQ et MMLU en fonction de leur difficulté, et a effectué 12 cycles de SFT sur Qwen3-1.7B, augmentant le score GPQA de 10 % à 32 % en moins de 10 heures. Dans un scénario médical, l’agent a déterminé que la qualité des jeux de données existants était insuffisante et a écrit de manière autonome un script pour générer 1 100 points de données synthétiques, augmentant le jeu de données par 50 fois pour l’entraînement, surpassant Codex de plus de 60 % sur HealthBench. Dans un scénario mathématique compétitif, l’agent a écrit de manière indépendante un script d’entraînement GRPO et lancé l’entraînement sur un A100 via HF Spaces, observant un effondrement de la récompense et menant des expériences d’ablation pour en étudier la cause.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler