Hugging Face open source ml-intern, un agent de recherche en apprentissage automatique qui lit automatiquement des articles, sélectionne des données et exécute des entraînements

robot
Création du résumé en cours
ME News Actualités, le 22 avril (UTC+8), selon la surveillance de Dongcha Beating, Hugging Face a open source ml-intern, un agent de recherche en apprentissage automatique capable d'accomplir de manière autonome tout le processus « lecture de papiers, organisation de jeux de données, lancement d'entraînement GPU, évaluation des résultats, itérations et améliorations ». Le projet est basé sur leur propre cadre smolagents, offrant deux interfaces d'entrée : CLI et web, le code étant open source sur GitHub. La chaîne d'outils de ml-intern s'appuie sur l'écosystème Hugging Face : rechercher des papiers sur arXiv et HF Papers et les étudier en profondeur via la chaîne de citations ; parcourir les jeux de données sur HF Hub, vérifier leur qualité, puis les reformater pour l'entraînement ; lorsque pas de GPU local, appeler HF Jobs pour lancer des tâches d'entraînement cloud, lire automatiquement les sorties d’évaluation, diagnostiquer les échecs et relancer. Par défaut, il utilise Claude Sonnet 4.5 pour piloter la boucle de décision, avec un maximum de 300 itérations par session, et compresse automatiquement le contexte dépassant 170k tokens. Hugging Face donne trois cas dans leur publication. Dans une tâche de raisonnement scientifique, l'agent trouve dans la chaîne de citations du papier de référence les jeux de données OpenScience et NemoTron-CrossThink, filtre 7 variantes selon la difficulté parmi ARC, SciQ, MMLU, et exécute 12 tours de SFT sur Qwen3-1.7B, le score GPQA passant de 10 % à 32 %, en moins de 10 heures. Dans un contexte médical, l'agent juge la qualité des jeux de données existants insuffisante, écrit un script pour générer 1100 données synthétiques, les amplifie de 50 fois pour l'entraînement, dépassant 60 % de Codex sur HealthBench. Dans un contexte mathématique de compétition, l'agent écrit lui-même un script d'entraînement GRPO, lance l'entraînement sur A100 via HF Spaces, et après avoir observé un effondrement de récompense, réalise des expériences d'ablation pour diagnostiquer la cause. (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé