Hugging Face publica en código abierto ml-intern, un Agente de Investigación en ML para la lectura automática de artículos, selección de datos y entrenamiento

Según la monitorización de Dongcha Beating, Hugging Face ha abierto el código de ml-intern, un agente de investigación en aprendizaje automático capaz de completar de forma autónoma todo el proceso de “leer artículos, organizar conjuntos de datos, iniciar entrenamiento en GPU, evaluar resultados y realizar iteraciones de mejoras”. El proyecto está construido sobre su propio marco smolagents y ofrece acceso tanto por línea de comandos como basado en web, con el código disponible en GitHub. La cadena de herramientas de ml-intern está diseñada en torno al ecosistema de Hugging Face: recupera artículos de arXiv y HF Papers y realiza lecturas profundas siguiendo cadenas de citas; navega por conjuntos de datos en HF Hub, verifica su calidad, los reformatea y luego los introduce para entrenamiento; cuando no hay GPU local, puede llamar a HF Jobs para iniciar tareas de entrenamiento en la nube, leyendo automáticamente los resultados de evaluación, diagnosticando las causas de fallos y reiniciando después de completar el entrenamiento. Por defecto, utiliza Claude Sonnet 4.5 para impulsar el ciclo de decisiones, con un máximo de 300 iteraciones por ejecución y compresión automática del contexto que excede las 170k tokens. Hugging Face proporcionó tres estudios de caso en su publicación de lanzamiento. En una tarea de razonamiento científico, el agente identificó los conjuntos de datos OpenScience y NemoTron-CrossThink en la cadena de citas de un artículo de referencia, filtró siete variantes de ARC, SciQ y MMLU según la dificultad, y realizó 12 rondas de SFT en Qwen3-1.7B, aumentando la puntuación GPQA del 10% al 32% en menos de 10 horas. En un escenario médico, el agente determinó que la calidad de los conjuntos de datos existentes era insuficiente y escribió de forma autónoma un script para generar 1,100 puntos de datos sintéticos, ampliando el conjunto de datos en 50 veces para el entrenamiento, superando a Codex en más del 60% en HealthBench. En un escenario de matemáticas competitivas, el agente escribió de forma independiente un script de entrenamiento GRPO e inició el entrenamiento en un A100 a través de HF Spaces, observando un colapso de recompensas y realizando experimentos de ablación para investigar la causa.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado