Hugging Face de código abierto ml-intern, un agente de investigación en ML que lee automáticamente artículos, selecciona datos y ejecuta entrenamientos

robot
Generación de resúmenes en curso
Noticias ME News, 22 de abril (UTC+8), según la monitorización de Dongcha Beating, Hugging Face ha lanzado ml-intern, un agente de investigación en ML de código abierto que puede completar de forma autónoma todo el proceso: «leer artículos, organizar conjuntos de datos, iniciar entrenamiento en GPU, evaluar resultados, iterar y mejorar». El proyecto está basado en su propio marco smolagents, ofreciendo dos accesos, CLI y web, y el código está abierto en GitHub. La cadena de herramientas de ml-intern se construye en torno al ecosistema de Hugging Face: buscar artículos en arXiv y HF Papers y profundizar en la cadena de citas; navegar por los conjuntos de datos en HF Hub, verificar la calidad, reformatear y volver a entrenar; cuando no hay GPU local, se puede llamar a HF Jobs para iniciar tareas de entrenamiento en la nube, y tras finalizar, leer automáticamente la evaluación, diagnosticar fallos y volver a ejecutar. Por defecto, utiliza Claude Sonnet 4.5 para impulsar el ciclo de decisión, con un máximo de 300 iteraciones por sesión, y comprime automáticamente cuando el contexto supera las 170k tokens. Hugging Face presenta en su publicación tres casos de uso. En tareas de razonamiento científico, el agente encuentra los conjuntos de datos OpenScience y NemoTron-CrossThink en la cadena de citas de artículos de referencia, filtra 7 variantes por dificultad en ARC, SciQ y MMLU, y realiza 12 rondas de entrenamiento en Qwen3-1.7B, logrando que la puntuación GPQA pase del 10% al 32%, en menos de 10 horas. En escenarios médicos, el agente determina que la calidad de los conjuntos de datos existentes no es suficiente, escribe scripts para generar 1100 datos sintéticos y los amplía 50 veces para entrenar, superando el 60% en HealthBench en comparación con Codex. En escenarios de matemáticas competitivas, el agente escribe scripts de entrenamiento GRPO y lanza el entrenamiento en A100 a través de HF Spaces, observando la colapsación de recompensas y realizando experimentos de ablación para investigar las causas. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado