Hugging Face Torna Público o ml-intern, um Agente de Pesquisa em ML para Leitura Automática de Artigos, Seleção de Dados e Treinamento

De acordo com o monitoramento da Dongcha Beating, a Hugging Face open-souceou o ml-intern, um agente de pesquisa em ML capaz de completar autonomamente todo o processo de “ler artigos, organizar conjuntos de dados, iniciar treino com GPU, avaliar resultados e iterar melhorias”. O projeto é construído com base na sua própria estrutura smolagents e oferece acesso tanto via CLI quanto através de uma interface web, com o código disponível no GitHub. A cadeia de ferramentas do ml-intern é construída em torno do ecossistema Hugging Face: ela recupera artigos do arXiv e HF Papers e realiza leitura aprofundada ao longo de cadeias de citação; navega por conjuntos de dados no HF Hub, verifica a qualidade, reformata-os e os insere para treino; quando não há GPU local, pode chamar o HF Jobs para iniciar tarefas de treino na nuvem, lendo automaticamente os resultados de avaliação, diagnosticando motivos de falha e reiniciando após a conclusão do treino. Por padrão, usa o Claude Sonnet 4.5 para conduzir o ciclo de decisão, com um máximo de 300 iterações por execução e compressão automática do contexto que excede 170 mil tokens. A Hugging Face forneceu três estudos de caso em seu post de lançamento. Em uma tarefa de raciocínio científico, o agente identificou os conjuntos de dados OpenScience e NemoTron-CrossThink a partir da cadeia de citações de um artigo de referência, filtrou sete variantes do ARC, SciQ e MMLU com base na dificuldade, e realizou 12 rodadas de SFT no Qwen3-1.7B, aumentando a pontuação GPQA de 10% para 32% em menos de 10 horas. Em um cenário médico, o agente determinou que a qualidade dos conjuntos de dados existentes era insuficiente e escreveu autonomamente um script para gerar 1.100 pontos de dados sintéticos, expandindo o conjunto de dados em 50 vezes para o treino, superando o Codex em mais de 60% no HealthBench. Em um cenário de matemática competitiva, o agente escreveu de forma independente um script de treino GRPO e iniciou o treino em uma A100 através do HF Spaces, observando o colapso da recompensa e realizando experimentos de ablação para investigar a causa.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar