Cursor revela método de treino "auto-inicialização": usar um Composer antigo para criar o ambiente para o novo modelo, Terminal-Bench aumenta 14 pontos

robot
Geração de resumo em curso

De acordo com o monitoramento Beating, a Cursor revelou uma técnica de treino para a série de modelos Composer: usar o modelo da geração anterior para montar automaticamente um ambiente de execução para o próximo.
Ao treinar o Composer 2, a Cursor utilizou o Composer 1.5 para realizar essa tarefa, chamando-a de autoinstall.
O treino de RL requer um ambiente de código executável.
Se o ambiente não estiver bem configurado, o modelo desperdiça tokens na correção de bugs, sem aprender nada;
em casos extremos, o ambiente pode ficar completamente inoperante, desperdiçando toda a capacidade de cálculo da rodada de treino.
O autoinstall resolve esse problema em duas etapas:
Primeira etapa, um agente lê a documentação e configurações do repositório de código, propondo 10 comandos de validação e suas saídas esperadas;
Segunda etapa, outro agente pega 3 desses comandos, configura o ambiente do zero até que os comandos sejam executados com sucesso.
A segunda etapa tenta no máximo 5 vezes; se todas falharem, o ambiente é descartado.
Durante a configuração do ambiente, o agente ativa a complementação de dependências ausentes: falsifica tabelas de banco de dados, cria configurações MinIO para substituir o S3, inicia containers Docker como serviços sidecar, e até gera imagens de placeholder.
O artigo usa o projeto blockchain celo-org/celo-monorepo como exemplo para demonstrar todo o processo, onde após a falha na primeira tentativa de configuração, o agente cria um usuário mock na segunda rodada para contornar a autenticação, e finalmente realiza o teste com sucesso.
O Composer 2 obteve uma pontuação de 61,7% no Terminal-Bench (uma métrica de avaliação da capacidade de montar ambientes de desenvolvimento de modelos), superando em quase 14 pontos percentuais os 47,9% do Composer 1.5.
A Cursor afirma que, no futuro, planeja envolver versões antigas do Composer em mais etapas de treino, incluindo pré-processamento de dados, gerenciamento de execução e ajuste de arquitetura.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar