Cursor revela el método de entrenamiento "auto-inicialización": usar Composer antiguo para preparar el entorno del nuevo modelo, Terminal-Bench aumenta 14 puntos

robot
Generación de resúmenes en curso

Según la monitorización de Beating, Cursor reveló un truco de entrenamiento para la serie de modelos Composer: usar el modelo de la generación anterior para construir automáticamente un entorno de ejecución para el aprendizaje por refuerzo (RL) de la siguiente generación. Al entrenar Composer 2, Cursor utilizó Composer 1.5 para realizar esta tarea, llamado autoinstall. El entrenamiento RL requiere un entorno de código ejecutable. Si el entorno no está bien configurado, el modelo desperdicia tokens en depurar errores, sin aprender nada; en casos extremos, si el entorno no funciona en absoluto, toda la potencia de cálculo del entrenamiento se desperdicia. autoinstall resuelve este problema en dos pasos: primero, un agente lee la documentación y configuración del código, y propone 10 comandos de verificación y sus salidas esperadas; segundo, otro agente toma 3 de esos comandos y configura el entorno desde cero hasta que los comandos se ejecuten correctamente. El segundo paso puede intentarse hasta 5 veces; si todos fallan, se descarta ese entorno. Durante la configuración del entorno, el agente activamente completa dependencias faltantes: falsifica tablas de bases de datos, crea configuraciones de MinIO para reemplazar S3, inicia contenedores Docker como servicios sidecar, e incluso genera imágenes de marcador de posición. El blog usa como ejemplo el proyecto blockchain celo-org/celo-monorepo para demostrar todo el proceso, donde tras fallar en la primera ronda de configuración, en la segunda ronda el agente crea automáticamente usuarios simulados para sortear la autenticación y finalmente logra ejecutar las pruebas. Composer 2 obtuvo una puntuación del 61.7% en Terminal-Bench (una referencia para evaluar la capacidad de construir entornos de desarrollo de modelos), frente al 47.9% de Composer 1.5, una mejora de casi 14 puntos porcentuales. Cursor indica que en el futuro planean involucrar más al Composer de versiones anteriores en etapas adicionales de entrenamiento, incluyendo preprocesamiento de datos, gestión de ejecución y ajuste de arquitectura.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado