Superando la divulgación de monitoreo: Cursor propone autoinstall para Composer, utilizando modelos anteriores para construir automáticamente un entorno RL funcional. El proceso consta de dos pasos: primero, que el agente proporcione 10 comandos de verificación y sus salidas; luego, otro agente selecciona 3 comandos para construir el entorno desde cero, con un máximo de 5 intentos, abandonando si todos fallan. Durante la construcción, se completan dependencias como bases de datos falsificadas, MinIO, Docker sidecar y imágenes de marcador de posición. Tomando como ejemplo el repositorio celo-monorepo, tras la primera ronda fallida, en la segunda se construyó un usuario simulado para sortear la autenticación, logrando finalmente que funcione. Composer 2 Terminal-Bench alcanzó un 61.7%, superior al 47.9% de la versión 1.5. En el futuro, se permitirá que versiones antiguas de Composer participen en más etapas de entrenamiento.

MarsBitNews

2026-05-07 11:18:00

Generación de resúmenes en curso

Según la monitorización de Beating, Cursor reveló un truco de entrenamiento para la serie de modelos Composer: usar el modelo de la generación anterior para construir automáticamente un entorno de ejecución para el aprendizaje por refuerzo (RL) de la siguiente generación. Al entrenar Composer 2, Cursor utilizó Composer 1.5 para realizar esta tarea, llamado autoinstall. El entrenamiento RL requiere un entorno de código ejecutable. Si el entorno no está bien configurado, el modelo desperdicia tokens en depurar errores, sin aprender nada; en casos extremos, si el entorno no funciona en absoluto, toda la potencia de cálculo del entrenamiento se desperdicia. autoinstall resuelve este problema en dos pasos: primero, un agente lee la documentación y configuración del código, y propone 10 comandos de verificación y sus salidas esperadas; segundo, otro agente toma 3 de esos comandos y configura el entorno desde cero hasta que los comandos se ejecuten correctamente. El segundo paso puede intentarse hasta 5 veces; si todos fallan, se descarta ese entorno. Durante la configuración del entorno, el agente activamente completa dependencias faltantes: falsifica tablas de bases de datos, crea configuraciones de MinIO para reemplazar S3, inicia contenedores Docker como servicios sidecar, e incluso genera imágenes de marcador de posición. El blog usa como ejemplo el proyecto blockchain celo-org/celo-monorepo para demostrar todo el proceso, donde tras fallar en la primera ronda de configuración, en la segunda ronda el agente crea automáticamente usuarios simulados para sortear la autenticación y finalmente logra ejecutar las pruebas. Composer 2 obtuvo una puntuación del 61.7% en Terminal-Bench (una referencia para evaluar la capacidad de construir entornos de desarrollo de modelos), frente al 47.9% de Composer 1.5, una mejora de casi 14 puntos porcentuales. Cursor indica que en el futuro planean involucrar más al Composer de versiones anteriores en etapas adicionales de entrenamiento, incluyendo preprocesamiento de datos, gestión de ejecución y ajuste de arquitectura.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GateSquareMayTradingShare
562.27K Popularidad
#
BTCPullback
106.31M Popularidad
#
IsraelStrikesIranBTCPlunges
43.76K Popularidad
#
CLARITYActStalled
3.28M Popularidad
#
CryptoStocksRally
1.42M Popularidad

Anclado

Cursor revela el método de entrenamiento "auto-inicialización": usar Composer antiguo para preparar el entorno del nuevo modelo, Terminal-Bench aumenta 14 puntos

Temas de actualidad

GateSquareMayTradingShare

BTCPullback

IsraelStrikesIranBTCPlunges

CLARITYActStalled

CryptoStocksRally

Anclado