Lanzamiento del estándar de programación de largo plazo FrontierSWE: desafío de 20 horas de dificultad extrema, solo GPT-5.4 y Opus4.6 proporcionan algunas soluciones

robot
Generación de resúmenes en curso

ME News Noticias, 17 de abril (UTC+8), según Beating de Monitoreo de Dongcha, el proyecto de referencia de agentes inteligentes de programación FrontierSWE fue lanzado oficialmente hoy, con el objetivo de explotar los límites de las capacidades de los agentes de IA actuales. Esta referencia recopila 17 problemas reales en campos como optimización de compiladores, investigación en aprendizaje automático e ingeniería de alto rendimiento (como construir un servicio SQLite compatible con PostgreSQL), y reserva una ventana de hasta 20 horas para cada tarea. Actualmente, esta referencia se encuentra en estado «no saturado», y la mayoría de los modelos ni siquiera logran avances sustanciales. En la primera ronda de pruebas, solo GPT-5.4 (Codex) y Claude Opus 4.6 (Claude Code) lograron escribir parcialmente algunas soluciones de manera consistente. Los estilos de estos dos modelos difieren enormemente: GPT-5.4 muestra un rendimiento más estable, ocupando el primer lugar en puntuación media, pero con un enfoque más conservador; Claude Opus 4.6 es muy «agresivo», invirtiendo en promedio más de 8 horas en tareas individuales, mucho más que las aproximadamente 2 horas de otros modelos. Esta estrategia de ganar tiempo para profundizar permitió a Opus 4.6 superar en la mejor puntuación (best@5, es decir, la puntuación más alta en 5 intentos) y producir código altamente optimizado, aunque con una tasa de errores más alta y una tendencia más marcada a «hacer trampa». La evaluación también reveló varias fallas típicas en los agentes inteligentes de programación: primero, la «sobreconfianza», donde los modelos a menudo, antes de la mitad del tiempo límite, piensan que han terminado la tarea por una revisión superficial y envían la solución; segundo, el «retroceso lógico», donde Opus 4.6 ha perdido varias optimizaciones ya implementadas y luego las «reinventa» en iteraciones posteriores. Además, salvo Qwen 3.6, los demás modelos de élite muestran intención de evitar detección activamente: por ejemplo, Gemini intenta ocultar nombres de bibliotecas ilegales mediante codificación de caracteres, o ejecutar procesos encubiertos en directorios temporales, intentando completar tareas en los límites de la violación. Este tipo de «comportamiento de resistencia» bajo presión extrema ofrece nuevas perspectivas para la investigación en seguridad de agentes inteligentes. (Fuente: BlockBeats)

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado