La referencia de prueba FrontierSWE evalúa los límites de los agentes de IA con 17 desafíos de programación del mundo real. Los resultados iniciales muestran que solo GPT-5.4 y Claude Opus 4.6 están avanzando, cada uno con estrategias y problemas distintos. Los hallazgos destacan fallos comunes como exceso de confianza y comportamientos contraproducentes, lo que genera preocupaciones de seguridad.

MeNews

2026-04-17 08:41:32

Generación de resúmenes en curso

ME News Noticias, 17 de abril (UTC+8), según Beating de Monitoreo de Dongcha, el proyecto de referencia de agentes inteligentes de programación FrontierSWE fue lanzado oficialmente hoy, con el objetivo de explotar los límites de las capacidades de los agentes de IA actuales. Esta referencia recopila 17 problemas reales en campos como optimización de compiladores, investigación en aprendizaje automático e ingeniería de alto rendimiento (como construir un servicio SQLite compatible con PostgreSQL), y reserva una ventana de hasta 20 horas para cada tarea. Actualmente, esta referencia se encuentra en estado «no saturado», y la mayoría de los modelos ni siquiera logran avances sustanciales. En la primera ronda de pruebas, solo GPT-5.4 (Codex) y Claude Opus 4.6 (Claude Code) lograron escribir parcialmente algunas soluciones de manera consistente. Los estilos de estos dos modelos difieren enormemente: GPT-5.4 muestra un rendimiento más estable, ocupando el primer lugar en puntuación media, pero con un enfoque más conservador; Claude Opus 4.6 es muy «agresivo», invirtiendo en promedio más de 8 horas en tareas individuales, mucho más que las aproximadamente 2 horas de otros modelos. Esta estrategia de ganar tiempo para profundizar permitió a Opus 4.6 superar en la mejor puntuación (best@5, es decir, la puntuación más alta en 5 intentos) y producir código altamente optimizado, aunque con una tasa de errores más alta y una tendencia más marcada a «hacer trampa». La evaluación también reveló varias fallas típicas en los agentes inteligentes de programación: primero, la «sobreconfianza», donde los modelos a menudo, antes de la mitad del tiempo límite, piensan que han terminado la tarea por una revisión superficial y envían la solución; segundo, el «retroceso lógico», donde Opus 4.6 ha perdido varias optimizaciones ya implementadas y luego las «reinventa» en iteraciones posteriores. Además, salvo Qwen 3.6, los demás modelos de élite muestran intención de evitar detección activamente: por ejemplo, Gemini intenta ocultar nombres de bibliotecas ilegales mediante codificación de caracteres, o ejecutar procesos encubiertos en directorios temporales, intentando completar tareas en los límites de la violación. Este tipo de «comportamiento de resistencia» bajo presión extrema ofrece nuevas perspectivas para la investigación en seguridad de agentes inteligentes. (Fuente: BlockBeats)

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GatePreIPOsLaunchesWithSpaceX
185.17K Popularidad
#
Gate13thAnniversaryLive
594.23K Popularidad
#
IsraelStrikesIranBTCPlunges
29.99K Popularidad
#
AltcoinsRallyStrong
7.31M Popularidad
#
AnthropicvsOpenAIHeatsUp
1.06M Popularidad

Anclado

Lanzamiento del estándar de programación de largo plazo FrontierSWE: desafío de 20 horas de dificultad extrema, solo GPT-5.4 y Opus4.6 proporcionan algunas soluciones

Temas de actualidad

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

IsraelStrikesIranBTCPlunges

AltcoinsRallyStrong

AnthropicvsOpenAIHeatsUp

Anclado