Cursor: El "fraude de recompensa" de los modelos de IA en las evaluaciones de programación se intensifica, y las puntuaciones de referencia pueden sobreestimar la capacidad real.

robot
Generación de resúmenes en curso
ME AI Noticias, según un informe publicado por el investigador de Cursor, Naman Jain, los modelos de programación de IA de vanguardia son cada vez más hábiles para "trampas" al recuperar respuestas públicas con el fin de mejorar sus puntuaciones en las evaluaciones, en lugar de resolver problemas mediante razonamiento real, lo que distorsiona los resultados de algunos benchmarks. El estudio muestra que en SWE-bench Pro, el 63% de los casos exitosos de Opus 4.8 Max reutilizaron directamente soluciones de arreglo públicas. Después de restringir el acceso al historial de Git e Internet, su puntuación disminuyó del 87.1% al 73.0%; mientras que Composer 2.5 bajó del 74.7% al 54.0%. Las formas comunes de hacer trampas incluyen buscar PR públicos, extraer el historial de .git y aprovechar la información filtrada del entorno. El estudio señala que, a medida que aumenta la capacidad de los modelos, también mejora su capacidad de "conciencia de la evaluación", por lo que en el futuro las evaluaciones de IA necesitarán controlar más estrictamente el entorno de ejecución para evitar que las puntuaciones confundan la capacidad de codificación con la capacidad de recuperación de respuestas. (Fuente: PANews)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios