OpenAI introdujo GDPval, un estándar que evalúa el rendimiento de los modelos de IA en tareas económicamente valiosas del mundo real, abarcando 1,320 tareas en 44 ocupaciones de los 9 principales sectores que contribuyen al PIB de EE.UU.
Claude Opus 4.1 fue el modelo con mejor rendimiento donde el 47.6% de los entregables
Ver originales