La prueba de referencia SOOHAK revela deficiencias en los modelos de IA: la capacidad de identificar problemas matemáticos sin solución no supera el 50%.

robot
Generación de resúmenes en curso

AIMPACT Mensaje, 17 de mayo (UTC+8), la nueva prueba de referencia matemática de IA SOOHAK, creada por la alianza de matemáticos de 64 bits, revela defectos clave en los modelos de IA.
La prueba incluye 439 tareas de escritura a mano, de las cuales 99 están diseñadas intencionalmente sin solución.
Google Gemini 3 Pro lidera en problemas de nivel de investigación, alcanzando un 30% de precisión, pero ningún modelo puede superar el 50% en la identificación de tareas sin solución.
Se ha descubierto que más recursos computacionales pueden mejorar la capacidad del modelo para resolver problemas, pero no aumentan su capacidad para reconocer que un problema no tiene solución.
SOOHAK tiene como objetivo cuantificar la brecha entre los logros destacados de la IA y las habilidades de investigación amplias que aún faltan en el sistema.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado