4,760 hitos ingresados, la predicción de nuevos descubrimientos sigue siendo como lanzar una moneda. Por más fuerte que sea el razonamiento mecánico, en áreas desconocidas sin respuestas estándar todavía se está a ciegas.

Ver original
CoinNetwork
La IA todavía no puede ser científica autónoma, la evaluación CUSP revela que los grandes modelos carecen de una visión prospectiva en investigación científica
Stanford/Oxford/Allen AI Institute lanza la referencia temporal CUSP, que evalúa la capacidad de predicción de la IA sobre avances científicos.
Las pruebas con GPT-5.4, Claude Sonnet 4.5, DeepSeek R1, entre otros, muestran buen rendimiento en el razonamiento mecánico sobre las rutas tecnológicas existentes, pero la predicción de si se logrará un nuevo descubrimiento es casi aleatoria, y existe un retraso sistemático en el tiempo de los avances.
CUSP se basa en conocimientos temporales, organizando los avances de vanguardia en Nature/Science, y la referencia cubre 4,760 hitos y 17,429 tareas.
La conclusión es que, en la exploración científica sin respuestas estándar, los modelos actuales no pueden ofrecer juicios confiables de predicción.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado