Mythos 5 permite que los doctores generales alcancen a los expertos de élite, pero aún no pueden convertirse en científicos autónomos

robot
Generación de resúmenes en curso
Según el monitoreo de Beating, Anthropic reveló en los sistemas de Claude Fable 5 y Claude Mythos 5 que Mythos 5 muestra una fuerte capacidad de asistencia experta en evaluaciones de bioseguridad. En una simulación de equipo rojo en patología vegetal, 6 doctores en biología se emparejaron con expertos en modelos grandes, utilizando Mythos 5 para diseñar una estrategia integral de resistencia biológica contra un patógeno agrícola artificial hipotético. Entre ellos, 3 equipos incluían expertos en patología vegetal, y los otros 3 estaban formados por doctores en microbiología general.

Los resultados mostraron que en 16 horas, 2 de los 3 doctores en microbiología general en los equipos superaron a los 3 expertos en calidad científica y viabilidad. La evaluación de los revisores expertos estimó que, sin herramientas de IA, completar estas estrategias y protocolos de implementación normalmente tomaría entre 40 y 95 días laborables, con un promedio de aproximadamente 72.5 días. Anthropic considera que esto es una de las pruebas más contundentes de que Mythos 5 se acerca al umbral de riesgo CB-2, indicando que el modelo ya puede proporcionar a investigadores generales conocimientos especializados cercanos a los de expertos de nivel mundial en algunas tareas.

Pero esto no significa que Mythos 5 pueda realizar investigaciones de frontera de forma autónoma. Anthropic también señala que el modelo todavía depende de expertos humanos para filtrar ideas, tiene una capacidad de pensamiento abierto relativamente débil, puede recombinar literatura existente en esquemas complejos, pero rara vez propone rutas verdaderamente innovadoras; además, tiende a seguir la estructura errónea proporcionada por el usuario, y aunque detecte fallos en los planes, puede continuar ejecutándolos.

Esta evaluación también coincide con el estándar de predicción científica CUSP. CUSP cubre 4760 eventos científicos y evalúa la viabilidad de los avances científicos, reconocimiento de mecanismos, generación de planes y predicciones temporales. Los resultados muestran que GPT-5.4 alcanza un 81.9% en reconocimiento de mecanismos en preguntas de opción múltiple, Claude S4.5 obtiene un 72.4%, pero en tareas de clasificación binaria sobre si un avance científico realmente se logrará, la precisión de ambos modelos es solo del 45.3% al 51.9%, cerca de una conjetura aleatoria. En otras palabras, los modelos grandes actuales son muy buenos rellenando pasos parciales en la investigación, pero aún no son confiables para determinar qué rutas científicas tendrán éxito real.
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado