Mythos 5 permite que los doctores generales alcancen a los expertos de élite, pero aún no pueden convertirse en científicos autónomos

Según el monitoreo de Beating, Anthropic reveló en los sistemas de Claude Fable 5 y Claude Mythos 5 que Mythos 5 muestra una fuerte capacidad de asistencia experta en evaluaciones de bioseguridad. En una simulación de ataque de red en patología vegetal, 6 doctores en biología fueron emparejados con expertos en modelos grandes, utilizando Mythos 5 para diseñar una estrategia integral de resistencia biológica contra un patógeno agrícola artificial hipotético. Entre ellos, 3 equipos incluían expertos en patología vegetal, y otros 3 estaban formados por doctores en microbiología general. Los resultados mostraron que, en 16 horas, 2 de los 3 equipos de doctores en microbiología superaron a los 3 equipos de expertos en calidad científica y viabilidad. La evaluación de los revisores expertos estimó que, sin herramientas de IA, completar estas estrategias y protocolos de implementación normalmente tomaría entre 40 y 95 días laborales, con un promedio de aproximadamente 72.5 días. Anthropic considera que esto es una de las pruebas más contundentes de que Mythos 5 se acerca al umbral de riesgo CB-2, indicando que el modelo ya puede proporcionar a investigadores generales conocimientos especializados cercanos a los de expertos de nivel mundial en ciertas tareas. Sin embargo, esto no significa que Mythos 5 pueda realizar investigaciones de frontera de forma autónoma. Anthropic también señala que el modelo todavía depende de expertos humanos para filtrar ideas, tiene una capacidad de pensamiento abierto relativamente débil, tiende a recombinar literatura existente en esquemas complejos, pero rara vez propone rutas verdaderamente innovadoras; además, tiende a seguir la estructura errónea proporcionada por el usuario, y aunque detecte defectos en los planes, puede continuar ejecutándolos. Esta evaluación también coincide con el estándar de predicción científica CUSP. CUSP cubre 4760 eventos científicos y evalúa la capacidad del modelo para juzgar la viabilidad del progreso científico, identificar mecanismos, generar planes y predecir tiempos. Los resultados muestran que GPT-5.4 alcanza un 81.9% en preguntas de reconocimiento de mecanismos de opción múltiple, Claude S4.5 un 72.4%, pero en tareas de clasificación binaria sobre si el progreso científico realmente se logrará, la precisión de ambos modelos es solo del 45.3% al 51.9%, cerca del azar. En otras palabras, los grandes modelos actuales son muy buenos completando pasos parciales en investigación, pero aún no son confiables para juzgar qué rutas científicas tendrán éxito real.
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado