Anthropic lanza BioMysteryBench: preguntas biológicas que ningún experto puede responder, Claude Mythos puede resolver el 30%

robot
Generación de resúmenes en curso

AIMPACT Mensaje, 30 de abril (UTC+8), según la monitorización de Beating de Dongcha, Anthropic lanzó BioMysteryBench, un conjunto de 99 preguntas de evaluación de referencia en bioinformática. Las preguntas fueron elaboradas por expertos en el campo basándose en conjuntos de datos reales (secuenciación de ADN/RNA, proteómica, metabolómica, etc.), y las respuestas provienen de atributos objetivos de los datos o metadatos validados experimentalmente, sin depender del juicio subjetivo de los investigadores. Preguntas típicas incluyen: determinar qué gen fue eliminado en un grupo experimental a partir de datos de RNA-seq, o inferir relaciones parentales a partir de datos de secuenciación del genoma completo. El entorno de evaluación proporciona a Claude un contenedor con herramientas de bioinformática preinstaladas, que pueden ser complementadas con instalaciones mediante pip y conda, y acceso a bases de datos públicas como NCBI y Ensembl para descargar genomas de referencia. Solo se evalúa la respuesta final, sin limitar el camino de análisis. De las 99 preguntas, 76 fueron respondidas correctamente por al menos un experto humano (resolubles por humanos), mientras que las 23 restantes no fueron resueltas por hasta 5 expertos en el campo (difíciles para humanos). En las preguntas resolubles por humanos, Claude Opus 4.6 alcanzó una precisión del 77.4%, con Mythos Preview mejorando aún más. En las 23 preguntas difíciles para humanos, modelos como Sonnet 4.6 y otros más potentes lograron resolver una proporción significativa, alcanzando un 30% Mythos Preview. El análisis de trayectorias muestra que Claude emplea principalmente dos estrategias: una, invocar conocimientos internalizados en los datos de entrenamiento, realizando razonamientos que normalmente requerirían meta-análisis humano; y dos, en situaciones de incertidumbre, ejecutar múltiples métodos de análisis simultáneamente y tomar la intersección de las cadenas de evidencia. El análisis de confiabilidad revela una diferencia sutil: en preguntas resolubles por humanos, el 86% de las respuestas correctas de Opus 4.6 en al menos 4 de 5 intentos muestran estabilidad; en preguntas difíciles, esta proporción cae al 44%, y la mitad de las respuestas correctas solo se obtienen en 1 o 2 de 5 intentos, pareciendo más una coincidencia en una ruta de razonamiento. La diferencia en precisión refleja mejor la frontera de capacidades que la mera confiabilidad. Genentech y Roche lanzaron simultáneamente CompBioBench, con un diseño similar (100 preguntas de biología computacional), en el que Claude Opus 4.6 logró un rendimiento general del 81% y del 69% en las preguntas más difíciles, corroborando las conclusiones de BioMysteryBench. (Fuente: BlockBeats)

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado