BioMysteryBench Publicado: 99 preguntas reales de bioinformática, 76 pueden ser resueltas, 23 son problemas difíciles para los humanos. Claude Opus 4.6 tiene una precisión del 77.4% en las preguntas resolubles, al menos 4 de cada 5 correctas en 5 intentos (86%), y un 44% en problemas difíciles. Mythos Preview muestra una mejora significativa en problemas difíciles, con aproximadamente un 30% de resolución en preguntas difíciles. Dos estrategias: razonamiento interno entre artículos y análisis paralelo múltiple para recopilar cadenas de evidencia. El CompBioBench de Genentech/Roche también reporta un 81% en general y un 69% en los más difíciles con Opus 4.6, en línea con las conclusiones de BioMysteryBench.

MeNews

2026-04-30 07:40:17

Generación de resúmenes en curso

AIMPACT Mensaje, 30 de abril (UTC+8), según la monitorización de Beating de Dongcha, Anthropic lanzó BioMysteryBench, un conjunto de 99 preguntas de evaluación de referencia en bioinformática. Las preguntas fueron elaboradas por expertos en el campo basándose en conjuntos de datos reales (secuenciación de ADN/RNA, proteómica, metabolómica, etc.), y las respuestas provienen de atributos objetivos de los datos o metadatos validados experimentalmente, sin depender del juicio subjetivo de los investigadores. Preguntas típicas incluyen: determinar qué gen fue eliminado en un grupo experimental a partir de datos de RNA-seq, o inferir relaciones parentales a partir de datos de secuenciación del genoma completo. El entorno de evaluación proporciona a Claude un contenedor con herramientas de bioinformática preinstaladas, que pueden ser complementadas con instalaciones mediante pip y conda, y acceso a bases de datos públicas como NCBI y Ensembl para descargar genomas de referencia. Solo se evalúa la respuesta final, sin limitar el camino de análisis. De las 99 preguntas, 76 fueron respondidas correctamente por al menos un experto humano (resolubles por humanos), mientras que las 23 restantes no fueron resueltas por hasta 5 expertos en el campo (difíciles para humanos). En las preguntas resolubles por humanos, Claude Opus 4.6 alcanzó una precisión del 77.4%, con Mythos Preview mejorando aún más. En las 23 preguntas difíciles para humanos, modelos como Sonnet 4.6 y otros más potentes lograron resolver una proporción significativa, alcanzando un 30% Mythos Preview. El análisis de trayectorias muestra que Claude emplea principalmente dos estrategias: una, invocar conocimientos internalizados en los datos de entrenamiento, realizando razonamientos que normalmente requerirían meta-análisis humano; y dos, en situaciones de incertidumbre, ejecutar múltiples métodos de análisis simultáneamente y tomar la intersección de las cadenas de evidencia. El análisis de confiabilidad revela una diferencia sutil: en preguntas resolubles por humanos, el 86% de las respuestas correctas de Opus 4.6 en al menos 4 de 5 intentos muestran estabilidad; en preguntas difíciles, esta proporción cae al 44%, y la mitad de las respuestas correctas solo se obtienen en 1 o 2 de 5 intentos, pareciendo más una coincidencia en una ruta de razonamiento. La diferencia en precisión refleja mejor la frontera de capacidades que la mera confiabilidad. Genentech y Roche lanzaron simultáneamente CompBioBench, con un diseño similar (100 preguntas de biología computacional), en el que Claude Opus 4.6 logró un rendimiento general del 81% y del 69% en las preguntas más difíciles, corroborando las conclusiones de BioMysteryBench. (Fuente: BlockBeats)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
WCTCTradingKingPK
398.29K Popularidad
#
#FedHoldsRateButDividesDeepen
19K Popularidad
#
IsraelStrikesIranBTCPlunges
36.48K Popularidad
#
#DailyPolymarketHotspot
722.05K Popularidad
#
BitcoinSpotVolumeNewLow
162.66M Popularidad

Anclado

Anthropic lanza BioMysteryBench: preguntas biológicas que ningún experto puede responder, Claude Mythos puede resolver el 30%

Temas de actualidad

WCTCTradingKingPK

#FedHoldsRateButDividesDeepen

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinSpotVolumeNewLow

Anclado