BioMysteryBench lançado: 99 questões reais de bioinformática, 76 podem ser resolvidas por humanos, 23 são problemas difíceis para a humanidade. Claude Opus 4.6 tem uma taxa de acerto de 77,4% nas questões resolvíveis, com pelo menos 4 acertos em 5 tentativas, 86%, e 44% em questões difíceis. Mythos Preview mostra melhorias significativas em questões difíceis, com cerca de 30% de resolução. Duas estratégias: raciocínio interno entre artigos e análise paralela múltipla para obter cadeia de evidências. O CompBioBench da Genentech/Roche também apresenta uma taxa geral de 81% para Opus 4.6, e 69% nas mais difíceis, concordando com as conclusões do BioMysteryBench.

MeNews

2026-04-30 07:40:17

Geração de resumo em curso

AIMPACT mensagem, 30 de abril (UTC+8), segundo o monitoramento do Beating da Dongcha, a Anthropic lançou o BioMysteryBench, um conjunto de 99 questões de avaliação de referência em bioinformática.
As questões foram elaboradas por especialistas do setor com base em conjuntos de dados reais (sequenciamento de DNA/RNA, proteômica, metabolômica, etc.), e as respostas vêm de atributos objetivos dos dados ou metadados validados por experimentos, sem depender do julgamento subjetivo dos pesquisadores.
Questões típicas incluem: determinar qual gene foi knock-out em um experimento com base em dados de RNA-seq, ou inferir relações parentais a partir de dados de sequenciamento de genoma completo.
O ambiente de avaliação fornece ao Claude um contêiner pré-carregado com ferramentas comuns de bioinformática, que podem ser instaladas via pip e conda, e permite acesso a bancos de dados públicos como NCBI e Ensembl para baixar genomas de referência, avaliando apenas a resposta final, sem limitar o caminho de análise.
Das 99 questões, 76 têm pelo menos um especialista humano que respondeu corretamente (resolvíveis por humanos), enquanto as restantes 23 não foram resolvidas por até 5 especialistas do setor (difícil para humanos).
Para as questões resolvíveis por humanos, o Claude Opus 4.6 atingiu uma precisão de 77,4%, com o Mythos Preview melhorando ainda mais.
Nas 23 questões difíceis para humanos, o Sonnet 4.6 e modelos mais avançados conseguiram resolver uma proporção significativa, com o Mythos Preview atingindo 30%.
Análises de trajetória mostram que o Claude emprega duas estratégias principais: uma é usar o conhecimento internalizado nos dados de treinamento, realizando raciocínios que normalmente requereriam meta-análise humana; a outra é executar múltiplos métodos de análise simultaneamente quando há incerteza, e usar a interseção das várias evidências.
A análise de confiabilidade revela uma diferença sutil: nas questões resolvíveis por humanos, 86% das respostas corretas do Opus 4.6 estavam corretas em pelo menos 4 de 5 tentativas, demonstrando estabilidade; nas questões difíceis, essa proporção cai para 44%, com quase metade das respostas corretas sendo obtidas apenas 1 ou 2 vezes em 5 tentativas, parecendo mais uma coincidência de seguir uma rota de raciocínio.
Por trás da diferença na precisão, a disparidade na confiabilidade explica melhor onde estão os limites de capacidade.
A Genentech e a Roche lançaram simultaneamente o CompBioBench, com 100 questões de biologia computacional, com ideias de design semelhantes; o Claude Opus 4.6 obteve uma taxa geral de 81% e 69% nas questões mais difíceis, corroborando as conclusões do BioMysteryBench.
(Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WCTCTradingKingPK
398.29K Popularidade
#
#FedHoldsRateButDividesDeepen
19K Popularidade
#
IsraelStrikesIranBTCPlunges
36.48K Popularidade
#
#DailyPolymarketHotspot
722.05K Popularidade
#
BitcoinSpotVolumeNewLow
162.66M Popularidade

Fixar

Anthropic lança BioMysteryBench: questões biológicas que 5 especialistas não conseguem responder, Claude Mythos consegue resolver 30%

Tópicos em destaque

WCTCTradingKingPK

#FedHoldsRateButDividesDeepen

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinSpotVolumeNewLow

Fixar