Anthropic lança BioMysteryBench: questões biológicas que 5 especialistas não conseguem responder, Claude Mythos consegue resolver 30%

robot
Geração de resumo em curso

AIMPACT mensagem, 30 de abril (UTC+8), segundo o monitoramento do Beating da Dongcha, a Anthropic lançou o BioMysteryBench, um conjunto de 99 questões de avaliação de referência em bioinformática.
As questões foram elaboradas por especialistas do setor com base em conjuntos de dados reais (sequenciamento de DNA/RNA, proteômica, metabolômica, etc.), e as respostas vêm de atributos objetivos dos dados ou metadados validados por experimentos, sem depender do julgamento subjetivo dos pesquisadores.
Questões típicas incluem: determinar qual gene foi knock-out em um experimento com base em dados de RNA-seq, ou inferir relações parentais a partir de dados de sequenciamento de genoma completo.
O ambiente de avaliação fornece ao Claude um contêiner pré-carregado com ferramentas comuns de bioinformática, que podem ser instaladas via pip e conda, e permite acesso a bancos de dados públicos como NCBI e Ensembl para baixar genomas de referência, avaliando apenas a resposta final, sem limitar o caminho de análise.
Das 99 questões, 76 têm pelo menos um especialista humano que respondeu corretamente (resolvíveis por humanos), enquanto as restantes 23 não foram resolvidas por até 5 especialistas do setor (difícil para humanos).
Para as questões resolvíveis por humanos, o Claude Opus 4.6 atingiu uma precisão de 77,4%, com o Mythos Preview melhorando ainda mais.
Nas 23 questões difíceis para humanos, o Sonnet 4.6 e modelos mais avançados conseguiram resolver uma proporção significativa, com o Mythos Preview atingindo 30%.
Análises de trajetória mostram que o Claude emprega duas estratégias principais: uma é usar o conhecimento internalizado nos dados de treinamento, realizando raciocínios que normalmente requereriam meta-análise humana; a outra é executar múltiplos métodos de análise simultaneamente quando há incerteza, e usar a interseção das várias evidências.
A análise de confiabilidade revela uma diferença sutil: nas questões resolvíveis por humanos, 86% das respostas corretas do Opus 4.6 estavam corretas em pelo menos 4 de 5 tentativas, demonstrando estabilidade; nas questões difíceis, essa proporção cai para 44%, com quase metade das respostas corretas sendo obtidas apenas 1 ou 2 vezes em 5 tentativas, parecendo mais uma coincidência de seguir uma rota de raciocínio.
Por trás da diferença na precisão, a disparidade na confiabilidade explica melhor onde estão os limites de capacidade.
A Genentech e a Roche lançaram simultaneamente o CompBioBench, com 100 questões de biologia computacional, com ideias de design semelhantes; o Claude Opus 4.6 obteve uma taxa geral de 81% e 69% nas questões mais difíceis, corroborando as conclusões do BioMysteryBench.
(Fonte: BlockBeats)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar