Anthropic lança BioMysteryBench: questões biológicas que 5 especialistas não conseguem responder, Claude Mythos consegue resolver 30%

robot
Geração do resumo em andamento
AIMPACT mensagem, 30 de abril (UTC+8), de acordo com o monitoramento do Beating da Dongcha, a Anthropic lançou o BioMysteryBench, um conjunto de 99 questões de avaliação de referência em bioinformática. As questões foram elaboradas por especialistas do setor com base em conjuntos de dados reais (sequenciamento de DNA/RNA, proteômica, metabolômica, etc.), e as respostas vêm de atributos objetivos dos dados ou metadados validados por experimentos, sem depender do julgamento subjetivo dos pesquisadores. Questões típicas incluem: determinar qual gene foi knock-out em um experimento com base em dados de RNA-seq, ou inferir relações parentais a partir de dados de sequenciamento de genoma completo. O ambiente de avaliação fornece ao Claude um contêiner pré-instalado com ferramentas comuns de bioinformática, que podem ser instaladas por pip e conda, além de acesso a bancos de dados públicos como NCBI e Ensembl para baixar genomas de referência, avaliando apenas a resposta final, sem limitar o caminho de análise. Das 99 questões, 76 têm pelo menos um especialista humano que respondeu corretamente (resolvíveis por humanos), enquanto as restantes 23 não foram resolvidas por até 5 especialistas do setor (difícil para humanos). Nos problemas resolvíveis por humanos, o Claude Opus 4.6 atingiu uma precisão de 77,4%, com Mythos Preview melhorando ainda mais. Nas 23 questões difíceis para humanos, modelos como Sonnet 4.6 e superiores conseguiram resolver uma proporção significativa, com Mythos Preview atingindo 30%. Análises de trajetória mostram que o Claude emprega duas estratégias principais: uma é usar o conhecimento internalizado de múltiplos artigos durante o treinamento para fazer inferências que normalmente requereriam meta-análise humana; a outra é executar várias análises simultaneamente quando há incerteza, e usar a interseção de múltiplas evidências. A análise de confiabilidade revelou uma diferença sutil: nas questões resolvíveis por humanos, 86% das respostas corretas do Opus 4.6 estavam corretas em pelo menos 4 de 5 tentativas, demonstrando estabilidade; nas questões difíceis, essa proporção caiu para 44%, com quase metade das respostas corretas ocorrendo apenas 1 ou 2 vezes em 5 tentativas, parecendo mais uma coincidência de seguir uma rota de raciocínio. Por trás da diferença na precisão, a disparidade na confiabilidade revela melhor onde estão os limites de capacidade. A Genentech e a Roche lançaram simultaneamente o CompBioBench, com 100 questões de biologia computacional, com ideias de design semelhantes; o Claude Opus 4.6 obteve uma taxa geral de 81% e 69% nas questões mais difíceis, corroborando as conclusões do BioMysteryBench. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado