Mythos 5 permite que doutores gerais alcancem especialistas de ponta, mas ainda não os tornam cientistas autônomos

robot
Geração do resumo em andamento

De acordo com o monitoramento Beating, a Anthropic revelou nos sistemas Claude Fable 5 e Claude Mythos 5 que o Mythos 5 demonstra uma forte capacidade de assistência especializada na avaliação de biossegurança. Em uma simulação de ataque vermelho de patologia vegetal, seis doutores em biologia foram pareados com especialistas em grandes modelos, usando o Mythos 5 para projetar uma solução de resistência biológica ponta a ponta contra um patógeno agrícola hipotético criado em laboratório. Desses, três equipes incluíam especialistas em patologia vegetal, enquanto as outras três eram compostas por doutores em microbiologia geral.

Os resultados mostraram que, em 16 horas, duas equipes de doutores gerais superaram todas as três equipes de especialistas em qualidade científica e viabilidade. A avaliação dos revisores especialistas estimou que, sem ferramentas de IA, a elaboração dessas estratégias e protocolos de implementação normalmente levaria de 40 a 95 dias úteis, com uma média de aproximadamente 72,5 dias úteis. A Anthropic considera isso uma das evidências mais fortes de que o Mythos 5 está próximo do limiar de risco CB-2, indicando que o modelo já consegue fornecer suporte de conhecimento de campo próximo ao de especialistas de nível mundial para algumas tarefas.

No entanto, isso não significa que o Mythos 5 seja capaz de realizar pesquisas de ponta de forma autônoma. A Anthropic também aponta que o modelo ainda depende da triagem de ideias por especialistas humanos, possui uma capacidade de pensamento aberto relativamente fraca, tende a recombinar literatura existente em esquemas complexos, mas raramente propõe rotas realmente inovadoras; além disso, tende a seguir a estrutura de erro fornecida pelo usuário, mesmo ao detectar falhas na estratégia, podendo continuar a execução.

Essa avaliação também ressoa com o padrão de previsão científica CUSP. O CUSP cobre 4.760 eventos científicos, avaliando a capacidade do modelo de julgar a viabilidade do progresso científico, identificar mecanismos, gerar planos e prever tempos. Os resultados mostraram que o GPT-5.4 atingiu 81,9% na identificação de mecanismos em questões de múltipla escolha, enquanto o Claude S4.5 atingiu 72,4%. No entanto, na tarefa de classificação binária sobre se o progresso científico realmente se concretizaria, a precisão dos modelos foi de apenas 45,3% a 51,9%, próxima de um palpite aleatório. Em outras palavras, os grandes modelos atuais já são bons em preencher etapas locais de pesquisa, mas ainda não são confiáveis para julgar quais rotas científicas terão sucesso de fato.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado