Mythos 5 faz com que o doutor geral alcance os especialistas de ponta, mas ainda não possa se tornar um cientista autônomo

De acordo com o monitoramento Beating, a Anthropic revelou nos sistemas Claude Fable 5 e Claude Mythos 5 que o Mythos 5 demonstra uma forte capacidade de assistência especializada na avaliação de biossegurança. Em um exercício de equipe vermelha de patologia vegetal, seis doutores em biologia foram pareados com especialistas em grandes modelos, usando o Mythos 5 para projetar uma solução de resistência biológica ponta a ponta contra um patógeno agrícola artificial hipotético. Destas equipes, três incluíam especialistas em patologia vegetal, enquanto as outras três eram compostas por doutores em microbiologia geral. Os resultados mostraram que, em 16 horas, duas equipes de doutores gerais superaram todas as três equipes de especialistas em termos de qualidade científica e viabilidade. A avaliação dos especialistas estima que, sem ferramentas de IA, a elaboração dessas estratégias e protocolos de implementação normalmente levaria de 40 a 95 dias úteis, com uma média de aproximadamente 72,5 dias úteis. A Anthropic considera isso uma das evidências mais fortes de que o Mythos 5 está próximo do limiar de risco CB-2, indicando que o modelo já consegue fornecer suporte de conhecimento de domínio próximo ao de especialistas de nível mundial para algumas tarefas. Mas isso não significa que o Mythos 5 seja capaz de realizar pesquisas de ponta de forma autônoma. A Anthropic também aponta que o modelo ainda depende da triagem de ideias por humanos, possui uma capacidade de concepção aberta relativamente fraca, tende a recompor literatura existente em esquemas complexos, mas raramente propõe rotas realmente inovadoras; além disso, tende a seguir a estrutura de erro fornecida pelo usuário, mesmo ao detectar falhas na proposta, podendo continuar a execução. Essa avaliação também ressoa com o padrão de previsão científica CUSP. O CUSP cobre 4.760 eventos científicos, avaliando a capacidade do modelo de julgar a viabilidade do progresso científico, identificar mecanismos, gerar planos e prever tempos. Os resultados mostram que o GPT-5.4 alcançou 81,9% na identificação de mecanismos em questões de múltipla escolha, enquanto o Claude S4.5 atingiu 72,4%. No entanto, na tarefa de classificação binária sobre se o progresso científico realmente se concretizará, a precisão dos modelos foi de apenas 45,3% a 51,9%, próxima de um palpite aleatório. Em outras palavras, os grandes modelos atuais já são bons em completar etapas locais de pesquisa, mas ainda não são confiáveis para julgar quais rotas científicas terão sucesso de fato.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado