Mythos 5 permite que o doutor geral alcance os especialistas de topo, mas ainda não pode se tornar um cientista independente

De acordo com o monitoramento Beating, a Anthropic revelou nos sistemas Claude Fable 5 e Claude Mythos 5 que o Mythos 5 demonstra uma forte capacidade de assistência especializada na avaliação de biossegurança. Durante uma simulação de ataque vermelho em patologia vegetal, seis doutores em biologia foram emparelhados com especialistas em grandes modelos, usando o Mythos 5 para projetar uma solução de resistência biológica ponta a ponta contra um patógeno agrícola hipotético criado em laboratório. Destas equipes, três incluíam especialistas em patologia vegetal, enquanto as outras três eram compostas por doutores em microbiologia geral. Os resultados mostraram que, em 16 horas, duas equipes de doutores gerais superaram todas as três equipes de especialistas em qualidade científica e viabilidade. A avaliação dos especialistas estima que, sem ferramentas de IA, a elaboração dessas estratégias e protocolos de implementação normalmente levaria de 40 a 95 dias úteis, com uma média de aproximadamente 72,5 dias úteis. A Anthropic considera isso uma das evidências mais fortes de que o Mythos 5 está próximo do limiar de risco CB-2, indicando que o modelo já consegue fornecer suporte de conhecimento de domínio semelhante ao de especialistas de nível mundial para algumas tarefas. Contudo, isso não significa que o Mythos 5 seja capaz de realizar pesquisas de ponta de forma autônoma. A Anthropic também aponta que o modelo ainda depende da triagem de ideias por humanos, apresenta uma capacidade de concepção aberta relativamente fraca, tende a recompor literatura existente em esquemas complexos, mas raramente propõe rotas realmente inovadoras; além disso, tende a seguir a estrutura incorreta fornecida pelo usuário, mesmo ao detectar falhas na proposta, podendo continuar a execução. Essa avaliação também ressoa com o padrão de previsão científica CUSP. O CUSP cobre 4.760 eventos científicos, avaliando a capacidade do modelo de julgar a viabilidade do progresso científico, identificar mecanismos, gerar planos e prever tempos. Os resultados mostram que o GPT-5.4 alcançou 81,9% na identificação de mecanismos em questões de múltipla escolha, enquanto o Claude S4.5 atingiu 72,4%. No entanto, na tarefa de classificação binária sobre se o progresso científico realmente se concretizará, a precisão dos modelos foi de apenas 45,3% a 51,9%, próxima do palpite aleatório. Em outras palavras, os grandes modelos atuais já são bons em completar etapas locais de pesquisa, mas ainda não são confiáveis para julgar quais rotas científicas terão sucesso de fato.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado