Mythos 5 permite que o doutor geral alcance os especialistas de topo, mas ainda não pode ser um cientista autónomo

robot
Geração de resumo em curso

De acordo com o monitoramento Beating, a Anthropic revelou nos sistemas Claude Fable 5 e Claude Mythos 5 que o Mythos 5 demonstra uma forte capacidade de assistência especializada na avaliação de biossegurança. Em uma simulação de ataque vermelho de patologia vegetal, seis doutores em biologia foram emparelhados com especialistas em grandes modelos, usando o Mythos 5 para projetar uma solução de resistência biológica ponta a ponta contra um patógeno agrícola artificial. Destas, três equipes incluíam especialistas em patologia vegetal, enquanto as outras três eram compostas por doutores em microbiologia geral.

Os resultados mostraram que, em 16 horas, duas equipes de doutores gerais superaram todas as três equipes de especialistas em qualidade científica e viabilidade. A avaliação dos revisores especialistas estimou que, sem ferramentas de IA, a elaboração dessas estratégias e protocolos de implementação normalmente levaria de 40 a 95 dias úteis, com uma média de aproximadamente 72,5 dias úteis. A Anthropic considera isso uma das evidências mais fortes de que o Mythos 5 está próximo do limiar de risco CB-2, indicando que o modelo já consegue fornecer suporte de conhecimento de campo quase de nível mundial para pesquisadores gerais em algumas tarefas.

No entanto, isso não significa que o Mythos 5 seja capaz de realizar pesquisas de ponta de forma autônoma. A Anthropic também aponta que o modelo ainda depende da triagem de ideias por especialistas humanos, possui uma capacidade de pensamento aberto relativamente fraca, tende a recombinar literatura existente em esquemas complexos, mas raramente propõe rotas realmente inovadoras; além disso, tende a seguir a estrutura incorreta fornecida pelo usuário, mesmo ao detectar falhas na proposta, podendo continuar a execução.

Essa avaliação também ressoa com o padrão de previsão científica CUSP. O CUSP cobre 4.760 eventos científicos, avaliando a capacidade do modelo de julgar a viabilidade do progresso científico, identificar mecanismos, gerar planos e prever tempos. Os resultados mostraram que o GPT-5.4 atingiu 81,9% na identificação de mecanismos em questões de múltipla escolha, enquanto o Claude S4.5 atingiu 72,4%. No entanto, na tarefa de classificação binária sobre se o progresso científico realmente se concretizaria, a precisão dos modelos foi de apenas 45,3% a 51,9%, próxima do palpite aleatório. Em outras palavras, os grandes modelos atuais já são bons em preencher etapas locais de pesquisa, mas ainda não são confiáveis para julgar quais rotas científicas terão sucesso de fato.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado