4.760 milestones feed in, predicting new discoveries is still at a coin flip level.


Even with strong mechanistic reasoning, when faced with unknown fields without standard answers, it's still clueless.
Ver original
CoinNetwork
A IA ainda não pode atuar como cientista autônomo, a avaliação CUSP revela que os grandes modelos carecem de visão de pesquisa prospectiva
Stanford/Oxford/Allen AI Institute lançou o benchmark de sequências temporais CUSP, que avalia a capacidade da IA de prever avanços científicos. Testes com GPT-5.4, Claude Sonnet 4.5, DeepSeek R1 e outros mostraram bom desempenho na compreensão dos mecanismos por trás das rotas tecnológicas existentes, mas a previsão de novas descobertas quase se assemelha ao acaso, além de haver um atraso sistemático no tempo de avanço. O CUSP é atualizado com conhecimentos temporais, organizando os avanços de ponta de Nature/Science, abrangendo 4.760 marcos e 17.429 tarefas. A conclusão é que, na exploração científica sem respostas padrão, os modelos atuais não conseguem fornecer previsões confiáveis.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado