4.760 milestones feed in, predicting new discoveries is still at a coin flip level.


Even with strong mechanistic reasoning, encountering unknown fields without standard answers still leaves you guessing.
Ver original
CoinNetwork
A IA ainda não pode atuar como cientista autónomo, a avaliação CUSP revela que os grandes modelos carecem de visão de investigação prospectiva
Stanford/Oxford/Allen AI Institute lançou o benchmark de sequências temporais CUSP, para avaliar a capacidade da IA de prever avanços científicos. Testes com GPT-5.4, Claude Sonnet 4.5, DeepSeek R1, entre outros, mostraram bom desempenho na compreensão dos mecanismos por trás das tecnologias existentes, mas a previsão de novas descobertas é quase aleatória, e há um atraso sistemático na previsão de avanços. O CUSP é baseado em conhecimentos temporais, organizando os avanços de ponta em Nature/Science, abrangendo 4.760 marcos e 17.429 tarefas. A conclusão é que, na exploração científica sem respostas padrão, os modelos atuais não conseguem fornecer previsões confiáveis.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado