O teste de referência SOOHAK revela deficiências nos modelos de IA: a capacidade de identificar problemas matemáticos sem solução não ultrapassa 50%

robot
Geração de resumo em curso
AIMPACT mensagem, 17 de maio (UTC+8), o novo teste de referência matemática de IA SOOHAK, criado pela aliança de matemáticos de 64 bits, revelou deficiências críticas nos modelos de IA.
Este teste inclui 439 tarefas de escrita manual, das quais 99 foram deliberadamente projetadas como sem solução.
O Google Gemini 3 Pro lidera em questões de nível de pesquisa, atingindo uma precisão de 30%, mas nenhum modelo consegue superar 50% na identificação de tarefas sem solução.
Descobriu-se que mais recursos computacionais podem melhorar a capacidade do modelo de resolver problemas, mas não aumentam sua habilidade de reconhecer problemas sem solução.
O SOOHAK visa quantificar a disparidade entre os poucos resultados notáveis de IA e as habilidades de pesquisa amplas que o sistema ainda carece de desenvolver.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado