O teste de referência SOOHAK revela deficiências nos modelos de IA: a capacidade de identificar problemas matemáticos sem solução não ultrapassa 50%

robot
Geração de resumo em curso

AIMPACT mensagem, 17 de maio (UTC+8), o novo teste de referência matemática de IA SOOHAK, criado pela aliança de matemáticos de 64 bits, revelou deficiências críticas nos modelos de IA.
O teste inclui 439 tarefas de escrita manual, das quais 99 foram deliberadamente projetadas como sem solução.
O Google Gemini 3 Pro lidera em questões de nível de pesquisa, atingindo uma precisão de 30%, mas nenhum modelo consegue superar 50% na identificação de tarefas sem solução.
Pesquisas mostram que mais recursos computacionais podem melhorar a capacidade do modelo de resolver problemas, mas não aumentam sua habilidade de reconhecer que um problema não tem solução.
SOOHAK visa quantificar a disparidade entre os poucos resultados notáveis de IA e as habilidades de pesquisa ainda ausentes na maioria dos sistemas.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado