DeepMind Lança Assistente de Pesquisa em Matemática com IA: Estrutura Multi-Agente Supera GPT-5.5 Pro e Resolve Problemas Anteriormente Insolúveis

De acordo com o monitoramento da Dongcha Beating, o Google DeepMind lançou um co-matemático de IA, uma plataforma de pesquisa interativa para matemáticos que utiliza uma arquitetura multiagente. O sistema atingiu uma taxa de precisão de 47,9% no benchmark de matemática de nível de pesquisa mais desafiador atualmente, o FrontierMath Tier 4 (resolvendo 23 de 48 problemas), superando diretamente o recorde anterior de 39,6% estabelecido pelo GPT-5.5 Pro. Este sistema não utilizou um modelo de base de próxima geração, mas sim o Gemini 3.1 Pro. O próprio modelo obteve apenas 19% de precisão no Tier 4, mas com a adição da estrutura de agentes, seu desempenho mais que dobrou. A DeepMind equipou-o com uma arquitetura de múltiplas camadas: no nível superior, um ‘coordenador de projeto’ divide tarefas de pesquisa em múltiplos fluxos de trabalho, que são então distribuídos para subagentes responsáveis por recuperação de literatura, codificação e raciocínio. As provas geradas devem passar por um processo de revisão por múltiplos ‘agentes de revisão’ antes de serem submetidas. Essa estrutura pesada demonstra que as capacidades incrementais extraídas por meio da orquestração podem potencialmente superar aquelas obtidas apenas com a atualização de modelos em raciocínio matemático de alto nível. O teste às cegas foi conduzido pela Epoch AI, e para evitar trapaças, a equipe do DeepMind não viu as perguntas durante todo o processo, com cada questão permitida a rodar por 48 horas. Os resultados não apenas lideraram a classificação, mas também resolveram três problemas que anteriormente haviam confundido todos os modelos. Embora seja referido como um assistente, ele funciona mais como um colega criativo. O especialista em teoria de grupos Marc Lackenby o utilizou em uma pesquisa real para resolver uma conjectura pública do caderno Kourovka. Curiosamente, a estratégia inicial proposta pelo sistema foi marcada como ‘falha’ pelo próprio agente de revisão, mas Lackenby reconheceu a ideia inteligente escondida na proposta rejeitada, preencheu as lacunas ele mesmo e, por fim, completou a prova. Atualmente, o co-matemático de IA está disponível apenas para testes internos por um número limitado de matemáticos.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar