De acordo com o monitoramento Beating, a Google DeepMind lançou um co-matemático de IA, uma plataforma de pesquisa interativa multi-agente para matemáticos.
Este sistema obteve uma precisão de 47,9% na mais difícil referência de matemática de pesquisa, FrontierMath Tier 4 (resolvendo 23/48 questões), superando o recorde anterior de GPT-5.5 Pro de 39,6%.
Este sistema não utilizou uma nova geração de base, usando diretamente o Gemini 3.1 Pro.
Este modelo, rodando sozinho no Tier 4, alcançava apenas 19%, mas com a adição da estrutura de agentes, o desempenho dobrou e mais.
A DeepMind montou uma arquitetura em múltiplas camadas: no topo, um “coordenador de projeto” divide as tarefas de pesquisa em vários fluxos de trabalho, que são distribuídos para sub-agentes responsáveis por busca de literatura, codificação e raciocínio.
As provas geradas ainda passam por uma rodada de avaliação por vários “agentes revisores”, e só podem ser submetidas após aprovação.
Este sistema robusto demonstra que, na alta matemática de raciocínio, a capacidade de organização pode gerar incrementos de desempenho maiores do que a substituição por modelos de nova geração.
A avaliação cega foi realizada pela Epoch AI, e para evitar trapaças, a equipe da DeepMind não viu as questões durante todo o processo, permitindo até 48 horas por questão.
O sistema não só alcançou o topo, como também resolveu três questões que todos os modelos anteriores não conseguiram.
Embora seja chamado de assistente, ele funciona mais como um colega criativo.
O especialista em teoria de grupos, Marc Lackenby, usou-o na pesquisa prática para resolver uma conjectura aberta na Notas de Kourovka.
Curiosamente, a estratégia inicial sugerida pelo sistema foi marcada como “defeituosa” pelo seu próprio agente de revisão, mas Lackenby percebeu a ideia engenhosa escondida na proposta inválida, completando a prova por conta própria.
Atualmente, o co-matemático de IA está disponível em fase de testes apenas para um pequeno grupo de matemáticos.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
GateSquareMayTradingShare
979.87K Popularidade
#
BTCBackAbove80K
59.43M Popularidade
#
IsraelStrikesIranBTCPlunges
45.46K Popularidade
#
JapanTokenizesGovernmentBonds
1.9M Popularidade
#
#DailyPolymarketHotspot
864.84K Popularidade

Fixar

DeepMind lança assistente de pesquisa em matemática com IA: arquitetura de múltiplos agentes supera GPT-5.5Pro e resolve anteriormente o problema "intratável"

Tópicos em destaque

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Fixar