DeepSeek V4 alcança pontuação perfeita de 120 no Putnam-2025, igualando o Axiom em raciocínio matemático formal

De acordo com o monitoramento da Dongcha Beating, o DeepSeek V4 lançou dois conjuntos de avaliações formais de raciocínio matemático. A Competição Putnam é a competição de matemática de graduação de mais alto nível na América do Norte. No Regime Prático, o V4-Flash-Max marcou 81,00 pontos no benchmark Putnam-200 Pass@8, utilizando a ferramenta de código aberto LeanExplore e amostragem restrita. Em comparação, o Seed-2.0-Prover marcou 35,50, enquanto tanto o Gemini 3 Pro quanto o Seed-1.5-Prover marcaram 26,50. No Regime Fronteira, o V4 empregou uma abordagem híbrida de raciocínio formal-informal, inicialmente gerando soluções candidatas em linguagem natural por raciocínio informal, que foram então filtradas por auto-validação antes de serem rigorosamente provadas por um agente formal em Lean. O V4 alcançou uma pontuação perfeita de 120/120 na Putnam-2025, empatando em primeiro lugar com Axiom, e superando a pontuação do Seed-1.5-Prover de 110/120 e a pontuação de Aristotle de 100/120. O Regime Fronteira utilizou extensões computacionais em grande escala, enquanto os resultados no Regime Prático refletem melhor as capacidades de implantação convencionais.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar