DeepSeek V4 logra una puntuación perfecta de 120 en Putnam-2025, igualando a Axiom en razonamiento matemático formal

Según la monitorización de Dongcha Beating, DeepSeek V4 ha lanzado dos conjuntos de evaluaciones formales de razonamiento matemático. La Competencia Putnam es la competencia de matemáticas de pregrado de mayor nivel en Norteamérica. En el Régimen Práctico, V4-Flash-Max obtuvo 81.00 puntos en el benchmark Putnam-200 Pass@8, utilizando la herramienta de código abierto LeanExplore y muestreo restringido. En comparación, Seed-2.0-Prover obtuvo 35.50, mientras que Gemini 3 Pro y Seed-1.5-Prover obtuvieron 26.50. En el Régimen Fronterizo, V4 empleó un enfoque híbrido de razonamiento formal e informal, generando inicialmente soluciones candidatas en lenguaje natural mediante razonamiento informal, que luego fueron filtradas mediante auto-validación antes de ser rigurosamente probadas por un agente formal en Lean. V4 logró una puntuación perfecta de 120/120 en Putnam-2025, empatando en primer lugar con Axiom, y superando la puntuación de Seed-1.5-Prover de 110/120 y la de Aristotle de 100/120. El Régimen Fronterizo utilizó extensiones computacionales a gran escala, mientras que los resultados en el Régimen Práctico reflejan mejor las capacidades de despliegue convencional.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado