DeepMind lanza asistente de investigación en matemáticas con IA: marco multiagente supera a GPT-5.5 Pro y resuelve problemas previamente irresolubles

Según la monitorización de Dongcha Beating, Google DeepMind ha lanzado un co-matemático de IA, una plataforma de investigación interactiva para matemáticos que utiliza una arquitectura multi-agente. El sistema logró una tasa de precisión del 47,9% en el actualmente más desafiante benchmark de matemáticas a nivel de investigación, FrontierMath Tier 4 (resolviendo 23 de 48 problemas), superando directamente el récord anterior del 39,6% establecido por GPT-5.5 Pro. Este sistema no utilizó un modelo base de próxima generación, sino que empleó Gemini 3.1 Pro. El propio modelo alcanzó solo un 19% de precisión en Tier 4, pero con la adición del marco de agentes, su rendimiento se más que duplicó. DeepMind lo equipó con una arquitectura de múltiples capas: en el nivel superior, un ‘coordinador de proyectos’ descompone las tareas de investigación en múltiples flujos de trabajo, que luego se distribuyen a sub-agentes responsables de recuperación de literatura, codificación y razonamiento. Las pruebas de las pruebas generadas deben pasar por un proceso de revisión por múltiples ‘agentes revisores’ antes de poder ser enviadas. Esta estructura robusta demuestra que las capacidades incrementales extraídas mediante la orquestación pueden potencialmente superar las obtenidas al actualizar modelos en razonamiento matemático de alto nivel. La prueba a ciegas fue realizada por Epoch AI, y para evitar trampas, el equipo de DeepMind no vio las preguntas durante todo el proceso, permitiendo que cada pregunta se ejecutara durante 48 horas. Los resultados no solo encabezaron la tabla de clasificación, sino que también resolvieron tres problemas que previamente habían desconcertado a todos los modelos. Aunque se le refiere como asistente, funciona más como un colega creativo. El experto en teoría de grupos Marc Lackenby lo utilizó en una investigación real para resolver una conjetura pública del cuaderno de Kourovka. Curiosamente, la estrategia inicial propuesta por el sistema fue marcada como ‘defectuosa’ por su propio agente revisor, pero Lackenby reconoció la idea ingeniosa oculta en la propuesta rechazada, llenó los vacíos él mismo y finalmente completó la demostración. Actualmente, el co-matemático de IA solo está disponible para pruebas internas por un número limitado de matemáticos.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado