Investigador de Microsoft destaca en la evaluación propia de Perplexity: revisión de modelo dual en Frontier, Cowork lanza Long Task Agent

robot
Generación de resúmenes en curso

Según la monitorización de 1M AI News, Microsoft ha lanzado simultáneamente dos nuevas capacidades para Microsoft 365 Copilot a través de Frontier (un programa de pruebas previo al lanzamiento para usuarios empresariales que permite a los participantes experimentar funciones de Copilot antes de que se lancen oficialmente). El investigador (el agente integrado de investigación profunda de Copilot) ha introducido dos nuevos modos de colaboración entre múltiples modelos: Critique y Council. Critique colabora con modelos de Anthropic y OpenAI: uno se encarga de planificar, recuperar y redactar, mientras que el otro se especializa en revisar y refinar, con Auto habilitado de forma predeterminada. Council funciona de manera similar con ambos modelos generando informes completos, que luego son resumidos por un modelo de revisión independiente. Microsoft utiliza GPT-5.2 como modelo de evaluación (el más estricto entre los tres métodos de evaluación del documento original) para probar Critique en el benchmark DRACO (que comprende 100 preguntas complejas de investigación en 10 campos publicadas por investigadores de Perplexity). La puntuación general fue 7.0 puntos superior al mejor sistema del benchmark, Perplexity Deep Research (que utiliza Claude Opus 4.6), lo que representa una mejora relativa del 13.88%. Critique no se incluyó en el documento original de DRACO, y estos datos fueron obtenidos por Microsoft mediante pruebas internas bajo el mismo protocolo de evaluación. Copilot Cowork está orientado a tareas más largas de varios pasos: primero genera un plan en función de los objetivos y luego avanza paso a paso a través de herramientas y documentos, mostrando el progreso durante todo el proceso, lo que permite a los usuarios intervenir en cualquier momento. Microsoft ha citado a Capital Group como un caso de uso temprano, indicando que se ha utilizado para la planificación de proyectos, la programación, la creación de entregables y la preparación de revisiones ejecutivas.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado