Microsoft hizo que GPT y Claude trabajaran juntos, y el resultado supera a todas las herramientas de investigación en IA existentes

Blockblind · 2026-03-30T21:58:26+00:00

En resumenMicrosoft lanzó dos modos diferentes que combinan GPT y Claude para mejorar la calidad de la investigación en IA.Critique hace que los modelos colaboren, mientras que Council hace que trabajen en paralelo mientras un tercer juez encuentra las discrepancias.Este flujo de trabajo de dos modelos corrige las alucinaciones,

Blockblind

2026-03-30 21:58:26

En resumen

Microsoft lanzó dos modos diferentes que emparejan GPT y Claude para mejorar la calidad de la investigación con IA.
Critique hace que los modelos colaboren, mientras que Council hace que trabajen en paralelo, y un tercer juez detecta las discrepancias.
Este flujo de trabajo de dos modelos corrige alucinaciones, citas débiles y otros problemas asociados con la investigación con IA de un solo modelo.

La IA de investigación profunda ha sido una de las carreras armamentísticas más candentes en tecnología este año. Google anunció su agente de investigación para Gemini en diciembre de 2024, OpenAI lanzó su propio agente de investigación en febrero de 2025, xAI hizo lo mismo, Perplexity se reafirmó y el agente de Claude de Anthropic se ganó un seguimiento leal entre profesionales que necesitan respuestas detalladas y citadas, presentando su agente en abril del año pasado.

Cada empresa ha intentado convencerte de que su único modelo de IA es el investigador más inteligente de la sala. Microsoft acaba de decir: ¿Por qué elegir uno?

La compañía anunció dos funciones nuevas el lunes para la herramienta Researcher de Copilot —llamadas Critique y Council— que ponen a trabajar en la misma tarea de investigación y en secuencia el GPT de OpenAI y el Claude de Anthropic. El resultado, según las pruebas de Microsoft contra un referente del sector, obtiene una puntuación más alta que cada sistema incluido en esa prueba, incluidos modelos de las principales compañías de IA.

Presentamos Critique, un nuevo sistema de investigación profunda multi-modelo en M365 Copilot.

Puedes usar varios modelos juntos para generar respuestas y reportes óptimos. pic.twitter.com/m4RlQmCKzs

— Satya Nadella (@satyanadella) 30 de marzo de 2026

“Critique es un nuevo sistema de investigación profunda multi modelo diseñado para tareas de investigación complejas. Separa la generación de la evaluación y utiliza una combinación de modelos de Frontier labs, incluyendo Anthropic y OpenAI”, explica Microsoft. “Un modelo lidera la fase de generación: planifica la tarea, itera a través de la recuperación y produce un borrador inicial, mientras que un segundo modelo se enfoca en revisión y refinamiento, actuando como un revisor experto antes de que se produzca el informe final.”

Este es el problema básico que Critique está diseñado para solucionar: hoy en día, cada herramienta de investigación con IA funciona de la misma manera. Haces una pregunta, un modelo planifica una búsqueda, examina fuentes, escribe un informe y te lo entrega. Ese único modelo está haciendo todo sin que nadie compruebe su trabajo.

Esto puede terminar permitiendo que se cuelen algunas alucinaciones, algunos errores en las citas, afirmaciones falsas o inexactas, etc.

Critique rompe ese flujo de trabajo en dos. GPT se encarga de la primera fase: planifica la investigación, obtiene fuentes y escribe un borrador inicial. Luego Claude entra como un editor estricto, revisando el informe por exactitud factual, calidad de las citas y si la respuesta realmente abordó lo que se pidió. Solo después de esa revisión, el informe final llega al usuario. Microsoft dice que los roles también pueden ejecutarse eventualmente en la dirección opuesta: con Claude redactando y GPT criticando, aunque por ahora GPT va primero.

En el benchmark DRACO —una prueba estandarizada que cubre 100 tareas de investigación complejas en 10 dominios, incluyendo medicina, derecho y tecnología— Copilot con Critique obtuvo 57.4 puntos. con Anthropic’s Claude Opus 4.6 por sí solo alcanzó 42.7. El sistema combinado de Microsoft supera el siguiente mejor resultado por casi un 14%.

Imagen: Microsoft

Las mayores mejoras aparecieron en la amplitud del análisis y la calidad de la presentación, y la exactitud factual también mostró una mejora significativa.

La segunda función, Council, adopta un enfoque diferente para el mismo problema. En lugar de tener un modelo revisando el trabajo del otro, Council ejecuta GPT y Claude simultáneamente y coloca sus informes completos lado a lado. Luego, un tercer modelo de “juez” lee ambos y escribe un resumen que explica dónde las dos IA estuvieron de acuerdo, dónde se diferenciaron y qué ángulos únicos captó cada una que la otra pasó por alto. Comparar manualmente herramientas de investigación con IA es algo que los usuarios han tenido que hacer por sí mismos hasta ahora.

En Critique, los modelos esencialmente colaboran entre sí, mientras que en Council los modelos compiten entre sí.

Critique es la experiencia predeterminada en Researcher, mientras que Council requiere que selecciones “Model Council” en el selector para activar el modo lado a lado. Ambas funciones están disponibles actualmente para los usuarios inscritos en el programa Frontier de Microsoft, el canal de acceso anticipado para las capacidades más recientes de Copilot. Se requiere una licencia de Microsoft 365 Copilot ($30/user/mes), pero los usuarios también deben estar inscritos en Frontier para acceder a ellas.

Imagen: Microsoft

OpenAI y Microsoft tienen una asociación multimillonaria, pero la apuesta de Microsoft es que ningún modelo único se mantendrá en la cima por mucho tiempo, y que el valor real está en la capa de orquestación que enruta las tareas hacia la combinación que funcione mejor.

Boletín Diario de Puesta al Día

Empieza cada día con las principales noticias de este momento, además de funciones originales, un podcast, videos y más.

Tu correo electrónico

¡Hazlo!

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.