A Microsoft fez o GPT e o Claude trabalharem juntos — e o resultado supera todas as ferramentas de pesquisa em IA existentes

Em resumo

  • A Microsoft lançou dois modos diferentes que combinam GPT e Claude para aumentar a qualidade da investigação em IA.
  • A Critique faz com que os modelos colaborem, enquanto a Council faz com que trabalhem em paralelo, com um terceiro juiz a identificar as discrepâncias.
  • Este fluxo de trabalho com dois modelos corrige alucinações, citações fracas e outros problemas associados à investigação em IA feita apenas com um modelo.

A IA de investigação profunda tem sido uma das corridas mais quentes em tecnologia este ano. A Google anunciou o seu agente de investigação para Gemini em dezembro de 2024, a OpenAI lançou o seu próprio agente de investigação em fevereiro de 2025, a xAI seguiu o exemplo, a Perplexity reforçou a aposta e o Claude, da Anthropic, conquistou uma base fiel entre profissionais que precisam de respostas detalhadas, com citações, ao introduzir o seu agente em abril do ano passado.

Todas as empresas têm estado a tentar convencê-lo de que o seu único modelo de IA é o investigador mais inteligente da sala. A Microsoft acabou de dizer: Por que escolher um?

A empresa anunciou duas novas funcionalidades na segunda-feira para a ferramenta Researcher do Copilot — chamadas Critique e Council — que colocam o GPT da OpenAI e o Claude da Anthropic a trabalhar na mesma tarefa de investigação em sequência. O resultado, segundo os testes da Microsoft face a um benchmark da indústria, pontua mais alto do que qualquer sistema incluído nesse teste, incluindo modelos das principais empresas de IA.

A introdução da Critique, um novo sistema de investigação profunda multi-modelo no M365 Copilot.

Pode usar vários modelos em conjunto para gerar respostas e relatórios ótimos. pic.twitter.com/m4RlQmCKzs

— Satya Nadella (@satyanadella) 30 de março de 2026

“A Critique é um novo sistema de investigação profunda multi-modelo concebido para tarefas complexas de investigação. Separa a geração da avaliação e utiliza uma combinação de modelos de laboratórios de ponta, incluindo a Anthropic e a OpenAI”, explica a Microsoft. “Um modelo lidera a fase de geração, planeia a tarefa, itera através da pesquisa e produz um rascunho inicial, enquanto um segundo modelo se foca na revisão e no refinamento, atuando como um revisor especializado antes de o relatório final ser produzido.”

Eis o problema básico que a Critique foi concebida para corrigir: Todas as ferramentas de investigação em IA funcionam hoje da mesma forma. Faz-se uma pergunta, um modelo planeia uma pesquisa, vasculha fontes, escreve um relatório e devolve-o. Esse único modelo faz tudo sem que ninguém verifique o seu trabalho.

Isto pode acabar por deixar passar algumas alucinações, alguns erros nas citações, alegações falsas ou incorretas, etc.



A Critique quebra esse fluxo de trabalho em duas partes. O GPT trata da primeira fase — planeia a investigação, recolhe fontes e escreve um rascunho inicial. Depois, o Claude entra como editor rigoroso, revendo o relatório quanto à exatidão factual, à qualidade das citações e a saber se a resposta de facto abordou o que foi pedido. Só depois dessa revisão é que o relatório final chega ao utilizador. A Microsoft diz que os papéis também podem eventualmente correr no sentido oposto, com o Claude a rascunhar e o GPT a criticar, embora, por agora, o GPT comece.

No benchmark DRACO — um teste normalizado que cobre 100 tarefas complexas de investigação em 10 áreas, incluindo medicina, direito e tecnologia — o Copilot com a Critique marcou 57,4 pontos. O Claude Opus 4,6 da Anthropic, por si só, atingiu 42,7. O sistema combinado da Microsoft supera o próximo melhor resultado em quase 14%.

Imagem: Microsoft

Os maiores ganhos apareceram na amplitude da análise e na qualidade da apresentação, com também uma melhoria significativa na exatidão factual.

A segunda funcionalidade, a Council, segue uma abordagem diferente para o mesmo problema. Em vez de ter um modelo a rever o trabalho do outro, a Council executa o GPT e o Claude em simultâneo e coloca os respetivos relatórios completos lado a lado. Depois, um terceiro modelo “juiz” lê ambos e escreve um resumo a explicar onde as duas IAs concordaram, onde divergem e que ângulos únicos cada uma captou e que a outra não conseguiu. Comparar manualmente ferramentas de investigação em IA tem sido algo que os utilizadores tiveram de fazer por si mesmos até agora.

Na Critique, os modelos essencialmente colaboram entre si, enquanto na Council os modelos competem entre si.

A Critique é a experiência predefinida no Researcher, enquanto a Council exige que selecione “Model Council” no seletor para ativar o modo lado a lado. Ambas as funcionalidades estão atualmente disponíveis para os utilizadores inscritos no programa Frontier da Microsoft, o canal de acesso antecipado para as capacidades mais recentes do Copilot. É necessária uma licença do Microsoft 365 Copilot (US$ 30/utilizador/mês), mas os utilizadores também têm de estar inscritos no Frontier para as aceder.

Imagem: Microsoft

A OpenAI e a Microsoft têm uma parceria multibilionária, mas a aposta da Microsoft é que nenhum modelo único fique no topo por muito tempo e que o verdadeiro valor está na camada de orquestração que encaminha as tarefas para a combinação que funcionar melhor.

Newsletter de Descompressão Diária

Comece todos os dias com as principais notícias de agora, além de funcionalidades originais, um podcast, vídeos e mais.

O seu Email

Obter isso!

Obter isso!

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar