O pesquisador da Microsoft vence na sua própria referência Perplexity: avaliação de duplo modelo avança para Frontier, Cowork abre sincronização de agentes para tarefas longas

robot
Geração de resumo em curso

Notícias do CoinWorld: segundo o monitorização da 1M AI News, a Microsoft disponibilizou em simultâneo duas novas capacidades do Microsoft 365 Copilot através do Frontier (programa de pré-visualização para utilizadores empresariais; os participantes podem testar antecipadamente funcionalidades do Copilot ainda não lançadas oficialmente). O Researcher (um agente de investigação profunda integrado no Copilot) adicionou dois modos de colaboração entre vários modelos: Critique e Council.

O Critique é feito em colaboração entre modelos da Anthropic e da OpenAI: um responsável por planear, pesquisar e redigir, e o outro especializado em rever e refinar; quando é selecionado o Auto, fica ativado por predefinição. O Council também executa em paralelo dois modelos, cada um gerando um relatório completo, e depois um modelo de avaliação separado agrega as semelhanças e diferenças.

A Microsoft utiliza o GPT-5.2 como modelo de avaliação (um dos três métodos de avaliação do artigo original, sendo o mais rigoroso) para testar o Critique no benchmark DRACO (100 questões complexas de investigação publicadas por investigadores da Perplexity, cobrindo 10 áreas). No conjunto, a pontuação total foi 7,0 pontos acima do sistema mais bem classificado do benchmark, o Perplexity Deep Research (que utiliza Claude Opus 4.6), o que representa um aumento relativo de 13,88%.

O artigo original do DRACO não inclui o Critique; estes são dados que a Microsoft obteve ao testar por conta própria, seguindo o mesmo protocolo de avaliação. O Copilot Cowork destina-se a trabalho mais longo e com múltiplos passos: primeiro gera um plano com base nos objetivos e, em seguida, avança passo a passo entre ferramentas e ficheiros, mostrando o progresso ao longo do caminho, e o utilizador pode intervir a qualquer momento.

A Microsoft, usando a Capital Group como caso de utilização inicial, afirma que já foi aplicado na planificação de projetos, definição de calendários, produção de entregáveis e preparação de revisões para executivos.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar