Pesquisador da Microsoft destaca-se no benchmark desenvolvido internamente pela Perplexity: Revisão de Modelo Dual na Frontier, Cowork lança Agente de Tarefa Longa

robot
Geração de resumo em curso

De acordo com o acompanhamento da 1M AI News, a Microsoft lançou em simultâneo duas novas capacidades para o Microsoft 365 Copilot através do Frontier (um programa de ensaio pré-lançamento para utilizadores empresariais que permite aos participantes experimentar funcionalidades do Copilot antes de serem lançadas oficialmente). O Investigador (o agente interno de pesquisa profunda do Copilot) introduziu dois novos modos de colaboração multi-modelo: Critique e Council. O Critique colabora com modelos da Anthropic e da OpenAI: um é responsável por planear, recuperar e redigir, enquanto o outro se especializa em rever e refinar, com o Auto ativado por predefinição. O Council funciona de forma semelhante, com ambos os modelos a gerar relatórios completos, que são depois resumidos por um modelo de revisão separado. A Microsoft utiliza o GPT-5.2 como modelo de avaliação (o mais rigoroso entre os três métodos de avaliação no artigo original) para testar o Critique no benchmark DRACO (que inclui 100 questões complexas de investigação em 10 áreas publicadas por investigadores da Perplexity). A pontuação global foi superior em 7,0 pontos ao melhor sistema no benchmark, Perplexity Deep Research (que utiliza Claude Opus 4.6), representando uma melhoria relativa de 13,88%. O Critique não foi incluído no artigo original do DRACO, e estes dados foram obtidos pela Microsoft através de auto-testes sob o mesmo protocolo de avaliação. O Copilot Cowork tem como alvo tarefas multi-etapa mais longas: primeiro gera um plano com base nos objectivos e, em seguida, avança passo a passo através de ferramentas e documentos, apresentando o progresso ao longo do processo, permitindo aos utilizadores intervir em qualquer momento. A Microsoft citou a Capital Group como um caso de utilização inicial, afirmando que foi usada para planeamento de projectos, agendamento, criação de entregáveis e preparação de revisões executivas.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar