Дослідник Microsoft Researcher досягає успіхів у власному бенчмарку Perplexity's: огляд двомоделі у Frontier, Cowork запускає агента для довгих завдань

AirdropBlackHole · 2026-03-31T11:52:18+00:00

Microsoft запустила нові функції для Microsoft 365 Copilot, включаючи режими Critique і Council для покращеної співпраці. Critique значно перевищив показники бенчмарків, тоді як Copilot Cowork спрощує багатоступінчасті завдання, допомагаючи у управлінні проектами.

AirdropBlackHole

2026-03-31 11:52:18

Генерація анотацій у процесі

Згідно з моніторингом 1M AI News, Microsoft одночасно запустила дві нові можливості для Microsoft 365 Copilot через Frontier (допрєлізну програму випробувального доступу для корпоративних користувачів, яка дозволяє учасникам випробувати можливості Copilot до їх офіційного запуску). Дослідник (вбудований агент глибоких досліджень Copilot) представив два нові режими багатомодельної співпраці: Critique та Council. Critique співпрацює з моделями від Anthropic і OpenAI: одна відповідає за планування, пошук і підготовку чернеток, тоді як інша спеціалізується на рецензуванні та вдосконаленні, при цьому Auto увімкнено за замовчуванням. Council працює подібно: обидві моделі генерують повні звіти, які потім підсумовуються окремою моделлю для огляду. Microsoft використовує GPT-5.2 як модель для оцінювання (найсуворішу серед трьох методів оцінювання в оригінальній статті), щоб тестувати Critique на бенчмарку DRACO (який складається зі 100 складних дослідницьких питань у 10 напрямах, опублікованих дослідниками Perplexity). Загальний результат був на 7,0 бала вищим за найкращу систему в бенчмарку, Perplexity Deep Research (яка використовує Claude Opus 4.6), що відповідає відносному поліпшенню на 13,88%. Critique не був включений до оригінальної статті DRACO, і ці дані Microsoft отримала через самотестування за тим самим протоколом оцінювання. Copilot Cowork орієнтований на довші багатокрокові завдання: спершу він генерує план на основі цілей, а потім рухається крок за кроком інструментами та документами, показуючи прогрес протягом усього процесу, дозволяючи користувачам втручатися в будь-який момент. Microsoft посилалася на Capital Group як на ранній приклад використання, зазначивши, що його застосовували для планування проєктів, складання розкладів, створення результатів (deliverables) і підготовки оглядів для керівництва.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

2 лайків