Microsoft змусила GPT і Claude працювати разом — і результат перевершує всі існуючі інструменти для дослідження штучного інтелекту

Коротко

  • Microsoft випустила два різні режими, які поєднують GPT і Claude, щоб підвищити якість AI-досліджень.
  • Critique змушує моделі співпрацювати, тоді як Council змушує їх працювати паралельно, а третій суддя знаходить розбіжності.
  • Цей двомодельний робочий процес усуває галюцинації, слабкі посилання та інші проблеми, пов’язані з AI-дослідженнями, що виконуються однією моделлю.

Глибокий дослідницький AI цього року став однією з найгарячіших гонок озброєнь у технологіях. Google оголосила свого дослідницького агента для Gemini у грудні 2024 року, OpenAI випустила власного дослідницького агента в лютому 2025 року, xAI пішла за нею, Perplexity подвоїла ставку, а Claude від Anthropic зібрав віддану аудиторію серед професіоналів, яким потрібні детальні відповіді з посиланнями, представивши свого агента торік у квітні.

Кожна компанія намагається переконати вас, що її одна AI-модель — найрозумніший дослідник у кімнаті. Microsoft щойно сказала: навіщо обирати одну?

У понеділок компанія оголосила дві нові функції для інструмента Copilot’s Researcher — під назвою Critique та Council — які ставлять GPT від OpenAI і Claude від Anthropic працювати над одним і тим самим дослідницьким завданням послідовно. Результат, за даними тестування Microsoft проти галузевого бенчмарку, вищий за всі системи, включені в цей тест, зокрема й моделі від провідних AI-компаній.

Introducing Critique, a new multi-model deep research system in M365 Copilot.

Ви можете використовувати кілька моделей разом, щоб генерувати оптимальні відповіді та звіти. pic.twitter.com/m4RlQmCKzs

— Satya Nadella (@satyanadella) March 30, 2026

«Critique — це нова багатомодельна система глибоких досліджень, створена для складних дослідницьких завдань. Вона розділяє генерацію та оцінювання й використовує комбінацію моделей із Frontier labs, зокрема Anthropic і OpenAI», — пояснює Microsoft. «Одна модель веде фазу генерації: планує завдання, ітерує через пошук джерел і створює початковий чернетковий варіант, тоді як друга модель фокусується на огляді та доопрацюванні, виступаючи експертним рецензентом до того, як буде підготовлено фінальний звіт».

Ось базова проблема, яку Critique покликана виправити: сьогодні кожен інструмент AI-досліджень працює однаково. Ви ставите запитання, одна модель планує пошук, переглядає джерела, пише звіт і віддає його вам. Єдина модель робить усе — без жодної перевірки її роботи.

У підсумку можуть прослизнути певні галюцинації, з’являтися помилки в посиланнях, фейкові або неточні твердження тощо.



Critique ламає цей робочий процес на дві частини. GPT бере на себе першу фазу: він планує дослідження, витягує джерела та пише початковий чернетковий варіант. Потім Claude вмикається як строгий редактор: він переглядає звіт на предмет фактичної точності, якості посилань і того, чи відповідь справді охопила те, про що просили. Лише після цього перегляду фінальний звіт дістається користувача. Microsoft каже, що ролі з часом можуть працювати й у протилежному напрямку — коли Claude готує чернетку, а GPT виконує критичний огляд, — але наразі першим іде GPT.

На бенчмарку DRACO — стандартизованому тесті, що охоплює 100 складних дослідницьких завдань у 10 доменах, включно з медициною, правом і технологіями, — Copilot із Critique набрав 57.4. очок, тоді як Claude Opus від Anthropic сам по собі показав 42.7. Комбінована система Microsoft обганяє наступний найкращий результат майже на 14%.

Зображення: Microsoft

Найбільші прирости показалися в широті аналізу та якості презентації, при цьому фактична точність також демонструвала суттєве покращення.

Друга функція, Council, застосовує інший підхід до тієї самої проблеми. Замість того щоб одна модель переглядала роботу іншої, Council запускає GPT і Claude одночасно та розміщує їхні повні звіти пліч-пліч. Далі модель третього «судді» читає обидва варіанти та пише підсумок із поясненням того, де дві AI погодилися, де вони розійшлися, і які унікальні ракурси кожна з них помітила, але інша — ні. Порівнювати інструменти AI-досліджень вручну користувачам доводилося робити самостійно до цього моменту.

У Critique моделі по суті співпрацюють між собою, тоді як у Council моделі конкурують одна з одною.

Critique — це налаштування за замовчуванням у Researcher, тоді як Council вимагає, щоб ви обрали «Model Council» у селекторі, щоб активувати режим із порівнянням пліч-о-пліч. Обидві функції наразі доступні користувачам, які записалися до програми Frontier від Microsoft — каналу раннього доступу до найновіших можливостей Copilot. Ліцензія Microsoft 365 Copilot ($30/user/month) потрібна, але користувачам також потрібно бути в програмі Frontier, щоб отримати доступ до них.

Зображення: Microsoft

OpenAI та Microsoft мають партнерство на багатомільярдні суми, але ставка Microsoft у тому, що жодна одна модель не залишиться на вершині надовго, і що справжня цінність — у рівні оркестрації, який спрямовує завдання до того поєднання, що працює найкраще.

Щоденний дайджест Newsletter

Розпочинайте кожен день із найважливіших новин прямо зараз, а також із оригінальних матеріалів, подкасту, відео та іншого.

Ваш Email

Отримати!

Отримати!

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Популярні активності Gate Fun

    Дізнатися більше
  • Рин. кап.:$2.27KХолдери:2
    0.00%
  • Рин. кап.:$2.37KХолдери:2
    1.04%
  • Рин. кап.:$2.24KХолдери:1
    0.00%
  • Рин. кап.:$2.24KХолдери:1
    0.00%
  • Рин. кап.:$2.25KХолдери:1
    0.00%
  • Закріпити