Microsoft розробила власний набір AI "три частини" і впроваджує його, з амбіціями створити власні великі передові моделі до 2027 року

robot
Генерація анотацій у процесі

Американська технологічна компанія Microsoft у четвер оголосила про офіційний запуск для широкого комерційного використання трьох внутрішньо розроблених моделей ШІ, демонструючи прагнення компанії позбутися залежності від давнього партнеру OpenAI.

Зокрема, три моделі MAI-Transcribe-1, MAI-Voice-1 і MAI-Image-2, розроблені командою суперінтелектуального ШІ Microsoft, охоплюють три найбільш комерційно цінні можливості в корпоративному ШІ — розпізнавання мовлення з аудіо (speech-to-text), генерацію мовлення та створення зображень**.

(Оновлення оголосив генеральний директор Microsoft Наделла; джерело: X)

Microsoft заявляє, що MAI-Transcribe-1 має найвищу точність серед найбільш поширених моделей для розпізнавання транскрипцій на ринку. За результатами тестів з усіма мовами його середній рівень помилок становить 3.9%. Натомість рівень помилок GPT-Transcribe від OpenAI — 4.2%, а Gemini 3.1 Flash — 4.9%.

Модель генерації мовлення MAI-Voice-1, як стверджується, здатна генерувати 60 секунд аудіо менш ніж за одну секунду на “одному GPU”, а також підтримувати послідовність голосу під час генерації довгого контенту.

MAI-Image-2 уперше було запущено 19 березня, а у четвер разом із двома іншими моделями також вивели на широке комерційне використання. Наразі ця модель у рейтингу “текст-у-зображення” на “Large Model Arena” посідає третє місце — після топ-продукту Google Nano Banana 2 та GPT-Image 1.5 від OpenAI.

У горизонтальному порівнянні цін MAI-Image-2: базова ціна для текстового вводу становить 5 доларів за 1 млн токенів (tokens), а вивід зображень — від 33 доларів за 1 млн токенів. Модель генерації зображень Gemini 3 Pro від Google коштує 120 доларів за 1 млн токенів, а Gemini 3.1 Flash для зображень — 60 доларів за 1 млн токенів.

Мета: розробити власні моделі світового класу найпередовіших Large Models

Останній крок Microsoft бере початок з минулого жовтня, коли компанія переформатувала партнерство з OpenAI, що дозволило Microsoft самостійно або разом із третіми партнерськими сторонами переслідувати права на загальний штучний інтелект. У попередній угоді, хоча й було дозволено Microsoft використовувати інтелектуальну власність OpenAI, водночас їй забороняли розробляти конкуруючі системи штучного інтелекту.

Генеральний директор Microsoft з напряму ШІ Мустaфа Сулейман публічно заявив, що ціль команди до 2027 року — “спромогтися справді досягти рівня найсучаснішого”, включно з моделями, здатними відповідати або генерувати текст, зображення й аудіо.

Сулейман розповів, що компанія створює обчислювальні потужності, потрібні для тренування моделей, і з жовтня минулого року розгортає чипи Nvidia GB200.

Він сказав: “Відтоді ми поступово нарощуватимемо, приблизно за наступні 12–18 місяців, обчислювальні можливості до обсягів, характерних для передового масштабу”.

Як співзасновник Google DeepMind, Сулейман приєднався до Microsoft у 2024 році, відповідаючи за інтеграцію ШІ у її споживчі продукти. Після того, як у жовтні минулого року Microsoft уклала угоду з OpenAI, у листопаді минулого року Сулейман повністю очолив команду суперінтелектуального ШІ Microsoft. Під час внутрішнього переформатування на минулому місяці обов’язки Сулеймана звузили до розробки моделей: колишній керівник Snap Якуб Андрієв (Якоб Андрійєо) перебрав керівництво напрямом Copilot для корпоративних і персональних користувачів Microsoft.

У коментарі медіа Сулейман сказав: “Ми хочемо підкреслити, що важливо просувати власні найпередовіші можливості ШІ впродовж наступних трьох-п’яти років і реалізувати стратегічну місію довгострокової автономності.” Також він додав, що компанія надалі розміщуватиме (хоститиме) моделі, розроблені іншими компаніями.

З точки зору довгострокової перспективи, глибокий доступ Microsoft до прав інтелектуальної власності OpenAI закінчується у 2032 році, тож розвиток власних Large Models є важливим способом хеджування ризиків.

Навіть бізнес власних моделей Microsoft, який щойно стартував, має чимало недоліків, що свідчить: команді Сулеймана впродовж наступного року доведеться виконати багато роботи.

Наприклад, MAI-Image-2 наразі підтримує лише співвідношення сторін 1:1, не пропонує горизонтальні або вертикальні варіанти; у інших AI-застосунках, типових, зокрема, для редагування “зображення-до-зображення” чи підтримки референсних зображень, цього немає. MAI-Transcribe-1 не може розрізняти різних спікерів у діалозі, а також не підтримує зміщення контексту та потокову передачу: Microsoft зазначає, що всі ці три функції перебувають у розробці.

(Джерело: Caixin Finance)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити