Microsoft розробила власний набір AI "три частини" і впроваджує його, з амбіціями створити власні великі передові моделі до 2027 року

CryptocurrencySniper · 2026-04-03T18:42:47+00:00

Microsoft випустила три власноруч розроблені моделі штучного інтелекту MAI-Transcribe-1, MAI-Voice-1 і MAI-Image-2, що демонструє їхні зусилля щодо зменшення залежності від OpenAI, охоплюючи транскрипцію голосу, генерацію та створення зображень. Компанія має на меті до 2027 року розробити передові моделі та посилити розгортання обчислювальних потужностей для підтримки майбутнього розвитку.

CryptocurrencySniper

2026-04-03 18:42:47

Генерація анотацій у процесі

Американська технологічна компанія Microsoft у четвер оголосила про офіційний запуск для широкого комерційного використання трьох внутрішньо розроблених моделей ШІ, демонструючи прагнення компанії позбутися залежності від давнього партнеру OpenAI.

Зокрема, три моделі MAI-Transcribe-1, MAI-Voice-1 і MAI-Image-2, розроблені командою суперінтелектуального ШІ Microsoft, охоплюють три найбільш комерційно цінні можливості в корпоративному ШІ — розпізнавання мовлення з аудіо (speech-to-text), генерацію мовлення та створення зображень**.

(Оновлення оголосив генеральний директор Microsoft Наделла; джерело: X)

Microsoft заявляє, що MAI-Transcribe-1 має найвищу точність серед найбільш поширених моделей для розпізнавання транскрипцій на ринку. За результатами тестів з усіма мовами його середній рівень помилок становить 3.9%. Натомість рівень помилок GPT-Transcribe від OpenAI — 4.2%, а Gemini 3.1 Flash — 4.9%.

Модель генерації мовлення MAI-Voice-1, як стверджується, здатна генерувати 60 секунд аудіо менш ніж за одну секунду на “одному GPU”, а також підтримувати послідовність голосу під час генерації довгого контенту.

MAI-Image-2 уперше було запущено 19 березня, а у четвер разом із двома іншими моделями також вивели на широке комерційне використання. Наразі ця модель у рейтингу “текст-у-зображення” на “Large Model Arena” посідає третє місце — після топ-продукту Google Nano Banana 2 та GPT-Image 1.5 від OpenAI.

У горизонтальному порівнянні цін MAI-Image-2: базова ціна для текстового вводу становить 5 доларів за 1 млн токенів (tokens), а вивід зображень — від 33 доларів за 1 млн токенів. Модель генерації зображень Gemini 3 Pro від Google коштує 120 доларів за 1 млн токенів, а Gemini 3.1 Flash для зображень — 60 доларів за 1 млн токенів.

Мета: розробити власні моделі світового класу найпередовіших Large Models

Останній крок Microsoft бере початок з минулого жовтня, коли компанія переформатувала партнерство з OpenAI, що дозволило Microsoft самостійно або разом із третіми партнерськими сторонами переслідувати права на загальний штучний інтелект. У попередній угоді, хоча й було дозволено Microsoft використовувати інтелектуальну власність OpenAI, водночас їй забороняли розробляти конкуруючі системи штучного інтелекту.

Генеральний директор Microsoft з напряму ШІ Мустaфа Сулейман публічно заявив, що ціль команди до 2027 року — “спромогтися справді досягти рівня найсучаснішого”, включно з моделями, здатними відповідати або генерувати текст, зображення й аудіо.

Сулейман розповів, що компанія створює обчислювальні потужності, потрібні для тренування моделей, і з жовтня минулого року розгортає чипи Nvidia GB200.

Він сказав: “Відтоді ми поступово нарощуватимемо, приблизно за наступні 12–18 місяців, обчислювальні можливості до обсягів, характерних для передового масштабу”.

Як співзасновник Google DeepMind, Сулейман приєднався до Microsoft у 2024 році, відповідаючи за інтеграцію ШІ у її споживчі продукти. Після того, як у жовтні минулого року Microsoft уклала угоду з OpenAI, у листопаді минулого року Сулейман повністю очолив команду суперінтелектуального ШІ Microsoft. Під час внутрішнього переформатування на минулому місяці обов’язки Сулеймана звузили до розробки моделей: колишній керівник Snap Якуб Андрієв (Якоб Андрійєо) перебрав керівництво напрямом Copilot для корпоративних і персональних користувачів Microsoft.

У коментарі медіа Сулейман сказав: “Ми хочемо підкреслити, що важливо просувати власні найпередовіші можливості ШІ впродовж наступних трьох-п’яти років і реалізувати стратегічну місію довгострокової автономності.” Також він додав, що компанія надалі розміщуватиме (хоститиме) моделі, розроблені іншими компаніями.

З точки зору довгострокової перспективи, глибокий доступ Microsoft до прав інтелектуальної власності OpenAI закінчується у 2032 році, тож розвиток власних Large Models є важливим способом хеджування ризиків.

Навіть бізнес власних моделей Microsoft, який щойно стартував, має чимало недоліків, що свідчить: команді Сулеймана впродовж наступного року доведеться виконати багато роботи.

Наприклад, MAI-Image-2 наразі підтримує лише співвідношення сторін 1:1, не пропонує горизонтальні або вертикальні варіанти; у інших AI-застосунках, типових, зокрема, для редагування “зображення-до-зображення” чи підтримки референсних зображень, цього немає. MAI-Transcribe-1 не може розрізняти різних спікерів у діалозі, а також не підтримує зміщення контексту та потокову передачу: Microsoft зазначає, що всі ці три функції перебувають у розробці.

(Джерело: Caixin Finance)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.