Microsoft разрабатывает собственный набор AI «трио»: амбициозные планы к 2027 году создать самостоятельно крупные передовые модели

robot
Генерация тезисов в процессе

Американская технологическая компания Microsoft в четверг объявила, что три собственные AI-модели официально запущены для широкого коммерческого использования, демонстрируя попытки компании избавиться от зависимости от давнего партнера OpenAI.

В частности, три модели — MAI-Transcribe-1, MAI-Voice-1 и MAI-Image-2, разработанные командой Microsoft по супер-ИИ, — охватывают 3 наиболее ценные в коммерческом плане возможности для корпоративного ИИ: преобразование речи в текст, генерацию речи и создание изображений**.

(Обновление объявил генеральный директор Microsoft Сатья Наделла, источник: X)

Microsoft заявила, что MAI-Transcribe-1 — самый точный среди наиболее часто используемых моделей транскрипции на рынке. В тестах по всем языкам средняя частота ошибок составляет 3,9%. При этом у OpenAI GPT-Transcribe частота ошибок — 4,2%, у Gemini 3.1 Flash — 4,9%.

AI-модель для генерации речи MAI-Voice-1, как утверждается, может генерировать 60 секунд аудио менее чем за одну секунду на «одном GPU», и при генерации длинного контента сохраняет согласованность голоса.

MAI-Image-2 была впервые выпущена 19 марта и в четверг также была запущена для широкого коммерческого использования вместе с двумя другими моделями. На рейтинге текст-в-изображение в «арене больших моделей» эта модель занимает третье место, уступая только бестселлеру Google Nano Banana 2 и GPT-Image 1.5 от OpenAI.

При сравнении цен в поперечном разрезе: стартовая цена текстового ввода для MAI-Image-2 составляет $5 за 1 миллион токенов, а вывод изображений — от $33 за 1 миллион токенов. Модель генерации изображений Gemini 3 Pro от Google стоит $120 за 1 миллион токенов, а Gemini 3.1 Flash для изображений — $60 за 1 миллион токенов.

Цель: разработка собственных самых передовых больших моделей в мире

Последние шаги Microsoft берут начало с прошлого октября, когда компания реорганизовала сотрудничество с OpenAI, разрешив Microsoft самостоятельно или совместно с третьими партнерами добиваться прав на достижение общего искусственного интеллекта. Предыдущие договоренности, хотя и разрешали Microsoft использовать интеллектуальную собственность OpenAI, одновременно запрещали ей разрабатывать конкурирующие системы искусственного интеллекта.

Генеральный директор Microsoft по AI Мустафа Сулейман публично заявил, что цель команды к 2027 году — «достичь по-настоящему передового уровня», охватывающего модели, которые могут отвечать или генерировать текст, изображения и аудио.

Сулейман рассказал, что компания строит вычислительные мощности, необходимые для обучения моделей, и с прошлого октября развертывает чипы Nvidia GB200.

Он сказал: «С тех пор мы будем постепенно улучшать показатели в течение примерно следующих 12–18 месяцев, чтобы выйти на вычислительные мощности передового масштаба».

Будучи сооснователем Google DeepMind, Сулейман присоединился к Microsoft в 2024 году и отвечает за внедрение искусственного интеллекта в ее потребительские продукты. После заключения соглашения Microsoft с OpenAI в прошлом октябре Сулейман в ноябре прошлого года полностью взял на себя руководство командой Microsoft по супер-ИИ. В ходе внутренней реорганизации в прошлом месяце его обязанности были сокращены до разработки моделей: эстафету в руководстве продуктом Copilot — помощником Microsoft для корпоративных и индивидуальных пользователей — принял бывший исполнительный директор Snap Якоб Андриё.

Сулейман заявил СМИ: «Мы хотим подчеркнуть, что в ближайшие три-пять лет крайне важно продвигать собственные самые передовые AI-возможности и реализовать стратегическую миссию достижения долгосрочной автономии». Он также добавил, что компания будет продолжать размещать у себя модели, разработанные другими компаниями.

С точки зрения долгосрочной перспективы, глубокий доступ Microsoft к интеллектуальной собственности OpenAI истечет в 2032 году, поэтому развитие собственных больших моделей — важный способ хеджирования риска.

У только начавшегося бизнеса Microsoft по разработке собственных моделей также есть немало недостатков, что указывает на то, что команде Сулеймана в следующем году предстоит выполнить очень много работы.

Например, MAI-Image-2 сейчас поддерживает только соотношение сторон 1:1; она не предлагает горизонтальных или вертикальных вариантов, а в других AI-приложениях, которые часто встречаются, отсутствуют функции редактирования изображений по изображению и поддержка референс-изображений. MAI-Transcribe-1 не может различать разных участников диалога и не поддерживает контекстные смещения и потоковую передачу; Microsoft заявила, что все три функции находятся в разработке.

(Источник: Caixin)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить