米国のテクノロジー企業マイクロソフトは木曜、社内開発のAIモデル3種類を正式に幅広く商用提供すると発表し、同社が長年の協業パートナーであるOpenAIへの依存から脱却しようとしている取り組みを示した。 具体的には、マイクロソフトのAIスーパーインテリジェンス・チームが開発した**MAI-Transcribe-1、MAI-Voice-1、MAI-Image-2の3つのモデル**で、企業AIにおける最も商業価値の高い3つの能力――音声の文字起こし、音声生成、画像の作成――をカバーする。  (マイクロソフトのCEOサティア・ナデラがこの更新を発表、出典:X) マイクロソフトによると、MAI-Transcribe-1は市場で最も一般的な文字起こしモデルの中で最も正確だという。すべての言語を対象にしたテストにおいて、その平均誤り率は3.9%。一方でOpenAIのGPT-Transcribeの誤り率は4.2%、Gemini 3.1 Flashは4.9%だ。 MAI-Voice-1の音声生成モデルは、伝えられるところによれば「単一のGPU」で1秒未満で60秒分の音声を生成でき、長い内容の生成においても音声の一貫性を維持できるという。 MAI-Image-2は3月19日に最初にリリースされ、木曜もほかの2つのモデルとともに幅広く商用展開を実現した。現在、このモデルは「大規模モデル競技場」のテキストから画像へのランキングで3位に位置しており、Googleのヒット商品Nano Banana 2とOpenAIのGPT-Image 1.5に次ぐ。 価格を横並びで比較すると、MAI-Image-2のテキスト入力の開始価格は100万トークンあたり5ドル、画像出力は100万トークンあたり33ドルから。GoogleのGemini 3 Proの画像生成モデルは100万トークンあたり120ドル、Gemini 3.1 Flashの画像は100万トークンあたり60ドルだ。 **目標:自社開発で世界の最先端の大規模モデルへ** **マイクロソフトの最新の取り組みは昨年10月にさかのぼる。同社は当時、OpenAIとの協業関係を再編し、マイクロソフトが単独、または第三者のパートナーと共同で、汎用人工知能の権利を追求できるようにした。** それまでの契約では、マイクロソフトがOpenAIの知的財産を利用することは認められていた一方で、競合する人工知能システムを開発することは禁止されていた。 マイクロソフトAIの最高経営責任者であるムスタファ・スレイマンは、**このチームの2027年までの目標は「最先端のレベルに本当に到達できる」ことであり、テキスト、画像、音声に応答または生成できるモデルを含む**と公に述べた。 スレイマンは、同社が学習モデルのために必要な計算能力を構築しており、昨年10月からNVIDIAのGB200チップを投入していると説明した。 同氏は「それ以来、今後およそ12〜18か月で段階的に引き上げ、最先端規模の計算能力に到達させていく」と語った。  GoogleのDeepMindの共同創業者として知られるスレイマンは、2024年にマイクロソフトに加わり、人工知能を同社の消費者向け製品に統合する役割を担った。昨年10月にマイクロソフトがOpenAIと協定を結んだ後、スレイマンは昨年11月にフルタイムでマイクロソフトのAIスーパーインテリジェンス・チームのトップとして就任した。先月の社内再編で、スレイマンの職務はモデル開発にまで縮小され、元Snapの幹部であるジェイコブ・アンドリオが、マイクロソフトの法人・個人ユーザー向けCopilotアシスタント製品を担当することになった。 スレイマンはメディアに対し、「私たちが強調したいのは、**今後3〜5年にわたって自社の最先端のAI能力を前進させ、長期的な自律を実現するという戦略的使命の重要性**だ」と述べた。また同社は、ほかの企業が開発したモデルも引き続きホストする方針だと付け加えた。 長期的に見ると、マイクロソフトがOpenAIの知的財産に深くアクセスできる権利は2032年に期限を迎えるため、自社開発の大規模モデルを育てることは重要なリスクヘッジになる。 立ち上げたばかりのマイクロソフトの自社開発モデル事業にも、かなり多くの弱点があり、スレイマンのチームが今後1年でやるべきことがたくさんあることがうかがえる。 たとえば、MAI-Image-2は現時点では1:1の縦横比のみをサポートし、横向きまたは縦向きのオプションは用意されていない。他のAIアプリでよく見られる画像から画像への編集や参照画像サポートも存在しない。MAI-Transcribe-1は会話内の異なる発言者を区別できず、コンテキストバイアスやストリーミング伝送にも対応していない。マイクロソフトは、この3つの機能はいずれも開発中だとしている。 (出所:財聯社)
マイクロソフトの自社開発AI「三件セット」が実用化され、2027年までに独自の大型先端モデルを構築する野望
米国のテクノロジー企業マイクロソフトは木曜、社内開発のAIモデル3種類を正式に幅広く商用提供すると発表し、同社が長年の協業パートナーであるOpenAIへの依存から脱却しようとしている取り組みを示した。
具体的には、マイクロソフトのAIスーパーインテリジェンス・チームが開発したMAI-Transcribe-1、MAI-Voice-1、MAI-Image-2の3つのモデルで、企業AIにおける最も商業価値の高い3つの能力――音声の文字起こし、音声生成、画像の作成――をカバーする。
(マイクロソフトのCEOサティア・ナデラがこの更新を発表、出典:X)
マイクロソフトによると、MAI-Transcribe-1は市場で最も一般的な文字起こしモデルの中で最も正確だという。すべての言語を対象にしたテストにおいて、その平均誤り率は3.9%。一方でOpenAIのGPT-Transcribeの誤り率は4.2%、Gemini 3.1 Flashは4.9%だ。
MAI-Voice-1の音声生成モデルは、伝えられるところによれば「単一のGPU」で1秒未満で60秒分の音声を生成でき、長い内容の生成においても音声の一貫性を維持できるという。
MAI-Image-2は3月19日に最初にリリースされ、木曜もほかの2つのモデルとともに幅広く商用展開を実現した。現在、このモデルは「大規模モデル競技場」のテキストから画像へのランキングで3位に位置しており、Googleのヒット商品Nano Banana 2とOpenAIのGPT-Image 1.5に次ぐ。
価格を横並びで比較すると、MAI-Image-2のテキスト入力の開始価格は100万トークンあたり5ドル、画像出力は100万トークンあたり33ドルから。GoogleのGemini 3 Proの画像生成モデルは100万トークンあたり120ドル、Gemini 3.1 Flashの画像は100万トークンあたり60ドルだ。
目標:自社開発で世界の最先端の大規模モデルへ
マイクロソフトの最新の取り組みは昨年10月にさかのぼる。同社は当時、OpenAIとの協業関係を再編し、マイクロソフトが単独、または第三者のパートナーと共同で、汎用人工知能の権利を追求できるようにした。 それまでの契約では、マイクロソフトがOpenAIの知的財産を利用することは認められていた一方で、競合する人工知能システムを開発することは禁止されていた。
マイクロソフトAIの最高経営責任者であるムスタファ・スレイマンは、このチームの2027年までの目標は「最先端のレベルに本当に到達できる」ことであり、テキスト、画像、音声に応答または生成できるモデルを含むと公に述べた。
スレイマンは、同社が学習モデルのために必要な計算能力を構築しており、昨年10月からNVIDIAのGB200チップを投入していると説明した。
同氏は「それ以来、今後およそ12〜18か月で段階的に引き上げ、最先端規模の計算能力に到達させていく」と語った。
GoogleのDeepMindの共同創業者として知られるスレイマンは、2024年にマイクロソフトに加わり、人工知能を同社の消費者向け製品に統合する役割を担った。昨年10月にマイクロソフトがOpenAIと協定を結んだ後、スレイマンは昨年11月にフルタイムでマイクロソフトのAIスーパーインテリジェンス・チームのトップとして就任した。先月の社内再編で、スレイマンの職務はモデル開発にまで縮小され、元Snapの幹部であるジェイコブ・アンドリオが、マイクロソフトの法人・個人ユーザー向けCopilotアシスタント製品を担当することになった。
スレイマンはメディアに対し、「私たちが強調したいのは、今後3〜5年にわたって自社の最先端のAI能力を前進させ、長期的な自律を実現するという戦略的使命の重要性だ」と述べた。また同社は、ほかの企業が開発したモデルも引き続きホストする方針だと付け加えた。
長期的に見ると、マイクロソフトがOpenAIの知的財産に深くアクセスできる権利は2032年に期限を迎えるため、自社開発の大規模モデルを育てることは重要なリスクヘッジになる。
立ち上げたばかりのマイクロソフトの自社開発モデル事業にも、かなり多くの弱点があり、スレイマンのチームが今後1年でやるべきことがたくさんあることがうかがえる。
たとえば、MAI-Image-2は現時点では1:1の縦横比のみをサポートし、横向きまたは縦向きのオプションは用意されていない。他のAIアプリでよく見られる画像から画像への編集や参照画像サポートも存在しない。MAI-Transcribe-1は会話内の異なる発言者を区別できず、コンテキストバイアスやストリーミング伝送にも対応していない。マイクロソフトは、この3つの機能はいずれも開発中だとしている。
(出所:財聯社)