Microsoft、Googleが同日新しいAIモデルを発表：音声、画像、ローカルオープンソース機能を一斉展開

2026-04-02 22:16:20

概要作成中

MicrosoftとGoogleはいずれも木曜日に新しいAIモデルの提供開始を発表したが、両者の違いは明確だ。Microsoftは新しい基盤モデルMAIを発表しており、Azure Foundryおよび米国限定のMAI Playgroundプラットフォームでのみ提供される。一方、Googleが発表したのは新たなGemma 4のオープンソースモデルで、ローカルで実行できる。さらにGoogleは、これらの新しいオープンソースモデルのライセンス契約をApache 2.0に変更した。

3つの「ワールドクラス」自社開発MAIモデル

Microsoftが提供する「ワールドクラス」の自社開発MAIモデルは、全部で3種類ある。

まずはMAI-Transcribe-1で、これは「最先端」の音声からテキストへのモデルだ。世界で最も広く使われている25言語を理解でき、Microsoftの既存のAzure Fast方式と比べてバッチ文字起こしの速度が2.5倍向上している。

次にMAI-Voice-1で、これは新しい音声生成モデルだ。わずか1秒で60秒分の音声を生成できる。同時に、Microsoft Foundryで短い音声サンプルを使ってカスタム音声を作成することにも対応している。

最後にMAI-Image-2で、これはより高速なテキストから画像を生成するモデルで、現在すでにCopilotで提供が開始されており、続いてBingとPowerPointにも順次適用される。

Microsoftは次のように述べている。

「私たちは、これらのトップクラスのモデルを迅速に展開して、自社の消費者向けおよびビジネス向けの製品を支えます。まもなくFoundryおよびMicrosoftの各種製品や体験の中で、さらに多くのモデルをご覧いただけるでしょう。」

Googleが提供するGemma 4オープンソースモデル

Googleが提供するGemma 4オープンソースモデルはApache 2.0のライセンスを採用しており、これまでのGemmaの独自ライセンス契約は使わない。Googleによれば、これらのモデルは高度な推論能力、エージェント式ワークフロー、コード生成、そして視覚および音声の生成能力を備え、ローカル実行向けに最適化された4種類の異なるバージョンが用意されている。さらには「数十億台のAndroidデバイス」で動かすことさえできるという。

Googleは次のように述べている。

「Gemma 4は、Gemini 3と同じワールドクラスの研究と技術に基づいています。現時点でローカルのハードウェア上で実行できる能力が最も高い一連のモデルです。これらは、私たちのGeminiモデルと相互補完関係にあり、開発者に対して業界最強クラスのオープンソースと専有ツールの組み合わせを提供します。」

このうち、規模の大きい26Bおよび31BのGemma 4モデルは、コンシューマー向けGPUでの実行を想定しており、IDE、プログラミングアシスタント、そしてエージェント式ワークフローを動かす用途に使える。より軽量なE2BおよびE4Bのバージョンは、一方で多モーダル能力と低遅延処理をより重視しており、モバイル端末やIoTデバイス（ラズベリーパイを含む）に適している。これらのモデルは、完全にオフラインでの実行にも対応している。

GoogleのGemma 4オープンソースモデルは、Hugging Face、Kaggle、Ollamaなど複数のプラットフォームでダウンロードできる。Googleは強調している。

「これらのモデルは、インフラストラクチャのセキュリティに関して、私たちの専有モデルと同じ厳格なセキュリティプロトコルに従っています。」

さらなるニュースは、継続的に更新中

リスク提示および免責条項

        市場にはリスクがあります。投資は慎重に行ってください。この記事は個人の投資助言を構成するものではなく、特定のユーザーの個別の投資目標、財務状況、または必要性を考慮していません。ユーザーは、この記事内のいかなる意見、見解、または結論が自らの特定の状況に適合するかどうかを検討する必要があります。これに基づいて投資する場合、責任はご自身に帰属します。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。