微软、谷歌同日发布新AI模型：语音、图像与本地开源能力齐上阵

2026-04-02 22:16:20

摘要生成中

微软和谷歌周四都宣布推出新的AI模型，但两者差异明显：微软发布的是新的基础模型MAI，仅通过其Azure Foundry和仅限美国的MAI Playground平台提供；而谷歌推出的是全新的Gemma 4开源模型，可以在本地运行。此外，谷歌还将这些新开源模型的许可协议改为Apache 2.0。

三款“世界级”自研MAI模型

微软推出的“世界级”自研MAI模型，一共包括三款：

首先是MAI-Transcribe-1，这是一款“最先进”的语音转文本模型，能够理解全球使用最广泛的25种语言，其批量转录速度相比微软现有的Azure Fast方案提升了2.5倍。

其次是MAI-Voice-1，这是一款新的语音生成模型，只需1秒即可生成60秒的音频。同时，它还支持在Microsoft Foundry中通过短音频样本创建定制语音。

最后是MAI-Image-2，这是一款更快的文生图模型，目前已经开始在Copilot中上线，接下来将陆续应用于Bing和PowerPoint。

微软表示：

“我们正在快速部署这些顶级模型，用于支持自家的消费者和商业产品。很快你将会在Foundry以及微软各类产品和体验中看到更多模型。”

谷歌推出的Gemma 4开源模型采用Apache 2.0许可，而不再使用此前自定义的Gemma许可协议。谷歌表示，这些模型具备高级推理能力、代理式工作流、代码生成，以及视觉和音频生成能力，并提供四种不同版本，针对本地运行进行了优化，甚至可以运行在“数十亿台安卓设备”上。

谷歌表示：

“Gemma 4基于与Gemini 3相同的世界级研究和技术，是目前你可以在本地硬件上运行的能力最强的一系列模型。它们与我们的Gemini模型形成互补，为开发者提供业内最强大的开源与专有工具组合。”

其中，规模较大的26B和31B版本Gemma 4模型，旨在运行于消费级GPU上，可用于驱动IDE、编程助手以及代理式工作流。而更轻量的E2B和E4B版本，则更注重多模态能力和低延迟处理，适用于移动设备和物联网设备（包括树莓派）。这些模型还支持完全离线运行。

谷歌的Gemma 4开源模型可以在多个平台下载，包括Hugging Face、Kaggle和Ollama。谷歌强调：

“这些模型在基础设施安全方面，遵循与我们专有模型相同的严格安全协议。”

更多消息，持续更新中

风险提示及免责条款

        市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

请输入评论内容

暂无评论