微软、谷歌同日发布新AI模型:语音、图像与本地开源能力齐上阵

robot
摘要生成中

微软和谷歌周四都宣布推出新的AI模型,但两者差异明显:微软发布的是新的基础模型MAI,仅通过其Azure Foundry和仅限美国的MAI Playground平台提供;而谷歌推出的是全新的Gemma 4开源模型,可以在本地运行。此外,谷歌还将这些新开源模型的许可协议改为Apache 2.0。

三款“世界级”自研MAI模型

微软推出的“世界级”自研MAI模型,一共包括三款:

首先是MAI-Transcribe-1,这是一款“最先进”的语音转文本模型,能够理解全球使用最广泛的25种语言,其批量转录速度相比微软现有的Azure Fast方案提升了2.5倍。

其次是MAI-Voice-1,这是一款新的语音生成模型,只需1秒即可生成60秒的音频。同时,它还支持在Microsoft Foundry中通过短音频样本创建定制语音。

最后是MAI-Image-2,这是一款更快的文生图模型,目前已经开始在Copilot中上线,接下来将陆续应用于Bing和PowerPoint。

微软表示:

“我们正在快速部署这些顶级模型,用于支持自家的消费者和商业产品。很快你将会在Foundry以及微软各类产品和体验中看到更多模型。”

谷歌推出的Gemma 4开源模型

谷歌推出的Gemma 4开源模型采用Apache 2.0许可,而不再使用此前自定义的Gemma许可协议。谷歌表示,这些模型具备高级推理能力、代理式工作流、代码生成,以及视觉和音频生成能力,并提供四种不同版本,针对本地运行进行了优化,甚至可以运行在“数十亿台安卓设备”上。

谷歌表示:

“Gemma 4基于与Gemini 3相同的世界级研究和技术,是目前你可以在本地硬件上运行的能力最强的一系列模型。它们与我们的Gemini模型形成互补,为开发者提供业内最强大的开源与专有工具组合。”

其中,规模较大的26B和31B版本Gemma 4模型,旨在运行于消费级GPU上,可用于驱动IDE、编程助手以及代理式工作流。而更轻量的E2B和E4B版本,则更注重多模态能力和低延迟处理,适用于移动设备和物联网设备(包括树莓派)。这些模型还支持完全离线运行。

谷歌的Gemma 4开源模型可以在多个平台下载,包括Hugging Face、Kaggle和Ollama。谷歌强调:

“这些模型在基础设施安全方面,遵循与我们专有模型相同的严格安全协议。”

更多消息,持续更新中

风险提示及免责条款

        市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论
  • 热门 Gate Fun

    查看更多
  • 市值:$2224.13持有人数:1
    0.00%
  • 市值:$2234.48持有人数:1
    0.00%
  • 市值:$2231.03持有人数:0
    0.00%
  • 市值:$2246.35持有人数:2
    0.24%
  • 市值:$2238.35持有人数:2
    0.00%