GPT-Realtime-2 将 GPT-5 智能引入语音 API

OpenAI在周三通过其API发布了新一代语音模型,为开发者提供了构建能够理解语音请求、支持超过70种语言翻译以及实时转录语音的应用工具。

这三款模型分别命名为GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。它们将AI语音界面从简单的问答交流提升到一个AI代理可以听、思考和在对话中行动的领域。

GPT-Realtime-2带来更强的推理能力

GPT-Realtime-2是旗舰产品。OpenAI表示它具备GPT-5级别的推理能力,比其前身GPT-Realtime-1.5有了显著提升。

该模型在音频智能基准Big Bench Audio上的得分高出15.2%,在测试多轮语音指令遵循的Audio MultiChallenge中高出13.8%。

实用升级旨在帮助开发者构建生产级语音代理。该模型现在支持128K的上下文窗口,是之前32K限制的四倍,并提供五个可调节的推理努力等级,从“最小”到“极高”。

它可以同时调用多个工具,能够通过语音确认从错误中恢复,并在处理请求时生成简短的过渡短语,如“让我检查一下”。

GPT-Realtime-Translate支持实时语音翻译。它接受超过70种输入语言,输出13种,旨在与说话者保持同步。

GPT-Realtime-Whisper提供流式语音转文本(STT),在说话时实时转录单词,而不是等待完整的语句。

Zillow、Deutsche Telekom在生产环境中测试这些模型

一些公司已获得早期访问权限。Zillow正在构建一个可以处理复杂房地产查询、调用工具搜索房源并遵守公平住房法规的语音助手。

该公司报告在经过GPT-Realtime-2提示优化后,在最难的对抗性基准测试中的通话成功率提升了26个百分点,达到95%,而之前为69%。

Deutsche Telekom正在测试实时翻译,用于客户支持,允许来电者用自己偏好的语言讲话,模型在双方之间进行转换。

Priceline正在探索一种基于语音的旅行助手,能够在一次会话中管理航班搜索、酒店变更和现场翻译。

这些模型面向希望扩展客户服务能力的企业,但也指出在教育、媒体、活动和创作者平台等领域具有潜在应用。

OpenAI表示在新模型中加入了内容审核机制,能够检测到违反有害内容指南的对话并予以中止。公司将这些保护措施描述为防止垃圾信息、欺诈和其他滥用行为的屏障。

关于定价,Translate和Whisper模型按分钟计费。GPT-Realtime-2则按令牌消耗计费。所有三款模型都可以通过OpenAI的实时API访问,支持WebRTC、WebSocket和SIP连接方式。

如果你在阅读这篇文章,说明你已经走在了前列。通过我们的新闻通讯保持领先。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论