GPT-Realtime-2 将 GPT-5 智能引入语音 API

Cryptopolitan · 2026-05-07T23:55:43+00:00

OpenAI 在周三通过其 API 发布了新一代语音模型，为开发者提供了构建能够理解口语请求、翻译超过70种语言以及实时转录语音的应用程序的工具。这三种模型的名称是

2026-05-07 23:55:43

OpenAI在周三通过其API发布了新一代语音模型，为开发者提供了构建能够理解语音请求、支持超过70种语言翻译以及实时转录语音的应用工具。

这三款模型分别命名为GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。它们将AI语音界面从简单的问答交流提升到一个AI代理可以听、思考和在对话中行动的领域。

GPT-Realtime-2带来更强的推理能力

GPT-Realtime-2是旗舰产品。OpenAI表示它具备GPT-5级别的推理能力，比其前身GPT-Realtime-1.5有了显著提升。

该模型在音频智能基准Big Bench Audio上的得分高出15.2%，在测试多轮语音指令遵循的Audio MultiChallenge中高出13.8%。

实用升级旨在帮助开发者构建生产级语音代理。该模型现在支持128K的上下文窗口，是之前32K限制的四倍，并提供五个可调节的推理努力等级，从“最小”到“极高”。

它可以同时调用多个工具，能够通过语音确认从错误中恢复，并在处理请求时生成简短的过渡短语，如“让我检查一下”。

GPT-Realtime-Translate支持实时语音翻译。它接受超过70种输入语言，输出13种，旨在与说话者保持同步。

GPT-Realtime-Whisper提供流式语音转文本（STT），在说话时实时转录单词，而不是等待完整的语句。

Zillow、Deutsche Telekom在生产环境中测试这些模型

一些公司已获得早期访问权限。Zillow正在构建一个可以处理复杂房地产查询、调用工具搜索房源并遵守公平住房法规的语音助手。

该公司报告在经过GPT-Realtime-2提示优化后，在最难的对抗性基准测试中的通话成功率提升了26个百分点，达到95%，而之前为69%。

Deutsche Telekom正在测试实时翻译，用于客户支持，允许来电者用自己偏好的语言讲话，模型在双方之间进行转换。

Priceline正在探索一种基于语音的旅行助手，能够在一次会话中管理航班搜索、酒店变更和现场翻译。

这些模型面向希望扩展客户服务能力的企业，但也指出在教育、媒体、活动和创作者平台等领域具有潜在应用。

OpenAI表示在新模型中加入了内容审核机制，能够检测到违反有害内容指南的对话并予以中止。公司将这些保护措施描述为防止垃圾信息、欺诈和其他滥用行为的屏障。

关于定价，Translate和Whisper模型按分钟计费。GPT-Realtime-2则按令牌消耗计费。所有三款模型都可以通过OpenAI的实时API访问，支持WebRTC、WebSocket和SIP连接方式。

如果你在阅读这篇文章，说明你已经走在了前列。通过我们的新闻通讯保持领先。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

请输入评论内容

暂无评论

热门话题