新的OpenAI音频模型为实时语音助手提供多语言翻译和流式智能

Mpost Media Group · 2026-05-08T10:57:28+00:00

简要介绍OpenAI 发布了 GPT-Realtime-2、Translate 和 Whisper 模型，扩展了具备推理、翻译和转录能力的实时语音 AI，用于更高级的对话应用。OpenAI 在其 API 生态系统中宣布了一套新的音频模型，标志着实时语音能力的扩展。

Mpost Media Group

2026-05-08 10:57:28

简要概述

OpenAI 发布了 GPT-Realtime-2、Translate 和 Whisper 模型，扩展了具有推理、翻译和转录功能的实时语音 AI，用于先进的对话应用。

OpenAI 在其 API 生态系统中宣布了一套新的音频模型，标志着开发者和 AI 驱动应用的实时语音能力的扩展。此次发布包括 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper，每个模型旨在实现更先进、更响应、更具上下文感知的语音交互，适用于各种用例。

GPT-Realtime-2 被定位为公司迄今为止最先进的语音模型，引入了类似 GPT-5 级别的推理能力到实时音频对话中。该模型旨在处理复杂的用户请求，保持上下文连续性，并支持多步骤推理，同时进行实时交互。它适用于语音代理不仅需要快速响应，还要理解意图、管理中断并通过集成工具执行任务的应用场景。

与此同时，GPT-Realtime-Translate 实现了超过 70 种输入语言到 13 种输出语言的实时语音翻译。该系统旨在保持对话流畅，同时保留意义和时序，使说话者能够用不同语言交流而没有明显延迟。这一能力面向全球客户支持、教育、旅游和跨境通信服务。

第三个模型 GPT-Realtime-Whisper 专注于流式语音转文本转录。它提供连续、低延迟的转录，用户说话时即可实现实时字幕、现场文档记录和语音内容的即时后续处理。该模型适用于需要快速将语音转换为文本的环境，如会议、媒体广播和企业工作流程。

OpenAI 将此次联合发布描述为迈向超越基础命令-响应系统的语音界面的一步。模型不仅能识别语音并生成回复，还支持在单一对话流程中进行持续推理、翻译、转录和执行操作。目标是实现更像交互式助手的语音系统，能够完成任务的同时保持自然对话。

GPT-Realtime-2 通过语音转行动系统和扩展的上下文窗口推动语音 AI 架构的进步

公司强调了由该技术支持的几种新兴设计模式。这些包括语音转行动系统，用户可以描述任务，通过自动推理和工具集成来执行；系统到语音应用，软件根据上下文数据生成语音指导；以及语音到语音的翻译系统，实现多语种实时交流。

GPT-Realtime-2 引入了面向生产环境的额外架构改进。这些包括扩展到 128K 令牌的更长上下文窗口、在中断或错误时的改进恢复行为、支持并行工具执行并提供透明反馈，以及根据对话上下文更可控的语调调整。开发者还可以微调推理级别，以根据应用需求平衡速度和复杂性。

OpenAI 引用的性能基准显示，该系统在音频推理和指令执行任务中优于之前版本的实时模型。它还在处理领域特定术语和多轮对话环境中的表现更为稳定。

此次发布还加入了安全机制，包括在活跃会话中进行实时监控和内容分类，以及开发者级别的控制以增强安全性。这些模型通过实时 API 提供，面向企业、消费者和开发者应用部署，定价基于使用的音频处理指标。

GPT-Realtime-2 及其配套模型的推出，反映了向能够实时推理、翻译和转录的语音计算系统的更广泛转变，旨在使软件的语音交互更具功能性、适应性和操作能力。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
TradFi交易分享挑战
9.16万热度
#
加密市场下跌15万人爆仓
5018.01万热度
#
Polymarket每日热点
100.35万热度
#
ZEC/HYPE/FLR走强
383.16万热度
#
Gate4月透明度报告
10.94万热度

新的OpenAI音频模型为实时语音助手提供多语言翻译和流式智能

GPT-Realtime-2 通过语音转行动系统和扩展的上下文窗口推动语音 AI 架构的进步

热门话题

TradFi交易分享挑战

加密市场下跌15万人爆仓

Polymarket每日热点

ZEC/HYPE/FLR走强

Gate4月透明度报告

置顶