📢 Gate 广场 TradFi 交易分享挑战上线!
晒单瓜分 $30,000 奖池,新人首帖 100% 中奖!
📌 参与方式:
带 #TradFi交易分享挑战 发帖,满足以下任一即可:
🔹 带今日指定 TradFi 币种标签发帖交流。
🔹 完成单笔大于 $10U 的 TradFi CFD 交易并挂载交易卡片。
🏷️ 今日指定标签:USDJPY、AUDUSD、US30、TSLA、JPN225
🎁 宠粉福利:
1️⃣ 卡片分享奖: 抽 50 人,每人送 $100 仓位体验券!
2️⃣ 发帖榜单奖: 冲排行榜,赢 WCTC 限定 T 恤!
3️⃣ 新粉见面礼: 新人首次发帖,100% 领 $10 体验券!
详情:https://www.gate.com/announcements/article/51221
新的OpenAI音频模型为实时语音助手提供多语言翻译和流式智能
简要概述
OpenAI 发布了 GPT-Realtime-2、Translate 和 Whisper 模型,扩展了具有推理、翻译和转录功能的实时语音 AI,用于先进的对话应用。
GPT-Realtime-2 被定位为公司迄今为止最先进的语音模型,引入了类似 GPT-5 级别的推理能力到实时音频对话中。该模型旨在处理复杂的用户请求,保持上下文连续性,并支持多步骤推理,同时进行实时交互。它适用于语音代理不仅需要快速响应,还要理解意图、管理中断并通过集成工具执行任务的应用场景。
与此同时,GPT-Realtime-Translate 实现了超过 70 种输入语言到 13 种输出语言的实时语音翻译。该系统旨在保持对话流畅,同时保留意义和时序,使说话者能够用不同语言交流而没有明显延迟。这一能力面向全球客户支持、教育、旅游和跨境通信服务。
第三个模型 GPT-Realtime-Whisper 专注于流式语音转文本转录。它提供连续、低延迟的转录,用户说话时即可实现实时字幕、现场文档记录和语音内容的即时后续处理。该模型适用于需要快速将语音转换为文本的环境,如会议、媒体广播和企业工作流程。
OpenAI 将此次联合发布描述为迈向超越基础命令-响应系统的语音界面的一步。模型不仅能识别语音并生成回复,还支持在单一对话流程中进行持续推理、翻译、转录和执行操作。目标是实现更像交互式助手的语音系统,能够完成任务的同时保持自然对话。
GPT-Realtime-2 通过语音转行动系统和扩展的上下文窗口推动语音 AI 架构的进步
公司强调了由该技术支持的几种新兴设计模式。这些包括语音转行动系统,用户可以描述任务,通过自动推理和工具集成来执行;系统到语音应用,软件根据上下文数据生成语音指导;以及语音到语音的翻译系统,实现多语种实时交流。
GPT-Realtime-2 引入了面向生产环境的额外架构改进。这些包括扩展到 128K 令牌的更长上下文窗口、在中断或错误时的改进恢复行为、支持并行工具执行并提供透明反馈,以及根据对话上下文更可控的语调调整。开发者还可以微调推理级别,以根据应用需求平衡速度和复杂性。
OpenAI 引用的性能基准显示,该系统在音频推理和指令执行任务中优于之前版本的实时模型。它还在处理领域特定术语和多轮对话环境中的表现更为稳定。
此次发布还加入了安全机制,包括在活跃会话中进行实时监控和内容分类,以及开发者级别的控制以增强安全性。这些模型通过实时 API 提供,面向企业、消费者和开发者应用部署,定价基于使用的音频处理指标。
GPT-Realtime-2 及其配套模型的推出,反映了向能够实时推理、翻译和转录的语音计算系统的更广泛转变,旨在使软件的语音交互更具功能性、适应性和操作能力。