OpenAI API上线语音智能新功能

Post author:李, 静斯
Post published:2026年 5月 8日
Post category:热点新闻

引言：OpenAI周四宣布API新增多项语音智能功能，包括基于GPT-5级推理的GPT-Realtime-2实时对话模型、支持70多种语言的GPT-Realtime-Translate实时翻译，以及GPT-Realtime-Whisper语音转文本功能。这些工具旨在推动实时音频从简单应答升级为能执行任务的语音界面，助力企业提升客户服务能力，并应用于教育、媒体等多领域，同时OpenAI已建立防护机制防范滥用风险。

OpenAI周四宣布其API将新增多项语音智能功能，帮助开发者创建能够与用户对话、转录和翻译的应用程序。公司推出的GPT-Realtime-2是一款新型语音模型，旨在实现逼真的语音模拟，与用户进行实时对话。与 predecessor GPT-Realtime-1.5 不同，该模型基于GPT-5级推理能力设计，可处理用户更复杂的请求。此外，OpenAI还推出了GPT-Realtime-Translate，提供实时翻译服务，能够跟上对话节奏。该功能支持70多种输入语言和13种输出语言，确保跨语言交流的流畅性。

另一项新功能是GPT-Realtime-Whisper，提供实时语音转文本能力，可在对话过程中即时捕捉并转录内容。OpenAI表示，这些模型将推动实时音频从简单的应答模式转向能够执行实际任务的语音界面，包括倾听、推理、翻译、转录和行动。这些功能主要面向希望扩展客户服务能力的公司，同时也可应用于教育、媒体、活动和创作者平台等多个领域。

尽管这些工具在企业视角下颇具价值，但也存在被滥用的风险。OpenAI已建立防护机制，防止新功能被用于垃圾邮件、欺诈或其他网络滥用行为。系统内嵌了特定触发器，可在检测到违反有害内容准则时中止对话。所有新语音模型均包含在OpenAI的Realtime API中，其中Translate和Whisper按分钟计费，而GPT-Realtime-2则按token消耗计费。