You are currently viewing OpenAI API上线语音智能新功能

OpenAI API上线语音智能新功能

引言:OpenAI周四宣布API新增多项语音智能功能,包括基于GPT-5级推理的GPT-Realtime-2实时对话模型、支持70多种语言的GPT-Realtime-Translate实时翻译,以及GPT-Realtime-Whisper语音转文本功能。这些工具旨在推动实时音频从简单应答升级为能执行任务的语音界面,助力企业提升客户服务能力,并应用于教育、媒体等多领域,同时OpenAI已建立防护机制防范滥用风险。

新闻配图

OpenAI周四宣布其API将新增多项语音智能功能,帮助开发者创建能够与用户对话、转录和翻译的应用程序。公司推出的GPT-Realtime-2是一款新型语音模型,旨在实现逼真的语音模拟,与用户进行实时对话。与 predecessor GPT-Realtime-1.5 不同,该模型基于GPT-5级推理能力设计,可处理用户更复杂的请求。此外,OpenAI还推出了GPT-Realtime-Translate,提供实时翻译服务,能够跟上对话节奏。该功能支持70多种输入语言和13种输出语言,确保跨语言交流的流畅性。

另一项新功能是GPT-Realtime-Whisper,提供实时语音转文本能力,可在对话过程中即时捕捉并转录内容。OpenAI表示,这些模型将推动实时音频从简单的应答模式转向能够执行实际任务的语音界面,包括倾听、推理、翻译、转录和行动。这些功能主要面向希望扩展客户服务能力的公司,同时也可应用于教育、媒体、活动和创作者平台等多个领域。

尽管这些工具在企业视角下颇具价值,但也存在被滥用的风险。OpenAI已建立防护机制,防止新功能被用于垃圾邮件、欺诈或其他网络滥用行为。系统内嵌了特定触发器,可在检测到违反有害内容准则时中止对话。所有新语音模型均包含在OpenAI的Realtime API中,其中Translate和Whisper按分钟计费,而GPT-Realtime-2则按token消耗计费。

思为交互

思为交互科技

思为交互科技是一家”从云到端”的新型物联网及工业4.0技术公司,可以为各类生产制造型企业提供从硬件到云端全套的解决方案。我公司Galileo OS数据基座融合AI大模型、数据中台、物联网等技术,推动制造业工厂数字化转型。从数字化车间到智能工厂,全面覆盖安全、生产、质量、设备管理等业务。

声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:sales@idmakers.cn删除,任何个人或组织,需要转载可以自行与原作者联系。