OpenAI推出新一代语音合成模型,支持自然语言调控音色
来源:陈超月 发布时间:一周前 分享至微信
近日,美国开放人工智能研究中心(OpenAI)宣布对其应用程序编程接口(API)进行重大更新,推出新一代语音合成与转录模型。

据官方披露,此次升级的核心产品是gpt-4o-mini-tts模型。该模型不仅显著提升了语音生成的拟真度,还首次支持开发者通过自然语言指令实时调整音色、语调和情感表达。例如,开发者可以使用“用兴奋的语调朗读”或“模仿青年播音员声线”等日常语言指令,系统将动态生成符合要求的音频。OpenAI技术团队演示表明,该模型能够精准解析“略带沙哑的科幻旁白”等抽象描述,并在0.3秒内生成匹配音频,响应速度较此前版本提升了40%。

此外,gpt-4o-mini-tts支持48kHz采样率与神经声码器技术,信噪比指标较行业平均水平优化了18分贝。这使其能够满足有声书录制、影视配音等高端场景的需求。据OpenAI透露,此次升级得益于自研的“声纹解耦”算法,该算法实现了音色特征与语义理解模块的分离训练。开发者可以单独微调音色库,或者结合语言模型定制行业专用语音助手。

[ 新闻来源:陈超月,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论

暂无评论哦,快来评论一下吧!