OpenAI推出新一代语音合成模型，支持自然语言调控音色-icspec

OpenAI推出新一代语音合成模型，支持自然语言调控音色

来源:陈超月发布时间:2025-03-21

分享至微信

近日，美国开放人工智能研究中心（OpenAI）宣布对其应用程序编程接口（API）进行重大更新，推出新一代语音合成与转录模型。

据官方披露，此次升级的核心产品是gpt-4o-mini-tts模型。该模型不仅显著提升了语音生成的拟真度，还首次支持开发者通过自然语言指令实时调整音色、语调和情感表达。例如，开发者可以使用“用兴奋的语调朗读”或“模仿青年播音员声线”等日常语言指令，系统将动态生成符合要求的音频。OpenAI技术团队演示表明，该模型能够精准解析“略带沙哑的科幻旁白”等抽象描述，并在0.3秒内生成匹配音频，响应速度较此前版本提升了40%。

此外，gpt-4o-mini-tts支持48kHz采样率与神经声码器技术，信噪比指标较行业平均水平优化了18分贝。这使其能够满足有声书录制、影视配音等高端场景的需求。据OpenAI透露，此次升级得益于自研的“声纹解耦”算法，该算法实现了音色特征与语义理解模块的分离训练。开发者可以单独微调音色库，或者结合语言模型定制行业专用语音助手。

icspec【芯片求购】https://www.icspec.com/inquiry/index/1/0

[ 新闻来源：陈超月，更多精彩资讯请下载icspec App。如对本稿件有异议，请联系微信客服specltkj]