OpenAI推出定制化AI声线，提升语音互动人性化-icspec

OpenAI推出定制化AI声线，提升语音互动人性化

来源:李智衍发布时间:2025-03-21

分享至微信

OpenAI推出三款语音模型，旨在提升AI理解语音指令的能力，使与人类互动更加自然。

这三款模型分别为文字转语音模型gpt-4o-mini-tts，以及两款语音转文字模型gpt-4o-transcribe和gpt-4o-mini-transcribe，现已通过API服务提供给第三方开发者。

这些模型基于GPT-4o打造，通过额外数据训练，提高了语音识别与转录的准确性，以及合成语音的自然度和定制化程度。

gpt-4o-mini-tts允许开发者通过文字提示调整AI的口音、音调、语气和情感表达，使AI在不同情境下能以合适的声线服务。

OpenAI演示了如何通过文字提示调整AI声线，如发出疯狂科学家的尖笑或冥想老师的平静语气。未来，AI代理将越来越多地通过语音与人类互动。

与之前的Whisper开源模型不同，gpt-4o系列的语音转录模型不打算开源，因为它们体积庞大，不适合开源发布。

这些模型经过更多元、高品质的语音数据集训练，能更好地捕捉带有口音和不同语音的人声，具有降噪功能，且产生幻觉的机率较低。

据OpenAI内部测试，gpt-4o-transcribe针对33种语言的识别错误率显著低于Whisper，英语错误率仅约2.46%，但在印度语系方面仍需加强。

[ 新闻来源：李智衍，更多精彩资讯请下载icspec App。如对本稿件有异议，请联系微信客服specltkj]

全部评论

暂无评论哦，快来评论一下吧！

李智衍

开创IC领域，共创美好未来!

2025-05-01

2025-06-09

2025-06-12

2025-05-13

3 天前

热门搜索

高通进军数据中心市场海光信息合并中科曙光华为台积电中芯国际联发科高通英特尔芯片