OpenAI推出定制化AI声线,提升语音互动人性化
来源:李智衍 发布时间:2025-03-21 分享至微信

OpenAI推出三款语音模型,旨在提升AI理解语音指令的能力,使与人类互动更加自然。


这三款模型分别为文字转语音模型gpt-4o-mini-tts,以及两款语音转文字模型gpt-4o-transcribe和gpt-4o-mini-transcribe,现已通过API服务提供给第三方开发者。


这些模型基于GPT-4o打造,通过额外数据训练,提高了语音识别与转录的准确性,以及合成语音的自然度和定制化程度。


gpt-4o-mini-tts允许开发者通过文字提示调整AI的口音、音调、语气和情感表达,使AI在不同情境下能以合适的声线服务。


OpenAI演示了如何通过文字提示调整AI声线,如发出疯狂科学家的尖笑或冥想老师的平静语气。未来,AI代理将越来越多地通过语音与人类互动。


与之前的Whisper开源模型不同,gpt-4o系列的语音转录模型不打算开源,因为它们体积庞大,不适合开源发布。


这些模型经过更多元、高品质的语音数据集训练,能更好地捕捉带有口音和不同语音的人声,具有降噪功能,且产生幻觉的机率较低。


据OpenAI内部测试,gpt-4o-transcribe针对33种语言的识别错误率显著低于Whisper,英语错误率仅约2.46%,但在印度语系方面仍需加强。


[ 新闻来源:李智衍,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论

暂无评论哦,快来评论一下吧!