OpenAI推出定制化AI声线,提升语音互动人性化
来源:李智衍 发布时间:2025-03-21
分享至微信

OpenAI推出三款语音模型,旨在提升AI理解语音指令的能力,使与人类互动更加自然。
这三款模型分别为文字转语音模型gpt-4o-mini-tts,以及两款语音转文字模型gpt-4o-transcribe和gpt-4o-mini-transcribe,现已通过API服务提供给第三方开发者。
这些模型基于GPT-4o打造,通过额外数据训练,提高了语音识别与转录的准确性,以及合成语音的自然度和定制化程度。
gpt-4o-mini-tts允许开发者通过文字提示调整AI的口音、音调、语气和情感表达,使AI在不同情境下能以合适的声线服务。
OpenAI演示了如何通过文字提示调整AI声线,如发出疯狂科学家的尖笑或冥想老师的平静语气。未来,AI代理将越来越多地通过语音与人类互动。
与之前的Whisper开源模型不同,gpt-4o系列的语音转录模型不打算开源,因为它们体积庞大,不适合开源发布。
这些模型经过更多元、高品质的语音数据集训练,能更好地捕捉带有口音和不同语音的人声,具有降噪功能,且产生幻觉的机率较低。
据OpenAI内部测试,gpt-4o-transcribe针对33种语言的识别错误率显著低于Whisper,英语错误率仅约2.46%,但在印度语系方面仍需加强。
[ 新闻来源:李智衍,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论
暂无评论哦,快来评论一下吧!

李智衍
开创IC领域,共创美好未来!
查看更多
相关文章
iMozen创捷亮相EuroCIS 2025,定制化与AI技术受瞩目
2025-03-07
定制化芯片风潮兴起,超微AI芯片市场布局面临挑战
2025-02-05
AI服务器高度定制化,设计变更频繁挑战供应链
2025-02-26
零一万物推出万智企业大模型平台,支持DeepSeek定制化部署
2025-03-17
定制化芯片趋势下,AMD面临挑战
2025-02-05
热门搜索
美国实体清单新增54家中企
苹果拟推带微型摄像头AirPods
江波龙拟赴港上市
华为
台积电
中芯国际
联发科
高通
英特尔