OpenAI推出定制化AI声线,提升语音互动人性化
来源:李智衍 发布时间:2025-03-21
分享至微信

OpenAI推出三款语音模型,旨在提升AI理解语音指令的能力,使与人类互动更加自然。
这三款模型分别为文字转语音模型gpt-4o-mini-tts,以及两款语音转文字模型gpt-4o-transcribe和gpt-4o-mini-transcribe,现已通过API服务提供给第三方开发者。
这些模型基于GPT-4o打造,通过额外数据训练,提高了语音识别与转录的准确性,以及合成语音的自然度和定制化程度。
gpt-4o-mini-tts允许开发者通过文字提示调整AI的口音、音调、语气和情感表达,使AI在不同情境下能以合适的声线服务。
OpenAI演示了如何通过文字提示调整AI声线,如发出疯狂科学家的尖笑或冥想老师的平静语气。未来,AI代理将越来越多地通过语音与人类互动。
与之前的Whisper开源模型不同,gpt-4o系列的语音转录模型不打算开源,因为它们体积庞大,不适合开源发布。
这些模型经过更多元、高品质的语音数据集训练,能更好地捕捉带有口音和不同语音的人声,具有降噪功能,且产生幻觉的机率较低。
据OpenAI内部测试,gpt-4o-transcribe针对33种语言的识别错误率显著低于Whisper,英语错误率仅约2.46%,但在印度语系方面仍需加强。
[ 新闻来源:李智衍,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论
暂无评论哦,快来评论一下吧!

李智衍
开创IC领域,共创美好未来!
查看更多
相关文章
联发科:AI商机助力未来成长,定制化芯片成重点
2025-05-01
南亚科技加速布局AI DRAM,力争2026年实现定制化DRAM验证
2025-06-09
博通AI芯片业务占比超50%,定制化ASIC成增长引擎
2025-06-12
SkyeChip欲效仿博通发展定制化芯片
2025-05-13
热门搜索
高通进军数据中心市场
海光信息合并中科曙光
华为
台积电
中芯国际
联发科
高通
英特尔
芯片