OpenAI推出定制化AI声线,提升语音互动人性化
来源:李智衍 发布时间:2025-03-21
分享至微信

OpenAI推出三款语音模型,旨在提升AI理解语音指令的能力,使与人类互动更加自然。
这三款模型分别为文字转语音模型gpt-4o-mini-tts,以及两款语音转文字模型gpt-4o-transcribe和gpt-4o-mini-transcribe,现已通过API服务提供给第三方开发者。
这些模型基于GPT-4o打造,通过额外数据训练,提高了语音识别与转录的准确性,以及合成语音的自然度和定制化程度。
gpt-4o-mini-tts允许开发者通过文字提示调整AI的口音、音调、语气和情感表达,使AI在不同情境下能以合适的声线服务。
OpenAI演示了如何通过文字提示调整AI声线,如发出疯狂科学家的尖笑或冥想老师的平静语气。未来,AI代理将越来越多地通过语音与人类互动。
与之前的Whisper开源模型不同,gpt-4o系列的语音转录模型不打算开源,因为它们体积庞大,不适合开源发布。
这些模型经过更多元、高品质的语音数据集训练,能更好地捕捉带有口音和不同语音的人声,具有降噪功能,且产生幻觉的机率较低。
据OpenAI内部测试,gpt-4o-transcribe针对33种语言的识别错误率显著低于Whisper,英语错误率仅约2.46%,但在印度语系方面仍需加强。
[ 新闻来源:李智衍,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论
暂无评论哦,快来评论一下吧!

李智衍
开创IC领域,共创美好未来!
查看更多
相关文章
联发科:AI商机助力未来成长,定制化芯片成重点
2025-05-01
SkyeChip欲效仿博通发展定制化芯片
2025-05-13
OpenAI推出全球AI合作计划,首批10个国家
2025-05-08
OpenAI推出全球AI基建计划,引爆千亿美元市场
2025-05-09
南亚科加速开发定制化DRAM,瞄准2026年量产目标
2025-04-12
热门搜索
高通进军数据中心市场
海光信息合并中科曙光
华为
台积电
中芯国际
联发科
高通
英特尔
芯片
