Meta宣布,为口语表达的「闽南语」打造一个史无前例的人工智能(AI)技术翻译系统,可让使用闽南语的人士与使用英语的人士对话。MetaCEOMark Zuckerberg与来自台湾的Meta软件工程师陈鹏仁在影片中示范2种语言的同步翻译功能。
数据显示,台湾约有1,350万人使用闽南语,国内约有2,800万人,马来西亚200万人,新加坡150万人,菲律宾100万人。
陈鹏仁表示,父亲陈圣奖是一位70岁、退休的工厂技术主管,来自普遍使用台语(在台湾使用的闽南语)的台湾南部,常觉得用中文进行复杂的对话非常困难。「我希望我爸跟所有人沟通时都用台语对话,这是他最熟悉的语言。」陈鹏仁开始投入心力,推动全新的技术发展,让闽南语及英文之间得以相互翻译。
为开发这个只有口说语言的全新翻译系统,Meta AI 研究人员须克服许多来自传统机器翻译系统的挑战,包括数据搜集、模型设计,以及准确度评估。在将Universal Speech Translator(UST)扩展至更多语言之前,还有很多工作要做。
团队着手打造闽南语翻译系统时,面临的一个重大障碍就是是否能够搜集到足够的数据。闽南语是所谓的资源匮乏语言,这意味着与西班牙文或英文等语言相比,该语言尚未有足够的训练数据。
团队利用中文作为中间语言,建立伪标签和人工翻译,先将英语(或闽南语)语音翻译成中文文字,接着再翻译成闽南语(或英语),然后新增至训练数据中。此方法利用资源充足的相似语言的数据,借此大幅改善模型成效。
另一个产生训练数据的作法是语音探勘。团队使用预先训练好的语音编码器,便能透过编码方式将闽南语语音嵌入内容加入到其他语言的相同语意空间中,而无须取得闽南语的书写文字。闽南语语音可以和拥有相似语意嵌入内容的英语语音和文字配对,接着从文字来合成英文语音,产生平行的闽南语和英语语音。
除了开发方法以评估闽南语与英语语音翻译的准确度,Meta也根据名为Taiwanese Across Taiwan的闽南语语音语料库,建立第一个闽南语与英语双向的语音翻译基准数据集。将开放此基准数据集的原始码,鼓励其他研究人员合作进行闽南语语音翻译,并一同在该领域中取得进一步进展。
Meta指出,目前作法能够让闽南语人士与英语人士对话。虽然该模型仍在开发中,而且每次只能翻译一个完整句子,但距离为各种语言提供同步翻译的目标又靠近一步。未来不只会开放闽南语翻译模型的原始码,也会公开评估数据集和研究报告,让他人能够重现,并以Meta的工作成果为基础建立模型。
责任编辑:张兴民
暂无评论哦,快来评论一下吧!