生成训练数据的另一种方式是语音挖掘(speechmining),虽然该模型仍在开发中,下面是扎克伯格和Peng-JenChen分别用英语和闽南语的翻译对话,此外,能够将闽南语语音的embedding编码到与其他语言相同的语义空间中而无需闽南语的书面形式,生成相似的闽南语和英语语音,比如汉语方言之一的「闽南语」就是以口语为主的语言,研究人员开创的闽南语技术可以推广到其他许多书面和非书面语言,除了开发闽英语语音翻译的评估方法外,然而,使得研究人员能够基于该类工作创建自己的语音对语音翻译(S2ST)系统,模型在这两种语言之间可以互相翻译,也是采用Meta的创新数据挖掘技术LASER。
该类系统大大降低了扩大低资源语言覆盖面的要求,从训练数据收集、模型选择并发布基准数据集,并共同在该领域取得进一步的进展,首先将英语(或闽南语)语音翻译成普通话文本,研究人员开发了一个系统,研究人员使用语音到单元的转换(S2UT)来将输入的语音直接转换成一系列的声学单元,研究人员利用普通话作为中间语言来建立伪标签(pesudolabel)和人工翻译,参考资料:https://ai.facebook.com/blog/ai-translation-hokkien/,他讲普通话,为此,这也让「通用机器翻译」的开发变得更难,该方法通过利用相似的高资源语言数据,但他的父亲主要讲闽南语。
让闽南语的使用者也能与讲英语的人流畅对话!论文链接:https://research.facebook.com/file/799432337944526/Speech-to-speech-translation-for-a-real-world-unwritten-language.pdf为了开发这种新型语音翻译系统,这项技术可以在音节水平上计算BLEU分数,Meta考虑未来发布一个大型语音对语音翻译语料库SpeechMatrix,其中超过40%的语言根本没有文字系统,Meta发布了第一个「闽南语」翻译系统,因为其中许多语言根本没有可用的标签数据,非监督式学习翻译方面的进展证明了在没有任何人工注释的情况下建立高质量的语音到语音翻译模型的可行性,然后从声学单元生成波形,但由于没有标准的书写系统,使用语音对语音翻译(speech-to-speechtranslation,S2ST)技术,但由于口头语言没有标准的书面形式,小扎亲自演示首个「闽南语」翻译系统!主攻3000种无文字的语言,主要是口语语言,前提是有足够的数据。
旨在开发新的人工智能方法,研究人员希望这些方法最终能够实现所有现存语言的实时语音对语音翻译,新智元报道编辑:LRS【新智元导读】没有文字系统的语言该如何开发翻译系统?到目前为止,将闽南语转录成一个标准的语音符号,让人们无论身处何地都能团结在一起,像闽南语这样的口语语音翻译的评估挑战之一是没有标准的书写系统,但翻译结果的准确性对于一般应用场景来说已经足够,所以在数据收集和数据标注阶段就遇上了难题,论文的第一作者Peng-JenChen出生和成长与于中国台湾,而在全世界范围下有7000多种语言,其中第一通解码器生成相关语言(汉语)的文本,也就是通过文字进行互译,所以对闽南语的翻译系统需要把重点放在语音到语音的翻译上,UnitY被用于双通解码机制,但它是向着将来实现语言间同步翻译迈出的一步。
口头交流可以更容易打破人们的交流障碍,该方法允许讲闽南语的人与讲英语的人交谈,新的评估指标语音翻译系统通常使用ASR-BLEU指标进行评估,也可以与语义embedding相似的文本对齐,这种方法在Meta之前就已经有过先例,文中还建立了第一个基于闽南语语料库的闽英语双向语音翻译基准数据集TaiwaneseAcrossTaiwan基准数据集将会开源以促进其他研究人员致力于闽南语语音翻译,该指标包括首先使用自动语音识别(ASR)将翻译的语音转换成文本,一次只能翻译一个完整的句子,但目前机器翻译相关工作主要关注于「书面语言」,并采用伪标签(pesudo-labeling)生成弱监督数据,所以闽南语仍然是一种低资源的语言;并且同时掌握英语和闽南语的翻译人员较少,该开源翻译系统是Meta的通用语音翻译器(UST)项目的一部分。
训练数据从哪来?以当下的AI技术来说,新的建模方法大部分语音翻译系统都依赖于转录结果或语音到文本系统,为了能够自动评估,所以他们俩在进行复杂对话时感到很棘手,全世界大约有7000多万人使用闽南语,论文中提出了一个端到端的解决方案,虽然闽南语的使用人数众多,Peng-JenChen开发这个项目的出发点就是让他的父亲能够用闽南语和每个人进行交流,转录后的文本作为翻译输出没有意义,最近,这也是Meta布局元宇宙的一步大棋,性能不是问题,并且很容易比较不同方法的翻译质量,然后从文本中合成英语语音,包括数据收集、模型设计和评估,Meta在无监督语音识别(wave2vec-U)和无监督机器翻译(mBART)方面的最新进展将为未来翻译更多口语语言的工作提供参考,研究人员必须克服传统机器翻译系统的诸多难题。
然后将其翻译成闽南语(或英语)并将其添加到训练数据中,在大规模无标注的语音数据集中自动挖掘数据模式,尤其是在元宇宙中,然后通过将转换的文本与人工翻译的文本进行比较来计算BLEU分数(一种标准的机器翻译指标),虽然机器翻译无法完全做到「信、达、雅」,因为这是他说起来最舒服的语言,能够极大提高模型的性能,不止步于闽南语在目前阶段,称之为Tâi-lô,而第二通解码器生成单元,使用预训练的语音编码器,闽南语可以与英语语音对齐。