多特征融合的越英端到端語音翻譯方法
摘要: 語音翻譯的編碼器需要同時編碼語音中的聲學(xué)信息和語義信息,單一的Fbank或Wav2vec2語音特征表征能力存在不足。通過分析人工的Fbank特征與自監(jiān)督的Wav2vec2特征間的差異性,提出基于交叉注意力機(jī)制的聲學(xué)特征融合方法,并探究了不同的自監(jiān)督特征和融合方式,加強(qiáng)模型對語音中聲學(xué)和語義信息的學(xué)習(xí)。結(jié)合越南語語音特點(diǎn),以Fbank特征為主、Pitch特征為輔混合編碼Fbank... (共11頁)
開通會員,享受整站包年服務(wù)