LiteG2P:一種快速、輕量級、高精度的字音轉換模型(LiteG2P: A Fast, Light and High Accuracy Model for Grapheme-to-Phoneme Conversion )
研究背景:眾所周知,字音轉換(G2P)旨在將單詞轉換為其對應的發(fā)音表示,通常被廣泛應用于語音識別(ASR)及語音合成(TTS)等語音任務中,但現有方法中基于規(guī)則的方法預測精度往往較差,還需要大量專家經驗的輔助;其中基于數據驅動的深度模型方案雖然精度高,但模型尺寸往往較大且計算效率偏低。對此,火山語音團隊提出了一種高效快速、輕量級、高精度的字音轉換模型,可進一步適用于多類端側設備。
方法分析:LiteG2P結合數據驅動和知識驅動的優(yōu)勢,得以在控制模型尺寸較小的同時取得較高精度,模型層面上不同于傳統(tǒng)的基于注意力機制的序列到序列預測模型,而是采用CTC損失進行字音的對齊,同時使得模型具備了并行預測音素序列的優(yōu)勢;除此之外,火山語音團隊還額外引入了語言知識詞典,用以指導字母擴展長度以及縮小目標預測音素集合。
The architecture of LiteG2P
效果呈現:最終LiteG2P模型相較于主流基線模型具有高精度、并行化、輕量級、快速等優(yōu)勢,與主流基線模型在準確率相當的同時速度提升30倍以上,參數量小10倍以上;可一套模型架構同時部署在端云多種類型設備上,在端側設備上單個單詞的推理速度預測為5ms以內,云端設備2ms以內。
基于雙向注意力機制的語音文本的多模態(tài)訓練提升語音識別性能(SPEECH-TEXT BASED MULTI-MODAL TRAINING WITH BIDIRECTIONAL ATTENTION FOR IMPROVED SPEECH RECOGNITION)
研究背景:如今,盡管端對端模型簡化了訓練流程,將聲學模型、詞典、語言模型合并在一個統(tǒng)一的模型中,但卻非常依賴大量的帶標簽訓練數據。相比于帶標簽數據,不成對的數據,例如純音頻或者純文本數據更容易獲取。為了緩解數據的稀疏性問題,往往會嘗試將不成對的數據參與到訓練中,有利于在低資源場景下訓練出性能良好的端到端語音識別模型。本篇論文正是使用純文本數據參與端到端模型解碼器的訓練,使解碼器學習到更多的語義信息,從而改善模型性能。此過程需要使用文本編碼器去擬合音頻編碼器的輸出,從而解決解碼器訓練依賴于編碼器的問題。由于音頻和文本長度不一致,論文提出使用基于雙向注意力機制的語音文本的多模態(tài)訓練方式,自動學習語音和文本之間的對齊關系。
方法分析:具體方式,語音編碼器輸出與文本編碼器輸出經過雙向注意力計算后,語音編碼器輸出長度會縮短到文本長度,文本編碼器輸出會拓展到音頻長度。雙向注意力機制的輸出會使用Cosine distance loss、MLM loss、Grapheme CTC loss來進行訓練,在訓練過程中模型會學習到語音和文本之間的對齊,并且語音編碼器和文本編碼器能學習具備一致性的特征。
基于語音文本的雙向注意機制多模態(tài)學習框架
如圖所示,虛線框內是訓練中增加的模塊和損失函數,在解碼時不會參與計算,所以不影響解碼時期速度。Grapheme CTC loss 的作用是對經過重采樣的語音嵌入和文本嵌入進行 Grapheme 的分類,MLM Loss 作用則是使文本編碼器能夠學習語義信息,Cosine Embedding loss 是為了拉近語音嵌入與文本嵌入之間的距離。這三個損失函數都是建立在雙向注意力機制計算出來的、經過對齊的語音嵌入和文本嵌入上,從而隱性讓嵌入之間獲得對齊。經過語音和文本多模態(tài)訓練后,文本編碼器可以生成接近語音編碼器輸出的特征,火山語音團隊使用純文本數據送進Text encoder隨后重復兩次,減小語音和文本之間長度差異,用于解碼器的訓練,使其學習更多的語義信息。
效果呈現:經過本論文提出的語音和文本多模態(tài)訓練方式,在Librispeech公共數據集上獲得性能提升,得出僅使用帶標簽數據訓練時,可以實現達6.15%的相對詞錯誤率提升;當使用更多的非配對文本數據時,相對詞錯誤率提升可以達到9.23%。
利用字符級別語種分割減少跨語種語音識別中的語種混淆(Reducing Language Confusion for Code-switching Speech Recognition with Token-level Language Diarization)
研究背景:通常,語種轉換發(fā)生在語音信號的語種變換時會導致跨語種語音識別的語種混淆問題。對此,火山語音團隊從融合和解耦語種信息兩個角度解決語種混淆問題,從而提升跨語種語音識別的性能。
方法分析:具體來說對于融合語種信息的過程,團隊通過使用一個基于序列對序列的語種分割的副任務來生成字符級別的語種后驗概率,并使用語種后驗概率來動態(tài)調整跨語種語音識別模型;相反解耦的過程則是通過對抗減少不同語種間的差別,從而將不同語種歸一化。兩種不同方法實現構架如下圖所示:
The hybrid CTC/attention model (a) incorporating language information using language posterior bias, and (b) disentangling language via adversarial learning
效果呈現:我們將提出的方法在SEAME數據集上進行了驗證。和基線模型相比,結合了語種分割任務的多任務訓練和團隊提出的語種后驗概率偏置方法均取得了性能提升?!芭c此同時,將融合和解耦語種信息的兩種方法進行了比較,我們發(fā)現比較結果表面融合語種信息,可以更有效地提升跨語種的語音識別性能?!眻F隊強調。
一種無需ASR的基于自監(jiān)督學習的流利度評分方法 (An ASR-free Fluency Scoring Approach with Self-supervised Learning )
研究背景:口語流利度,即發(fā)音語速快慢以及是否出現異常停頓,是反映對應習得語言熟練程度的重要指標之一。此前的大多數判斷方法往往需要借助ASR系統(tǒng)獲得語音單元(例如單詞、音節(jié)、音素等)的時間對齊信息,基于此來進一步計算或表示語音流利度的特征,但目標語言的ASR系統(tǒng)并非總能輕易獲得以上信息,此外在過程中還會產生不可避免的識別錯誤。對此火山語音團隊提出了一種嶄新且無需ASR系統(tǒng)的、基于自監(jiān)督學習的流利度評分方法,也就是利用自監(jiān)督預訓練語音模型Wav2vec 2.0 產生的幀級語音表征,以及經過聚類算法生成的幀級偽標簽,作為后續(xù)序列模型的輸入,最終完成流利度分數的預測。
The proposed ASR-free fluency scoring framework
效果呈現:后續(xù)實踐結果表示,該方案在機器預測結果和人類專家打分之間的相關性達到了0.797, 明顯好于之前依賴ASR系統(tǒng)的方法所達到的0.759。方案利用了自監(jiān)督語音特征強大的音素鑒別能力,使用幀級聚類偽標簽序列來模擬基于ASR的音素時間對齊,不僅移除了對ASR的依賴而且展現了更可靠的評分性能。
利用音素級別的語言–聲學相似度進行句子級別的發(fā)音評分 (Leveraging Phone-level Linguistic-Acoustic Similarity for Utterance-level Pronunciation Scoring)
研究背景:所謂自動發(fā)音評分系統(tǒng)往往需要度量學習者實際發(fā)音和參考發(fā)音的偏離程度來估計整體的發(fā)音準確度,但以往方法大多數是通過加和或者連接聲學嵌入和音素嵌入等這些隱式方式來實現的。對此,火山語音團隊提出了利用音素級別的語言-聲學相似度進行句子級別的發(fā)音評分方法, 相比于隱式的度量方式,通過聲學嵌入和音素嵌入的余弦相似度去顯式描述實際發(fā)音和參考發(fā)音的偏離程度的方法效果更好,并將此作為額外特征與原有的兩種嵌入序列一起融入后續(xù)的序列模型,來完成最終發(fā)音準確度的評分。
The hierarchical architecture of the pronunciation scoring network, where phone-level features can be calculated by using add_phone, concat_phone or our proposed method
效果呈現:這種顯式的度量方法在內部與公開數據集上被證實明顯優(yōu)于以往的加和與連接的隱式度量方法,也就是說基于音素級別GOP的預訓練在所有的度量方式上均取得了較大提升;結合語言-聲學相似度的顯示度量和GOP預訓練的打分系統(tǒng)取得了最佳評分性能,其機器預測結果和人類專家打分之間的相關性達到了0.858,顯著高于論文報告的多個基線系統(tǒng)。
基于內部語言模型估計的跨域自適應的語言模型融合(Internal Language Model Estimation based Adaptive Language Model Fusion for Domain Adaptation)
研究背景:只要在通用領域或特定目標領域有足夠多的文本,內部語言模型融合就能顯著改善端到端語音識別性能。但當一個通用領域商業(yè)語音識別系統(tǒng)部署后,由于數據訪問受到限制,用戶往往只具有與自己相關的特定目標領域文本數據,也就是說由于數據保密等原因,用戶不能獲取原通用領域文本數據,因此通過內部語言融合的自動語音識別系統(tǒng)只能在用戶特定的領域獲取性能改善,而在通用領域性能上則會造成損傷、顯著降低。 基于上述原因,論文提出一種在用戶只具有特定目標領域文本數據前提下,相對傳統(tǒng)的內部語言模型估計融合方法,實現在特定領域獲取性能顯著改善,而在通用領域仍然能取得較好性能的自適應性語言模型融合方法。
方法分析:該方法基于內部語言模型估計,前提是當一個語音識別系統(tǒng)交付上線后,提供用戶訪問的子系統(tǒng)有端到端語音識別系統(tǒng)以及內部語言模型。用戶只需關注自己特定領域的語言模型,就能獲取在特定領域性能明顯改善,并且在通用領域性能達到很小損失的結果。具體做法,識別系統(tǒng)在做語言模型融合的時候,比較基于每個子詞在內部語言模型和用戶特定語言模型的得分,根據大小來決定是否做內部語言模型融合,實現所謂的自適應融合功能。
效果呈現:為驗證該方法的有效性,火山語音團隊以10萬小時訓練得到的中文語音識別系統(tǒng)為通用領域識別系統(tǒng),另外將醫(yī)療和小說搜索定義為特定領域,結果證明可以在特定領域取得18.6% 相對字錯誤率降低,而在通用領域只有2.4%的相對字錯誤率的升高。
一直以來,火山語音團隊面向字節(jié)跳動內部各業(yè)務線,提供優(yōu)質的語音AI技術能力以及全棧語音產品解決方案,并通過火山引擎對外提供服務。自 2017 年成立以來,團隊專注研發(fā)行業(yè)領先的 AI 智能語音技術,不斷探索AI 與業(yè)務場景的高效結合,以實現更大的用戶價值。