具體來說,第一階段的數(shù)據(jù)收集,可以通過語種分流、采購等手段收集目標(biāo)語言的無標(biāo)注語音、標(biāo)注語音和純文本數(shù)據(jù)。
第二階段的種子模型訓(xùn)練,也就是經(jīng)典的“無監(jiān)督預(yù)訓(xùn)練+有監(jiān)督微調(diào)”過程。這一階段將得到一個聲學(xué)模型,通常基于連接時序分類(Connectionist Temporal Classification, CTC [3])損失函數(shù)微調(diào)。聲學(xué)模型結(jié)合純文本訓(xùn)練的語言模型,構(gòu)成一個完整的語音識別系統(tǒng),可以取得不錯的識別效果。之所以稱之為種子模型,是因為這個模型并不適合直接上線到業(yè)務(wù),我們更傾向于使用LAS(Listen, Attend and Spell [4])或RNN-T(Recurrent Neural Network Transducer [5])這類端到端模型進行線上部署。
歸其原因,主要是LAS/RNN-T具有出色的端到端建模能力,同時在近年來已經(jīng)取得了優(yōu)于傳統(tǒng)CTC模型的效果,并在工業(yè)界得到越來越多的應(yīng)用?;鹕秸Z音團隊針對端到端語音識別模型的推理和部署做了大量優(yōu)化工作,已形成一套相對成熟的方案,并支持眾多業(yè)務(wù)。在維持效果無損的前提下,如果可以沿用端到端推理引擎,就能大幅降低引擎的運維成本。
基于此團隊設(shè)計了第三階段,即模型遷移階段。主要借鑒知識蒸餾的思想,用種子模型對無標(biāo)注數(shù)據(jù)打偽標(biāo)簽,然后提供一個參數(shù)量較小的LAS模型做訓(xùn)練,同步實現(xiàn)了模型結(jié)構(gòu)的遷移和推理計算量的壓縮。整個流程的有效性在粵語ASR上得到驗證,具體實驗結(jié)果如下表所示:
首先,團隊采購了1kh成品數(shù)據(jù)用于實驗對比,直接訓(xùn)練LAS模型性能不佳,字錯率(Character Error Rate, CER)高達(dá)44.2%。經(jīng)過分析,火山語音認(rèn)為主要原因是采購數(shù)據(jù)(對話)和業(yè)務(wù)測試集(視頻)領(lǐng)域不匹配,在wav2vec2.0上的初步實驗也發(fā)現(xiàn)了類似的現(xiàn)象。
相比用采購數(shù)據(jù)做預(yù)訓(xùn)練,采用和目標(biāo)領(lǐng)域一致的數(shù)據(jù)做預(yù)訓(xùn)練,在業(yè)務(wù)測試集上的CER可以從42.0%下降到29.4%,于是團隊將業(yè)務(wù)場景的無標(biāo)注數(shù)據(jù)積累到50kh,模型參數(shù)量從100M增加到300M,CER進一步下降到23.1%。
最后團隊驗證了模型遷移的效果,結(jié)合粵語語言模型對50kh無標(biāo)注數(shù)據(jù)解碼得到偽標(biāo)簽,訓(xùn)練LAS模型??梢钥吹?,基于偽標(biāo)簽訓(xùn)練的LAS模型基本可以保持CTC種子模型的識別效果且模型參數(shù)量減少了三分之一,可以直接基于成熟的端到端推理引擎部署上線。
最終在模型結(jié)構(gòu)和參數(shù)量不變的前提下,團隊用50kh無標(biāo)注業(yè)務(wù)數(shù)據(jù)和10h有標(biāo)注業(yè)務(wù)數(shù)據(jù)取得了23.0%的CER,相對基線模型下降48%。解決了線上計算量和兼容性的問題之后,聚焦到整個流程中最為核心的無監(jiān)督預(yù)訓(xùn)練技術(shù),針對wav2vec2.0,火山語音團隊分別從算法和工程兩個維度進行了優(yōu)化。
算法優(yōu)化
wav2vec2.0作為Meta AI在2020年提出來的自監(jiān)督預(yù)訓(xùn)練模型,開啟了語音無監(jiān)督表征學(xué)習(xí)的新篇章。其核心思想在于用量化模塊將輸入特征離散化,并通過對比學(xué)習(xí)優(yōu)化,模型主體與BERT類似,隨機mask部分輸入特征。
對此在業(yè)務(wù)數(shù)據(jù)上訓(xùn)練wav2vec 2.0模型遇到了兩個棘手的問題:一個是訓(xùn)練效率低,300M的大模型64卡需要十幾天才能訓(xùn)完;另一個是訓(xùn)練不穩(wěn)定,容易發(fā)散。為此團隊提出Efficient wav2vec以緩解上述兩個問題:
對于訓(xùn)練效率低的問題,團隊通過降低模型的幀率來加快訓(xùn)練速度,將輸入特征從waveform替換成filterbanks,幀率由原來的20ms變成40ms。這樣既大幅降低了特征提取卷積的計算量,同時也大幅降低了Transformer內(nèi)部編碼的長度,從而提高訓(xùn)練效率。對于訓(xùn)練不穩(wěn)定的問題,則是通過分析無監(jiān)督預(yù)訓(xùn)練的學(xué)習(xí)方式并結(jié)合業(yè)務(wù)數(shù)據(jù)實際情況綜合判斷解決,對比學(xué)習(xí)損失可以用下式表達(dá):
對于每一幀t,Ct表示該幀的編碼器輸出,qt表示該幀的量化輸出。除此之外,還需要采樣若干其它幀作為負(fù)樣本,從而當(dāng)前幀與負(fù)樣本幀的集合就相當(dāng)于是動態(tài)構(gòu)造的詞表Qt。
為了解決上述兩個問題,火山語音對應(yīng)提出了兩點改進:
1.等長數(shù)據(jù)流:預(yù)訓(xùn)練過程中將整個訓(xùn)練集視為由每句話首尾拼接而成的一段音頻,每個訓(xùn)練樣本從中截取固定長度得到,這樣做是為了保證負(fù)樣本數(shù)量足夠多,且上下文編碼網(wǎng)絡(luò)內(nèi)部的長度在不同幀率下一致,進而保證訓(xùn)練的穩(wěn)健性。
2.自適應(yīng)連續(xù)mask:為緩解數(shù)據(jù)噪音對訓(xùn)練的影響,選取較小的mask長度且強制每個mask區(qū)域連續(xù),并且mask區(qū)域?qū)?yīng)的音頻長度在不同幀率下相當(dāng)。這樣既減輕了噪音數(shù)據(jù)下對比學(xué)習(xí)的難度,同時也做到了適配不同的幀率。
在業(yè)務(wù)數(shù)據(jù)上對比了wav2vec2.0(w2v)與 Efficient wav2vec (w2v-e)的效果,如下表所示(所有模型均采用64 V100 GPUs訓(xùn)練):
可以看到改進過的Efficient wav2vec相對原始wav2vec 2.0有穩(wěn)定5%的性能提升,并且訓(xùn)練效率接近翻倍。
工程優(yōu)化
盡管團隊提出的Efficient wav2vec已經(jīng)從算法層面將訓(xùn)練效率提升近兩倍,但由于300M模型通信量大,訓(xùn)練通信依然存在波動且多機擴展效率低。對此火山語音團隊總結(jié)道:“為了提高模型預(yù)訓(xùn)練在同步梯度場景下的通信效率,我們基于BytePS的分布式訓(xùn)練框架,在通信后端完成了Bucket分組通信優(yōu)化技術(shù),數(shù)據(jù)并行效率能取得10%的提升;同時針對模型參數(shù)定義順序與梯度更新順序不同造成的等待問題,還實現(xiàn)了自適應(yīng)的參數(shù)重排(Parameter Reorder)策略?!?strong>在這些優(yōu)化基礎(chǔ)上,進一步結(jié)合梯度累加等技術(shù),300M模型的單卡擴展效率由55.42%提升至81.83%,多機擴展效率由60.54%提升至91.13%,原來需要6.5天訓(xùn)完的模型現(xiàn)在只需要4天就可以訓(xùn)完,耗時縮短40%。
此外,為了支持未來探索的大模型大數(shù)據(jù)場景,火山語音工程團隊進一步完成了一系列超大規(guī)模模型的原子能力建設(shè)。首先實現(xiàn)了local OSS技術(shù),在去除優(yōu)化器大部分的冗余內(nèi)存占用的同時,解決了機間擴展效率問題;之后在同步梯度通信上支持了bucket lazy init,減少了一倍參數(shù)量的顯存占用,能大幅降低顯存峰值并適配顯存資源緊張的超大模型場景;最后在數(shù)據(jù)并行的基礎(chǔ)上,還支持了模型并行和流水線并行,并在1B和10B模型上完成了驗證和定制化支持。這一系列優(yōu)化為大模型大數(shù)據(jù)的訓(xùn)練打下堅實基礎(chǔ)。
目前,通過采用低資源ASR落地流程,已有兩個低資源語言成功落地視頻字幕和內(nèi)容安全業(yè)務(wù)。除語音識別外,基于wav2vec2.0的預(yù)訓(xùn)練模型在其他多個下游任務(wù)上也已取得顯著收益,涉及音頻事件檢測、語種識別、情感檢測等,未來將陸續(xù)落地到視頻內(nèi)容安全、推薦、分析、音頻分流、電商客服情感分析等相關(guān)業(yè)務(wù)中。無監(jiān)督預(yù)訓(xùn)練技術(shù)的落地將顯著降低各類音頻數(shù)據(jù)的標(biāo)注成本,縮短標(biāo)注周期,實現(xiàn)對業(yè)務(wù)需求的快速響應(yīng)。
總結(jié)與展望
火山語音團隊在實踐中摸索出一套基于wav2vec2.0的低資源語種ASR落地方案,解決了推理開銷大的問題,實現(xiàn)了與端到端引擎的無縫銜接。針對其中最核心的wav2vec2.0訓(xùn)練效率低和不穩(wěn)定的問題,提出了Efficient wav2vec。相比wav2vec2.0,在下游任務(wù)上效果提升5%,預(yù)訓(xùn)練耗時縮短一半,結(jié)合工程上的優(yōu)化,最終預(yù)訓(xùn)練耗時相比原始版本縮短70%。未來,火山語音團隊將在以下三個方向持續(xù)挖掘探索:
火山語音,長期以來面向字節(jié)跳動各大業(yè)務(wù)線以及火山引擎ToB行業(yè)與創(chuàng)新場景,提供全球領(lǐng)先的AI語音技術(shù)能力以及卓越的全棧語音產(chǎn)品解決方案,包括音頻理解、音頻合成、虛擬數(shù)字人、對話交互、音樂檢索、智能硬件等。目前團隊的語音識別和語音合成覆蓋了多種語言和方言,多篇技術(shù)論文入選各類AI 頂級會議,為抖音、剪映、飛書、番茄小說、Pico等業(yè)務(wù)提供了領(lǐng)先的語音能力,并適用于短視頻、直播、視頻創(chuàng)作、辦公以及穿戴設(shè)備等多樣化場景,通過火山引擎開放給外部企業(yè)。
[1] Baevski, A., Zhou, Y., Mohamed, A. and Auli, M., 2020. wav2vec 2.0: A framework for self-supervised learning of speech representations. Advances in Neural Information Processing Systems, 33, pp.12449-12460.
[2] Hsu, W.N., Bolte, B., Tsai, Y.H.H., Lakhotia, K., Salakhutdinov, R. and Mohamed, A., 2021. Hubert: Self-supervised speech representation learning by masked prediction of hidden units. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 29, pp.3451-3460.
[3] Graves, A., Fernández, S., Gomez, F. and Schmidhuber, J., 2006, June. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. In Proceedings of the 23rd international conference on Machine learning (pp. 369-376).
[4] Chan, W., Jaitly, N., Le, Q. and Vinyals, O., 2016, March. Listen, attend and spell: A neural network for large vocabulary conversational speech recognition. In 2016 IEEE international conference on acoustics, speech and signal processing (ICASSP) (pp. 4960-4964). IEEE.
[5] Graves, A., 2012. Sequence transduction with recurrent neural networks. arXiv preprint arXiv:1211.3711.
[6] He, K., Chen, X., Xie, S., Li, Y., Dollár, P. and Girshick, R., 2022. Masked autoencoders are scalable vision learners. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 16000-16009).
[7] Baevski, A., Hsu, W.N., Xu, Q., Babu, A., Gu, J. and Auli, M., 2022. Data2vec: A general framework for self-supervised learning in speech, vision and language. arXiv preprint arXiv:2202.03555.
[8] Conneau, A., Baevski, A., Collobert, R., Mohamed, A. and Auli, M., 2020. Unsupervised cross-lingual representation learning for speech recognition. arXiv preprint arXiv:2006.13979.
[9] Lu, Y., Huang, M., Qu, X., Wei, P. and Ma, Z., 2022, May. Language adaptive cross-lingual speech representation learning with sparse sharing sub-networks. In ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 6882-6886). IEEE.
[10] Park, D.S., Zhang, Y., Jia, Y., Han, W., Chiu, C.C., Li, B., Wu, Y. and Le, Q.V., 2020. Improved noisy student training for automatic speech recognition. arXiv preprint arXiv:2005.09629.