“過去覺得世界杯距離我太遠(yuǎn)了,熬夜看球卻聽不懂、聽不清只能緊緊盯著屏幕;但今年無(wú)障礙字幕直播間一出,似乎一下子就把我骨子里的體育DNA帶動(dòng)起來(lái)了,字幕和畫面同時(shí)播放,那感覺說(shuō)身臨其境也不為過,最重要的是再也不用擔(dān)心跟不上、聽不懂了……”

“以前觀看這種節(jié)目其實(shí)我挺迷茫的,周圍人都在熱烈討論,甚至到精彩處歡呼雀躍,但因?yàn)槲易约旱纳眢w原因,很難融入,脫節(jié)帶來(lái)的孤獨(dú)感一度讓我很沮喪……如今借助無(wú)障礙字幕直播間,我又找到了那份可以與朋友快樂同步的體驗(yàn)!”

無(wú)障礙字幕直播間展示

沉浸體驗(yàn)并與快樂同步,是“無(wú)障礙字幕直播間”帶來(lái)的驚喜與感動(dòng);但對(duì)火山語(yǔ)音團(tuán)隊(duì)來(lái)說(shuō),做好“無(wú)障礙字幕直播間”的技術(shù)支持與保障,讓精彩持續(xù),卻是前所未有的挑戰(zhàn)。

攻克口語(yǔ)現(xiàn)象、語(yǔ)速語(yǔ)氣差異化 火山語(yǔ)音自研端到端流式語(yǔ)音識(shí)別系統(tǒng)

“其實(shí)語(yǔ)音識(shí)別本身就是一種挑戰(zhàn)!足球比賽瞬息萬(wàn)變,解說(shuō)下來(lái),很多口語(yǔ)現(xiàn)象不可避免,尤其是自我修正以及語(yǔ)序顛倒,差異化的語(yǔ)速語(yǔ)氣更是司空見慣。如果再碰上一些沒有經(jīng)過專業(yè)訓(xùn)練的解說(shuō)嘉賓參與其中,識(shí)別的難度就會(huì)進(jìn)一步加碼。為應(yīng)對(duì)這個(gè)問題,我們其實(shí)思考了很久,最終還是通過自研端到端的流式語(yǔ)音識(shí)別系統(tǒng)得到了解決?!被鹕秸Z(yǔ)音團(tuán)隊(duì)表示。

據(jù)了解,火山語(yǔ)音團(tuán)隊(duì)基于RNN-T框架,通過大量訓(xùn)練數(shù)據(jù)的積累和持續(xù)的算法優(yōu)化,自研推出的端到端的流式語(yǔ)音識(shí)別系統(tǒng),可以有效規(guī)避傳統(tǒng)語(yǔ)音識(shí)別系統(tǒng)中涉及的大量人工流程,例如依賴專業(yè)人員設(shè)計(jì)各種口音的發(fā)聲規(guī)則等,大幅度提高口音識(shí)別的效果。當(dāng)然其他中間環(huán)節(jié)的人工假設(shè)也減少了很多,比方說(shuō)對(duì)于猶豫、自我修正、語(yǔ)序顛倒等口語(yǔ)現(xiàn)象的表達(dá),會(huì)有更好的建模能力。

混合模型和端到端模型的對(duì)比示意圖

據(jù)團(tuán)隊(duì)介紹,端到端識(shí)別系統(tǒng)的backbone結(jié)構(gòu)(主干網(wǎng)絡(luò)結(jié)構(gòu))對(duì)識(shí)別效果至關(guān)重要,所以火山語(yǔ)音采用了業(yè)界領(lǐng)先的Conformer結(jié)構(gòu),可以同時(shí)對(duì)局部信息和全局信息進(jìn)行建模,識(shí)別效果較傳統(tǒng)的CNN、LSTM和DFSMN等結(jié)構(gòu)都有了大幅提升。但隨之而來(lái)的Conformer的計(jì)算開銷也會(huì)增加不少,因此團(tuán)隊(duì)又從模型角度優(yōu)化了Conformer的訓(xùn)練和推理耗時(shí),主要包括下采樣、Attention Mask和模型壓縮等方式?!笆紫菴onformer結(jié)構(gòu)的計(jì)算復(fù)雜度與輸入音頻的長(zhǎng)度相關(guān),特別是Attention計(jì)算復(fù)雜度與n的平方相關(guān),即音頻序列長(zhǎng)度越長(zhǎng)模型越慢,因此在整個(gè)模型的淺層,我們通過增加下采樣來(lái)降低模型的序列長(zhǎng)度;其次通過Attention Mask的方式約束Attention的范圍;最后通過自研的模型壓縮框架,自動(dòng)對(duì)模型進(jìn)行裁剪和量化,在降低計(jì)算復(fù)雜度的同時(shí),效果基本無(wú)損?!?/p>

除了對(duì)識(shí)別準(zhǔn)確率的要求之外,字幕的上屏速度也對(duì)觀賽體驗(yàn)起到重要影響?;鹕秸Z(yǔ)音團(tuán)隊(duì)通過在RNN-T訓(xùn)練過程中,對(duì)于每個(gè)字的發(fā)射延遲增加損失函數(shù),疊加Conformer結(jié)構(gòu)強(qiáng)大的上下文建模能力,發(fā)射延遲提升了300-400ms。

“無(wú)視”背景噪聲 優(yōu)化術(shù)語(yǔ)識(shí)別 ?品質(zhì)字幕如此煉成

在過往的很多大型競(jìng)技比賽中,因?yàn)椤霸庥觥贝罅勘尘霸胍?,例如背景音樂以及現(xiàn)場(chǎng)歡呼聲等,而帶來(lái)的識(shí)別困擾,被認(rèn)為是同傳字幕不準(zhǔn)的“罪魁禍?zhǔn)住??!百悎?chǎng)上經(jīng)常會(huì)出現(xiàn)的觀眾吶喊聲,特別容易被誤識(shí)別為’嗯、啊、哈’的語(yǔ)氣詞;背景音樂和觀眾聲則會(huì)降低解說(shuō)員聲音的清晰度,對(duì)識(shí)別模型造成了較大挑戰(zhàn)?!被鹕秸Z(yǔ)音團(tuán)隊(duì)提出。

針對(duì)上述問題,團(tuán)隊(duì)設(shè)計(jì)了一整套流程應(yīng)對(duì)優(yōu)化:首先需要自動(dòng)化地從足球比賽音頻中提取出這些噪聲片段,通過在模型中顯式地建模噪聲, 將噪聲誤出字的比例下降了95%;同時(shí)通過數(shù)據(jù)增強(qiáng)方式提高聲學(xué)模型在足球場(chǎng)景下的魯棒性,即在有背景音的情況下也能清晰識(shí)別人聲,實(shí)現(xiàn)更好的流式字幕效果。

在世界杯這樣的大型賽事中,提高對(duì)相關(guān)術(shù)語(yǔ)的識(shí)別效果,提升同傳字幕的專業(yè)度往往很關(guān)鍵。通常的做法是收集相關(guān)場(chǎng)景的語(yǔ)音識(shí)別訓(xùn)練集,但收集的過程耗費(fèi)時(shí)間太長(zhǎng)且成本較高;此外面對(duì)大量文本語(yǔ)料,如何利用這些純文本來(lái)優(yōu)化領(lǐng)域識(shí)別效果,這對(duì)于端到端的語(yǔ)音識(shí)別是一個(gè)業(yè)界難題。

“針對(duì)足球術(shù)語(yǔ)的優(yōu)化,我們選擇在收集的足球文本語(yǔ)料的基礎(chǔ)上訓(xùn)練語(yǔ)言模型,通過語(yǔ)言模型干預(yù)方式提高模型在足球領(lǐng)域的適配性?!庇捎诙说蕉四P捅旧硪搽[含語(yǔ)言模型信息,直接與外部語(yǔ)言模型進(jìn)行融合,往往效果不佳。所以團(tuán)隊(duì)根據(jù) RNN-T 的建模方式,通過解藕聲學(xué)模型和語(yǔ)言模型,顯式建模內(nèi)部語(yǔ)言模型,調(diào)整內(nèi)部語(yǔ)言模型和外部語(yǔ)言模型的權(quán)重,可以實(shí)現(xiàn)最佳的融合效果。

“對(duì)于教練與運(yùn)動(dòng)員人名識(shí)別難的問題,我們從足球相關(guān)語(yǔ)料中自動(dòng)挖掘?qū)S忻~、球隊(duì)和球員名稱等術(shù)語(yǔ),通過在解碼備選中引入FST(Finite State Transducer)邏輯結(jié)構(gòu),結(jié)合’匹配走圖+Backoff權(quán)重償還’的方式對(duì)熱詞進(jìn)行干預(yù),有效利用該熱詞專項(xiàng)技術(shù)優(yōu)化后,這些術(shù)語(yǔ)的召回從 64% 提升到 76%。”團(tuán)隊(duì)總結(jié)道。

盡管成功使用了熱詞干預(yù)的方式,但經(jīng)過大量測(cè)試實(shí)踐,火山語(yǔ)音團(tuán)隊(duì)發(fā)現(xiàn),人名又是一種特殊的熱詞,在 RNN-T 訓(xùn)練平行語(yǔ)料中多為 OOV,采用簡(jiǎn)單的熱詞干預(yù)方式會(huì)存在兩個(gè)問題:第一,人名中的每個(gè)單字RNN-T建模單元都是常見字,但是組合起來(lái)作為熱詞是OOV,這種情況下,純熱詞激勵(lì)權(quán)重會(huì)導(dǎo)致在不該出現(xiàn)人名的時(shí)候召回了人名,即“過召回”,再加上scale過大,導(dǎo)致弧上的邊加分過于明顯,更易過召回,這是人名重復(fù)出字的主要原因;第二,Top10備選路徑里面不會(huì)出現(xiàn)人名,單純通過外掛熱詞FST根本無(wú)法有效加分。

針對(duì)上述兩個(gè)問題,團(tuán)隊(duì)對(duì)人名熱詞干預(yù)做出了兩方面優(yōu)化,分別是擴(kuò)大FST干預(yù)備選以及對(duì)熱詞區(qū)分稀疏熱詞和普通熱詞,然后對(duì)兩種熱詞分別構(gòu)圖,在解碼邏輯區(qū)別處理。經(jīng)過兩項(xiàng)優(yōu)化,人名的召回率從76%提升到84%。此外還聯(lián)合火山語(yǔ)音音頻合成團(tuán)隊(duì)的同學(xué),采用TTS技術(shù)合成術(shù)語(yǔ)音頻,并加入聲學(xué)模型訓(xùn)練中,將這些術(shù)語(yǔ)的召回率進(jìn)一步提高到90%,字幕效果更佳。

熱詞干預(yù)方案的流程示意圖

如今在火山語(yǔ)音識(shí)別技術(shù)支持下,火山引擎語(yǔ)音識(shí)別產(chǎn)品已廣泛應(yīng)用于視頻娛樂、辦公會(huì)議、硬件交互、智能客服等諸多行業(yè),為客戶提供了優(yōu)質(zhì)且有前景的語(yǔ)音識(shí)別解決方案。近日,在火山語(yǔ)音識(shí)別能力的技術(shù)支持下,火山引擎語(yǔ)音識(shí)別產(chǎn)品獲得了國(guó)家語(yǔ)音及圖像識(shí)別產(chǎn)品質(zhì)量檢驗(yàn)檢測(cè)中心(簡(jiǎn)稱“AI國(guó)檢中心”)頒發(fā)的語(yǔ)音識(shí)別增強(qiáng)級(jí)檢驗(yàn)檢測(cè)證書,充分表明其語(yǔ)音識(shí)別技術(shù)能力已達(dá)到行業(yè)領(lǐng)先水平。

從洗腦主題曲“下蛋歌”的魔性旋律與動(dòng)作被爭(zhēng)先效仿,到可愛吉祥物“拉伊卜”被譽(yù)為“會(huì)飛的餃子皮兒”,再到旅居中東的大熊貓四海竟然能聽懂四川話,鄉(xiāng)音未改好不歡樂……不得不說(shuō)今年的卡塔爾世界杯確實(shí)貢獻(xiàn)了很多“眼前一亮”,如今賽程已進(jìn)四強(qiáng)爭(zhēng)霸,想必?zé)o障礙字幕直播間還將帶來(lái)更多驚喜。

分享到

songjy

相關(guān)推薦