6月8日記者獲悉,ICPR2022多模態(tài)字幕識(shí)別比賽(Multimodal Subtitle Recognition簡(jiǎn)稱(chēng)MSR競(jìng)賽)日前正式結(jié)束,共有376位來(lái)自各大高校和企業(yè)的選手參賽。

網(wǎng)易浙大華科聯(lián)合團(tuán)隊(duì)、好未來(lái)、Yidun AI Lab獲賽道一前三名,網(wǎng)易、大搜車(chē)、Yidun AI Lab獲賽道二前三名,Yidun AI Lab、中科院自動(dòng)化所、好未來(lái)獲賽道三前三名。

作為國(guó)內(nèi)首個(gè)多模態(tài)字幕識(shí)別大賽,本次競(jìng)賽由騰訊 OCR & ASR Oteam 聯(lián)合華南理工、華中科技大學(xué)、聯(lián)想等依托于計(jì)算機(jī)國(guó)際學(xué)術(shù)頂會(huì)ICPR舉辦。大賽從多模態(tài)角度出發(fā),創(chuàng)新性地提出從畫(huà)面和語(yǔ)音聯(lián)合的字幕識(shí)別框架,希望推動(dòng)字幕識(shí)別技術(shù)的準(zhǔn)確性和應(yīng)用性的進(jìn)一步提升,彌補(bǔ)該技術(shù)領(lǐng)域的空白,并為學(xué)術(shù)界和業(yè)界創(chuàng)造交流機(jī)會(huì)。

在日常生活中,人們認(rèn)知世界的過(guò)程總是多模態(tài)的。個(gè)體對(duì)場(chǎng)景進(jìn)行感知時(shí)會(huì)接收到多種信號(hào),如視覺(jué)、聽(tīng)覺(jué)、嗅覺(jué)等。因此,多模態(tài)機(jī)器學(xué)習(xí)方法更貼近人類(lèi)認(rèn)識(shí)世界的形式,也是人工智能技術(shù)取得進(jìn)一步進(jìn)展的基石。比如通過(guò)對(duì)視頻、音頻、文本等多種模態(tài)數(shù)據(jù)進(jìn)行聯(lián)合解析,模型可以更充分的理解廣告內(nèi)容,優(yōu)化廣告內(nèi)容和提升廣告投放效果。

觀眾在觀看視頻時(shí),往往會(huì)接收到兩類(lèi)信號(hào),即視覺(jué)和聽(tīng)覺(jué),通過(guò)這兩類(lèi)信號(hào),觀眾可快速且準(zhǔn)確判斷視頻字幕的內(nèi)容。 然而,受限于各種原因,字幕識(shí)別技術(shù)目前大多基于單個(gè)模態(tài),僅利用單模態(tài)信息,視頻字幕提取的準(zhǔn)確性較差。例如,音頻對(duì)背景噪聲和口音變化很敏感,有些方言或諧音詞難以準(zhǔn)確識(shí)別,但是如果加入視覺(jué)信息,那么上述問(wèn)題可以很容易得到解決。

騰訊ASR&OCR Oteam首次提出在字幕識(shí)別技術(shù)中引入了多模態(tài)技術(shù),彌補(bǔ)了這一技術(shù)在業(yè)內(nèi)的空白。

在賽道一“使用含有音頻字幕標(biāo)注的數(shù)據(jù),來(lái)訓(xùn)練視覺(jué)模態(tài)的字幕識(shí)別系統(tǒng)”中,字幕標(biāo)簽由騰訊 ASR Oteam提供。來(lái)自網(wǎng)易、浙大、華科聯(lián)合團(tuán)隊(duì)Jingquntang etal設(shè)置的冠軍方案模型主要分為三個(gè)部分:文字檢測(cè)、文字識(shí)別以及字幕提取部分。由于字幕標(biāo)注信息是跨模態(tài)的弱監(jiān)督標(biāo)注數(shù)據(jù),因此文本識(shí)別模塊難以訓(xùn)練。為了解決該問(wèn)題,冠軍方案使用構(gòu)造數(shù)據(jù)的方式來(lái)解決該問(wèn)題。首先,該方案使用文本檢測(cè)模塊檢測(cè)視頻幀中的文本并將文本進(jìn)行抹除。接著,該方案將音頻提供的字幕信息與抹除文字后的幀生成新的視頻幀。該方案使用生成數(shù)據(jù)對(duì)文本識(shí)別模塊進(jìn)行訓(xùn)練。字幕提取模塊對(duì)比前后幀的字幕內(nèi)容、IoU信息、和文本框位置提取字幕。

在賽道二“使用含有視覺(jué)模態(tài)字幕標(biāo)注的數(shù)據(jù),來(lái)訓(xùn)練音頻字幕識(shí)別系統(tǒng)”中,騰訊OCR Oteam提供了字幕標(biāo)簽。來(lái)自網(wǎng)易的nickyang etal隊(duì)伍設(shè)置的冠軍方案,同時(shí)訓(xùn)練了若干個(gè)ASR模型,并將所有模型的輸出融合為最終結(jié)果。在數(shù)據(jù)預(yù)處理部分,對(duì)于含有字幕標(biāo)注的訓(xùn)練集,冠軍方案通過(guò)構(gòu)建解碼圖,并應(yīng)用簡(jiǎn)單的卷積網(wǎng)絡(luò)計(jì)算語(yǔ)句置信度,得到文本標(biāo)注信息;對(duì)于不含字幕標(biāo)注的訓(xùn)練集,冠軍方案使用微調(diào)的wav2vec2.0模型得到文本的語(yǔ)言特征,再使用預(yù)訓(xùn)練的語(yǔ)言模型和Kaldi解碼器得到文本標(biāo)注信息。然后,在模型訓(xùn)練部分,該方案分別使用了混合模型和端到端的Wenet模型共同訓(xùn)練,并通過(guò)循環(huán)往復(fù)的方式得到更優(yōu)的訓(xùn)練集標(biāo)注,進(jìn)行更新迭代,從而得到了最優(yōu)的文本識(shí)別結(jié)果。

相比于賽道一、二,賽道三“旨在融合視覺(jué)和音頻兩個(gè)模態(tài)的信息來(lái)設(shè)計(jì)字幕識(shí)別系統(tǒng)”的系統(tǒng)設(shè)計(jì)則更加復(fù)雜,騰訊 ASR和OCR Oteam 打造了語(yǔ)音和畫(huà)面聯(lián)合字幕識(shí)別的算法框架。來(lái)自GrowthEase Yidun AI Lab的robindu etal隊(duì)伍設(shè)置的冠軍方案中主要包含三個(gè)模塊:視覺(jué)模態(tài)的字幕提取器,音頻模態(tài)的字幕提取器,融合模塊將兩個(gè)模態(tài)結(jié)果進(jìn)行融合。其中,前兩個(gè)模塊主要是基于OCR、ASR系統(tǒng)開(kāi)發(fā)的。

模型首先判斷視頻是否含有兩個(gè)模態(tài)的字幕信息。若預(yù)測(cè)視頻只包含單個(gè)模態(tài)的字幕信息,則字幕結(jié)果只取單模態(tài)的字幕信息。如果兩個(gè)模態(tài)的字幕信息,則進(jìn)一步使用融合模塊來(lái)融合兩個(gè)模態(tài)的結(jié)果。兩個(gè)模態(tài)的字幕信息在時(shí)間上可能存在偏移,例如,在音頻內(nèi)某些談話(huà)內(nèi)容已經(jīng)開(kāi)始,而視覺(jué)字幕仍停留在講話(huà)者的前一句內(nèi)容。為了解決該問(wèn)題,即將視頻中所有字幕能按序拼接,該方案設(shè)計(jì)了拆分模塊。該模塊將兩個(gè)模態(tài)中相同和不同的字幕文本進(jìn)行拆分。在兩個(gè)相同的字幕文本部分,針對(duì)某條視覺(jué)字幕可能會(huì)在多個(gè)幀中存在。對(duì)于不同幀的背景干擾導(dǎo)致同一字幕的識(shí)別結(jié)果不同這一問(wèn)題,融合模塊中的過(guò)濾模塊旨在挑選視覺(jué)字幕中OCR識(shí)別效果最好的,同時(shí)移除識(shí)別效果不好的。最后,將不同的部分和相同的部分字幕文本使用填充模塊進(jìn)行拼接。

作為騰訊開(kāi)源協(xié)同小組,騰訊ASR和OCR Oteam通過(guò)對(duì)內(nèi)部?jī)?yōu)勢(shì)技術(shù)的整合和開(kāi)源,構(gòu)造了貼合各類(lèi)業(yè)界場(chǎng)景的完整、先進(jìn)、魯棒的模型庫(kù)和算法框架。后續(xù)將會(huì)對(duì)業(yè)界開(kāi)放基礎(chǔ)算法框架,同時(shí)也尋求學(xué)術(shù)和工業(yè)界在該問(wèn)題的先進(jìn)算法和技術(shù),攜手共建更優(yōu)的多模態(tài)字幕識(shí)別解決方案。

分享到

songjy

相關(guān)推薦