其次,為了更符合實(shí)時(shí)互動(dòng)場(chǎng)景,聲網(wǎng)數(shù)據(jù)集的設(shè)計(jì)非常嚴(yán)謹(jǐn),覆蓋了多樣化的場(chǎng)景視頻損傷失真類(lèi)型,包括:暗光多噪點(diǎn)、運(yùn)動(dòng)模糊、花屏、塊效應(yīng)、運(yùn)動(dòng)模糊(攝像頭抖動(dòng))、色調(diào)、飽和度、亮點(diǎn)和噪聲等。打分指標(biāo)也設(shè)置了1-5分,以0.5分為一個(gè)畫(huà)質(zhì)區(qū)間,每個(gè)區(qū)間確到0.1,顆粒度更細(xì)并對(duì)應(yīng)了詳細(xì)的標(biāo)準(zhǔn)。
最后,在數(shù)據(jù)清洗階段,依照 ITU 標(biāo)準(zhǔn)成立≥15人的評(píng)分員組,先計(jì)算每個(gè)評(píng)分員和總體均值的相關(guān)性,剔除相關(guān)性較低的評(píng)分員后,再對(duì)剩余評(píng)分員的評(píng)價(jià)求均值,得出最后的視頻主觀體驗(yàn)MOS分。雖然不同的評(píng)分員對(duì)于“好”和“壞”的絕對(duì)區(qū)間定義,或者是對(duì)畫(huà)質(zhì)損傷的敏感程度都不盡相同,但是對(duì)“較好”和“較差”的判斷還是趨同的。
建立基于移動(dòng)端的視頻畫(huà)質(zhì)主觀體驗(yàn) MOS 分評(píng)估模型
收集完數(shù)據(jù),接下來(lái)需要基于數(shù)據(jù)庫(kù)通過(guò)深度學(xué)習(xí)算法來(lái)建立視頻主觀體驗(yàn) MOS 分評(píng)估模型,使該模型能夠取代人工評(píng)分。由于在實(shí)時(shí)互動(dòng)場(chǎng)景下,接收端無(wú)法獲取無(wú)損的視頻參考源,因此聲網(wǎng)的方案是將客觀 VQA 定義為接收端解碼分辨率上的無(wú)參考評(píng)價(jià)工具,用深度學(xué)習(xí)的方法監(jiān)控解碼后的視頻質(zhì)量。
模型設(shè)計(jì)的學(xué)術(shù)嚴(yán)謹(jǐn)性:在訓(xùn)練深度學(xué)習(xí)模型的過(guò)程中也參考了多篇學(xué)術(shù)級(jí)的的論文(見(jiàn)文末的論文參考文獻(xiàn)),例如在非端到端的訓(xùn)練中會(huì)對(duì)原始視頻提取部分特征,發(fā)現(xiàn)視頻空間上的采樣對(duì)性能的影響最大,而進(jìn)行時(shí)域上的采樣與原視頻的 MOS 相關(guān)性最高(參考論文文獻(xiàn)1)。同時(shí),影響畫(huà)質(zhì)體驗(yàn)的不光是空域的特征,時(shí)域上的失真也會(huì)有影響,其中有一個(gè)時(shí)域滯后效應(yīng)(參考論文2)。該效應(yīng)對(duì)應(yīng)著兩個(gè)行為:一是視頻畫(huà)質(zhì)下降時(shí)主觀體驗(yàn)立即降低,二是視頻畫(huà)質(zhì)提升時(shí)觀看者體驗(yàn)的緩慢提升。對(duì)此,聲網(wǎng)在建模時(shí)也考慮了這種現(xiàn)象。
移動(dòng)端超小模型參數(shù)量減少99.1%:考慮到當(dāng)前很多實(shí)時(shí)互動(dòng)場(chǎng)景應(yīng)用在移動(dòng)端,聲網(wǎng)針對(duì)性的設(shè)計(jì)了移動(dòng)端更易應(yīng)用的超小模型,模型相對(duì)大模型參數(shù)量減少99.1%,運(yùn)算量減少99.4%。就算是低端手機(jī)接入后,也可以無(wú)壓力的跑起來(lái),進(jìn)行端上視頻畫(huà)質(zhì)的普查。同時(shí)還實(shí)現(xiàn)了創(chuàng)新的深度學(xué)習(xí)模型壓縮方法,在基于某個(gè)輕量化版本并且保持模型預(yù)測(cè)相關(guān)性情況下,進(jìn)一步將模型參數(shù)量減少59%,運(yùn)算量減少49.2%。可做為通用方法,推廣應(yīng)用到對(duì)其他深度學(xué)習(xí)任務(wù)的模型做簡(jiǎn)化,形成一個(gè)有效的通用簡(jiǎn)化辦法。
模型性能優(yōu)于學(xué)術(shù)界公開(kāi)大模型:一方面,聲網(wǎng) VQA 小模型的預(yù)測(cè)結(jié)果相關(guān)性與學(xué)術(shù)界公開(kāi)的大模型保持相當(dāng),甚至略?xún)?yōu)于一些大模型的結(jié)果選取了聲網(wǎng) VQA 的模型與學(xué)術(shù)界公開(kāi)的IQA、BRISQUE、V-BLINDS以及VSFA等四種視頻畫(huà)質(zhì)評(píng)估算法模型在兩個(gè)大規(guī)模的公開(kāi)數(shù)據(jù)集KoNViD-1k 、LIVE-VQC上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如下圖:
另一方面,聲網(wǎng) VQA 的模型相比于學(xué)術(shù)界基于深度學(xué)習(xí)的大模型有著很大的運(yùn)算優(yōu)勢(shì),將聲網(wǎng) VQA 與VSFA 進(jìn)行了模型的參數(shù)量和運(yùn)算量對(duì)比,結(jié)果聲網(wǎng) VQA 的參數(shù)量與運(yùn)算量都遠(yuǎn)遠(yuǎn)低于 VSFA 模型。而這種性能上的優(yōu)勢(shì)賦予了聲網(wǎng) VQA 在端上直接評(píng)估視頻通話服務(wù)體驗(yàn)的可能性,在提供一定準(zhǔn)確率保障情況下,大大提升了運(yùn)算資源的節(jié)省。
VQA 模型具備較好的泛化能力,在深度學(xué)習(xí)算法中,泛化能力指的是算法對(duì)新鮮樣本的適應(yīng)能力,簡(jiǎn)單來(lái)講就是通過(guò)深度學(xué)習(xí)方法訓(xùn)練出來(lái)的模型,對(duì)已知的數(shù)據(jù)訓(xùn)練集性能表現(xiàn)良好,對(duì)未知的數(shù)據(jù)測(cè)試集經(jīng)過(guò)訓(xùn)練后也能給出合理的結(jié)果。在前期,聲網(wǎng) VQA 模型主要針對(duì)內(nèi)部的視頻會(huì)議工具以及教育場(chǎng)景數(shù)據(jù)為優(yōu)先進(jìn)行打磨,但在后續(xù)對(duì)娛樂(lè)場(chǎng)景測(cè)試結(jié)果相關(guān)性達(dá)到84%以上。良好的泛化能力將為未來(lái)基于聲網(wǎng) VQA 打造行業(yè)認(rèn)可的視頻質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)建立很好的基礎(chǔ)。
更適用于 RTE 實(shí)時(shí)互動(dòng)場(chǎng)景:目前行業(yè)一些同類(lèi)的 VQA 算法主要應(yīng)用在非實(shí)時(shí)的流媒體播放場(chǎng)景,而且由于評(píng)估方法的局限性,最終的評(píng)測(cè)結(jié)果往往與用戶(hù)真實(shí)的主觀體驗(yàn)評(píng)分有一定差距,而聲網(wǎng)的 VQA 算法模型可以適用實(shí)時(shí)互動(dòng)的眾多場(chǎng)景,并且最終評(píng)估的主觀視頻質(zhì)量分和用戶(hù)的真實(shí)感官體驗(yàn)吻合度高。同時(shí),聲網(wǎng) VQA 模型的視頻數(shù)據(jù)不需要上傳到服務(wù)器,可直接在端上實(shí)時(shí)運(yùn)行,不僅節(jié)省了資源,還有效為客戶(hù)規(guī)避數(shù)據(jù)隱私問(wèn)題。
從 XLA 到 VQA 是 QoS 到 QoE 指標(biāo)的進(jìn)化
在實(shí)時(shí)互動(dòng)中,QoS服務(wù)質(zhì)量主要反應(yīng)了音視頻技術(shù)服務(wù)的性能與質(zhì)量,而QoE體驗(yàn)質(zhì)量代表了用戶(hù)對(duì)實(shí)時(shí)互動(dòng)服務(wù)質(zhì)量和性能的主觀感受。聲網(wǎng)此前推出了實(shí)時(shí)互動(dòng) XLA 體驗(yàn)質(zhì)量標(biāo)準(zhǔn),包含5s 登錄成功率、600ms 視頻卡頓率、200ms音頻卡頓率、<400ms 網(wǎng)絡(luò)延時(shí)這四項(xiàng)指標(biāo),每個(gè)指標(biāo)的月度達(dá)標(biāo)率均需超過(guò)99.5%,XLA 的四項(xiàng)指標(biāo)主要反應(yīng)了實(shí)時(shí)音視頻的服務(wù)質(zhì)量(QoS)。聲網(wǎng) VQA 可以更直觀的反應(yīng)用戶(hù)對(duì)視頻畫(huà)質(zhì)的主觀體驗(yàn)質(zhì)量(QoE),也代表著實(shí)時(shí)互動(dòng)質(zhì)量評(píng)估指標(biāo)將實(shí)現(xiàn)從QoS到QoE的進(jìn)化。
而對(duì)于企業(yè)客戶(hù)與開(kāi)發(fā)者而言,聲網(wǎng) VQA 也可以賦能多重價(jià)值:
1、企業(yè)選型避坑,很多企業(yè)與開(kāi)發(fā)者在挑選實(shí)時(shí)音視頻服務(wù)商時(shí),會(huì)將幾段音視頻通話Demo的主觀感受或者簡(jiǎn)單的接入測(cè)試作為選型標(biāo)準(zhǔn),聲網(wǎng) VQA 的推出可以幫助企業(yè)在服務(wù)商選型時(shí)多了一種可量化的評(píng)價(jià)標(biāo)準(zhǔn),更清晰地了解服務(wù)商的音視頻質(zhì)量在用戶(hù)側(cè)的主觀體驗(yàn)評(píng)價(jià)。
2、幫助ToB企業(yè)為客戶(hù)提供視頻質(zhì)量評(píng)估工具,對(duì)于提供企業(yè)級(jí)視頻會(huì)議、協(xié)作、培訓(xùn),以及各類(lèi)行業(yè)級(jí)視頻系統(tǒng)的企業(yè)可以通過(guò)聲網(wǎng) VQA 有效量化視頻畫(huà)質(zhì),幫助企業(yè)更直觀、可量化地展現(xiàn)自身產(chǎn)品服務(wù)的畫(huà)質(zhì)質(zhì)量。
3、助力產(chǎn)品體驗(yàn)優(yōu)化,聲網(wǎng) VQA 將實(shí)時(shí)互動(dòng)中原本未知的用戶(hù)主觀體驗(yàn)變成可知,無(wú)疑將幫助客戶(hù)對(duì)產(chǎn)品端的體驗(yàn)評(píng)價(jià)、故障檢測(cè)帶來(lái)很大的幫助,只有更全面的了解客觀的服務(wù)質(zhì)量指標(biāo)與主觀的用戶(hù)體驗(yàn)質(zhì)量,才能進(jìn)一步優(yōu)化產(chǎn)品體驗(yàn),最終提升用戶(hù)端的體驗(yàn)。
未來(lái)展望
接下來(lái),聲網(wǎng) VQA 還有很長(zhǎng)的路要走,例如用于模型訓(xùn)練的 VQA 數(shù)據(jù)集,多由時(shí)長(zhǎng)為 4~10s 不等的視頻片段組成,而實(shí)際通話中需考慮近因效應(yīng),僅通過(guò)對(duì)視頻片段線性追蹤、打點(diǎn)上報(bào)的方式,或許無(wú)法準(zhǔn)確擬合用戶(hù)整體的主觀感受,下一步計(jì)劃綜合考慮清晰度、流暢度、互動(dòng)延時(shí)、音畫(huà)同步等,形成時(shí)變的體驗(yàn)評(píng)價(jià)方法。
同時(shí),未來(lái)聲網(wǎng) VQA 也有望進(jìn)行開(kāi)源,與行業(yè)廠商、開(kāi)發(fā)者一起推動(dòng) VQA 的持續(xù)演進(jìn),最終形成 RTE 行業(yè)認(rèn)可的視頻質(zhì)量主觀體驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)。
目前聲網(wǎng) VQA 已在內(nèi)部系統(tǒng)迭代打磨中,后續(xù)將逐漸開(kāi)放,并計(jì)劃同步在 SDK 集成在線評(píng)估功能,并發(fā)布離線測(cè)評(píng)工具。