其次,為了更符合實時互動場景,聲網數(shù)據集的設計非常嚴謹,覆蓋了多樣化的場景視頻損傷失真類型,包括:暗光多噪點、運動模糊、花屏、塊效應、運動模糊(攝像頭抖動)、色調、飽和度、亮點和噪聲等。打分指標也設置了1-5分,以0.5分為一個畫質區(qū)間,每個區(qū)間確到0.1,顆粒度更細并對應了詳細的標準。
最后,在數(shù)據清洗階段,依照 ITU 標準成立≥15人的評分員組,先計算每個評分員和總體均值的相關性,剔除相關性較低的評分員后,再對剩余評分員的評價求均值,得出最后的視頻主觀體驗MOS分。雖然不同的評分員對于“好”和“壞”的絕對區(qū)間定義,或者是對畫質損傷的敏感程度都不盡相同,但是對“較好”和“較差”的判斷還是趨同的。
建立基于移動端的視頻畫質主觀體驗 MOS 分評估模型
收集完數(shù)據,接下來需要基于數(shù)據庫通過深度學習算法來建立視頻主觀體驗 MOS 分評估模型,使該模型能夠取代人工評分。由于在實時互動場景下,接收端無法獲取無損的視頻參考源,因此聲網的方案是將客觀 VQA 定義為接收端解碼分辨率上的無參考評價工具,用深度學習的方法監(jiān)控解碼后的視頻質量。
模型設計的學術嚴謹性:在訓練深度學習模型的過程中也參考了多篇學術級的的論文(見文末的論文參考文獻),例如在非端到端的訓練中會對原始視頻提取部分特征,發(fā)現(xiàn)視頻空間上的采樣對性能的影響最大,而進行時域上的采樣與原視頻的 MOS 相關性最高(參考論文文獻1)。同時,影響畫質體驗的不光是空域的特征,時域上的失真也會有影響,其中有一個時域滯后效應(參考論文2)。該效應對應著兩個行為:一是視頻畫質下降時主觀體驗立即降低,二是視頻畫質提升時觀看者體驗的緩慢提升。對此,聲網在建模時也考慮了這種現(xiàn)象。
移動端超小模型參數(shù)量減少99.1%:考慮到當前很多實時互動場景應用在移動端,聲網針對性的設計了移動端更易應用的超小模型,模型相對大模型參數(shù)量減少99.1%,運算量減少99.4%。就算是低端手機接入后,也可以無壓力的跑起來,進行端上視頻畫質的普查。同時還實現(xiàn)了創(chuàng)新的深度學習模型壓縮方法,在基于某個輕量化版本并且保持模型預測相關性情況下,進一步將模型參數(shù)量減少59%,運算量減少49.2%。可做為通用方法,推廣應用到對其他深度學習任務的模型做簡化,形成一個有效的通用簡化辦法。
模型性能優(yōu)于學術界公開大模型:一方面,聲網 VQA 小模型的預測結果相關性與學術界公開的大模型保持相當,甚至略優(yōu)于一些大模型的結果選取了聲網 VQA 的模型與學術界公開的IQA、BRISQUE、V-BLINDS以及VSFA等四種視頻畫質評估算法模型在兩個大規(guī)模的公開數(shù)據集KoNViD-1k 、LIVE-VQC上進行了實驗,實驗結果如下圖:
另一方面,聲網 VQA 的模型相比于學術界基于深度學習的大模型有著很大的運算優(yōu)勢,將聲網 VQA 與VSFA 進行了模型的參數(shù)量和運算量對比,結果聲網 VQA 的參數(shù)量與運算量都遠遠低于 VSFA 模型。而這種性能上的優(yōu)勢賦予了聲網 VQA 在端上直接評估視頻通話服務體驗的可能性,在提供一定準確率保障情況下,大大提升了運算資源的節(jié)省。
VQA 模型具備較好的泛化能力,在深度學習算法中,泛化能力指的是算法對新鮮樣本的適應能力,簡單來講就是通過深度學習方法訓練出來的模型,對已知的數(shù)據訓練集性能表現(xiàn)良好,對未知的數(shù)據測試集經過訓練后也能給出合理的結果。在前期,聲網 VQA 模型主要針對內部的視頻會議工具以及教育場景數(shù)據為優(yōu)先進行打磨,但在后續(xù)對娛樂場景測試結果相關性達到84%以上。良好的泛化能力將為未來基于聲網 VQA 打造行業(yè)認可的視頻質量評價標準建立很好的基礎。
更適用于 RTE 實時互動場景:目前行業(yè)一些同類的 VQA 算法主要應用在非實時的流媒體播放場景,而且由于評估方法的局限性,最終的評測結果往往與用戶真實的主觀體驗評分有一定差距,而聲網的 VQA 算法模型可以適用實時互動的眾多場景,并且最終評估的主觀視頻質量分和用戶的真實感官體驗吻合度高。同時,聲網 VQA 模型的視頻數(shù)據不需要上傳到服務器,可直接在端上實時運行,不僅節(jié)省了資源,還有效為客戶規(guī)避數(shù)據隱私問題。
從 XLA 到 VQA 是 QoS 到 QoE 指標的進化
在實時互動中,QoS服務質量主要反應了音視頻技術服務的性能與質量,而QoE體驗質量代表了用戶對實時互動服務質量和性能的主觀感受。聲網此前推出了實時互動 XLA 體驗質量標準,包含5s 登錄成功率、600ms 視頻卡頓率、200ms音頻卡頓率、<400ms 網絡延時這四項指標,每個指標的月度達標率均需超過99.5%,XLA 的四項指標主要反應了實時音視頻的服務質量(QoS)。聲網 VQA 可以更直觀的反應用戶對視頻畫質的主觀體驗質量(QoE),也代表著實時互動質量評估指標將實現(xiàn)從QoS到QoE的進化。
而對于企業(yè)客戶與開發(fā)者而言,聲網 VQA 也可以賦能多重價值:
1、企業(yè)選型避坑,很多企業(yè)與開發(fā)者在挑選實時音視頻服務商時,會將幾段音視頻通話Demo的主觀感受或者簡單的接入測試作為選型標準,聲網 VQA 的推出可以幫助企業(yè)在服務商選型時多了一種可量化的評價標準,更清晰地了解服務商的音視頻質量在用戶側的主觀體驗評價。
2、幫助ToB企業(yè)為客戶提供視頻質量評估工具,對于提供企業(yè)級視頻會議、協(xié)作、培訓,以及各類行業(yè)級視頻系統(tǒng)的企業(yè)可以通過聲網 VQA 有效量化視頻畫質,幫助企業(yè)更直觀、可量化地展現(xiàn)自身產品服務的畫質質量。
3、助力產品體驗優(yōu)化,聲網 VQA 將實時互動中原本未知的用戶主觀體驗變成可知,無疑將幫助客戶對產品端的體驗評價、故障檢測帶來很大的幫助,只有更全面的了解客觀的服務質量指標與主觀的用戶體驗質量,才能進一步優(yōu)化產品體驗,最終提升用戶端的體驗。
未來展望
接下來,聲網 VQA 還有很長的路要走,例如用于模型訓練的 VQA 數(shù)據集,多由時長為 4~10s 不等的視頻片段組成,而實際通話中需考慮近因效應,僅通過對視頻片段線性追蹤、打點上報的方式,或許無法準確擬合用戶整體的主觀感受,下一步計劃綜合考慮清晰度、流暢度、互動延時、音畫同步等,形成時變的體驗評價方法。
同時,未來聲網 VQA 也有望進行開源,與行業(yè)廠商、開發(fā)者一起推動 VQA 的持續(xù)演進,最終形成 RTE 行業(yè)認可的視頻質量主觀體驗評價標準。
目前聲網 VQA 已在內部系統(tǒng)迭代打磨中,后續(xù)將逐漸開放,并計劃同步在 SDK 集成在線評估功能,并發(fā)布離線測評工具。