ppyppav,国产经典三级av在线播放,中文字幕人妻在线中文乱码怎么解决

其次，為了更符合實時互動場景，聲網數據集的設計非常嚴謹，覆蓋了多樣化的場景視頻損傷失真類型，包括：暗光多噪點、運動模糊、花屏、塊效應、運動模糊（攝像頭抖動）、色調、飽和度、亮點和噪聲等。打分指標也設置了1-5分，以0.5分為一個畫質區(qū)間，每個區(qū)間確到0.1，顆粒度更細并對應了詳細的標準。

最后，在數據清洗階段，依照 ITU 標準成立≥15人的評分員組，先計算每個評分員和總體均值的相關性，剔除相關性較低的評分員后，再對剩余評分員的評價求均值，得出最后的視頻主觀體驗MOS分。雖然不同的評分員對于“好”和“壞”的絕對區(qū)間定義，或者是對畫質損傷的敏感程度都不盡相同，但是對“較好”和“較差”的判斷還是趨同的。

建立基于移動端的視頻畫質主觀體驗 MOS 分評估模型

收集完數據，接下來需要基于數據庫通過深度學習算法來建立視頻主觀體驗 MOS 分評估模型，使該模型能夠取代人工評分。由于在實時互動場景下，接收端無法獲取無損的視頻參考源，因此聲網的方案是將客觀 VQA 定義為接收端解碼分辨率上的無參考評價工具，用深度學習的方法監(jiān)控解碼后的視頻質量。

模型設計的學術嚴謹性：在訓練深度學習模型的過程中也參考了多篇學術級的的論文（見文末的論文參考文獻），例如在非端到端的訓練中會對原始視頻提取部分特征，發(fā)現(xiàn)視頻空間上的采樣對性能的影響最大，而進行時域上的采樣與原視頻的 MOS 相關性最高（參考論文文獻1）。同時，影響畫質體驗的不光是空域的特征，時域上的失真也會有影響，其中有一個時域滯后效應（參考論文2）。該效應對應著兩個行為：一是視頻畫質下降時主觀體驗立即降低，二是視頻畫質提升時觀看者體驗的緩慢提升。對此，聲網在建模時也考慮了這種現(xiàn)象。

移動端超小模型參數量減少99.1%：考慮到當前很多實時互動場景應用在移動端，聲網針對性的設計了移動端更易應用的超小模型，模型相對大模型參數量減少99.1%，運算量減少99.4%。就算是低端手機接入后，也可以無壓力的跑起來，進行端上視頻畫質的普查。同時還實現(xiàn)了創(chuàng)新的深度學習模型壓縮方法，在基于某個輕量化版本并且保持模型預測相關性情況下，進一步將模型參數量減少59%，運算量減少49.2%。可做為通用方法，推廣應用到對其他深度學習任務的模型做簡化，形成一個有效的通用簡化辦法。

模型性能優(yōu)于學術界公開大模型：一方面，聲網 VQA 小模型的預測結果相關性與學術界公開的大模型保持相當，甚至略優(yōu)于一些大模型的結果選取了聲網 VQA 的模型與學術界公開的IQA、BRISQUE、V-BLINDS以及VSFA等四種視頻畫質評估算法模型在兩個大規(guī)模的公開數據集KoNViD-1k 、LIVE-VQC上進行了實驗，實驗結果如下圖：

另一方面，聲網 VQA 的模型相比于學術界基于深度學習的大模型有著很大的運算優(yōu)勢，將聲網 VQA 與VSFA 進行了模型的參數量和運算量對比，結果聲網 VQA 的參數量與運算量都遠遠低于 VSFA 模型。而這種性能上的優(yōu)勢賦予了聲網 VQA 在端上直接評估視頻通話服務體驗的可能性，在提供一定準確率保障情況下，大大提升了運算資源的節(jié)省。

VQA 模型具備較好的泛化能力，在深度學習算法中，泛化能力指的是算法對新鮮樣本的適應能力，簡單來講就是通過深度學習方法訓練出來的模型，對已知的數據訓練集性能表現(xiàn)良好，對未知的數據測試集經過訓練后也能給出合理的結果。在前期，聲網 VQA 模型主要針對內部的視頻會議工具以及教育場景數據為優(yōu)先進行打磨，但在后續(xù)對娛樂場景測試結果相關性達到84%以上。良好的泛化能力將為未來基于聲網 VQA 打造行業(yè)認可的視頻質量評價標準建立很好的基礎。

更適用于 RTE 實時互動場景：目前行業(yè)一些同類的 VQA 算法主要應用在非實時的流媒體播放場景，而且由于評估方法的局限性，最終的評測結果往往與用戶真實的主觀體驗評分有一定差距，而聲網的 VQA 算法模型可以適用實時互動的眾多場景，并且最終評估的主觀視頻質量分和用戶的真實感官體驗吻合度高。同時，聲網 VQA 模型的視頻數據不需要上傳到服務器，可直接在端上實時運行，不僅節(jié)省了資源，還有效為客戶規(guī)避數據隱私問題。

從 XLA 到 VQA 是 QoS 到 QoE 指標的進化

在實時互動中，QoS服務質量主要反應了音視頻技術服務的性能與質量，而QoE體驗質量代表了用戶對實時互動服務質量和性能的主觀感受。聲網此前推出了實時互動 XLA 體驗質量標準，包含5s 登錄成功率、600ms 視頻卡頓率、200ms音頻卡頓率、＜400ms 網絡延時這四項指標，每個指標的月度達標率均需超過99.5%，XLA 的四項指標主要反應了實時音視頻的服務質量（QoS）。聲網 VQA 可以更直觀的反應用戶對視頻畫質的主觀體驗質量（QoE），也代表著實時互動質量評估指標將實現(xiàn)從QoS到QoE的進化。

而對于企業(yè)客戶與開發(fā)者而言，聲網 VQA 也可以賦能多重價值：

1、企業(yè)選型避坑，很多企業(yè)與開發(fā)者在挑選實時音視頻服務商時，會將幾段音視頻通話Demo的主觀感受或者簡單的接入測試作為選型標準，聲網 VQA 的推出可以幫助企業(yè)在服務商選型時多了一種可量化的評價標準，更清晰地了解服務商的音視頻質量在用戶側的主觀體驗評價。

2、幫助ToB企業(yè)為客戶提供視頻質量評估工具，對于提供企業(yè)級視頻會議、協(xié)作、培訓，以及各類行業(yè)級視頻系統(tǒng)的企業(yè)可以通過聲網 VQA 有效量化視頻畫質，幫助企業(yè)更直觀、可量化地展現(xiàn)自身產品服務的畫質質量。

3、助力產品體驗優(yōu)化，聲網 VQA 將實時互動中原本未知的用戶主觀體驗變成可知，無疑將幫助客戶對產品端的體驗評價、故障檢測帶來很大的幫助，只有更全面的了解客觀的服務質量指標與主觀的用戶體驗質量，才能進一步優(yōu)化產品體驗，最終提升用戶端的體驗。

未來展望

接下來，聲網 VQA 還有很長的路要走，例如用于模型訓練的 VQA 數據集，多由時長為 4~10s 不等的視頻片段組成，而實際通話中需考慮近因效應，僅通過對視頻片段線性追蹤、打點上報的方式，或許無法準確擬合用戶整體的主觀感受，下一步計劃綜合考慮清晰度、流暢度、互動延時、音畫同步等，形成時變的體驗評價方法。

同時，未來聲網 VQA 也有望進行開源，與行業(yè)廠商、開發(fā)者一起推動 VQA 的持續(xù)演進，最終形成 RTE 行業(yè)認可的視頻質量主觀體驗評價標準。

目前聲網 VQA 已在內部系統(tǒng)迭代打磨中，后續(xù)將逐漸開放，并計劃同步在 SDK 集成在線評估功能，并發(fā)布離線測評工具。

分享到

xiesc

相關推薦

近期文章

熱門標簽