騰訊多媒體實驗室專家研究員 肖瑋
騰訊天籟音頻AI技術,打造端到端的音頻通信體驗
年初的疫情黑天鵝事件,讓數(shù)字通信手段成為了人與人溝通的重要手段,同時也對實時音視頻通信的穩(wěn)定性和通訊效果帶來了極大考驗。肖瑋指出,為了解決實時音視頻應用場景下的各種挑戰(zhàn),騰訊多媒體實驗室圍繞音頻通信核心體驗的技術和框架進行了多年的探索。在今年9月份舉辦的騰訊全球數(shù)字生態(tài)大會上,正式發(fā)布了“面向實時音視頻應用的新一代實時音頻技術品牌”——騰訊天籟。該解決方案旨在提供實時端到端音頻通信的完整解決方案,致力于讓用戶在實時音視頻會議時可以“聽得見,聽得清,聽得真”。

肖瑋表示,RTC場景復雜、處理鏈條長;每個節(jié)點均會影響用戶的終極體驗。然而,下行終端側,是最接近于用戶的終級體驗的節(jié)點;如果進行合理的設計,可以非常高效地提升用戶的終極體驗。因此,騰訊天籟提出“下行最后一厘米”音頻體驗提升的概念,將經(jīng)典的音頻信號處理和深度學習技術結合,設計并實現(xiàn)了基于上下文分析的前向糾錯、丟包補償方案。信源側單獨可抗40%丟包率,整體方案可抗80%丟包率。用戶在弱網(wǎng)環(huán)境下的通話體驗可以獲得極大保障。

基于領先的騰訊天籟音頻解決方案,騰訊天籟不僅可以讓不同地點、場景、設備終端同時遠程接入,讓遠程線上溝通更加高效,并且還擴展了實時音頻的語音帶寬。與傳統(tǒng)PSTN電話音質相比,使用了騰訊天籟技術后的音頻音質更加明亮、干凈。同時,整套音頻算法能力也進行了有針對性的優(yōu)化,可以在用戶多種客戶端進行部署,最終提升了音頻通信的可懂度、自然度、舒適度。

此外,以騰訊會議為例,肖瑋現(xiàn)場展示了基于深度學習的語音增強方案在真實場景中的增強效果。在長達兩分鐘的展示環(huán)節(jié),分別演示了地鐵站、菜市場、街道等多種噪聲場景。在這些場景下,騰訊天籟基于深度學習語音增強方案均能提供高質量的處理效果,現(xiàn)場展示獲得現(xiàn)場觀眾的廣泛關注。

另一方面,肖瑋強調了端到端質量評價和認證體系的建立,對RTC場景下的體驗提升也是非常關鍵的。截止目前,騰訊多媒體實驗室已經(jīng)建立了完整的端到端通話質量評價和認證體系。借助這一體系,騰訊天籟品牌下的各種技術,在產(chǎn)品落地前,均要通過該體系的嚴格測試。此外,在技術的研發(fā)過程中,該體系的測試結果,可以給研究人員提供非常重要參考信息,用于方案的打磨和優(yōu)化。

從技術到公益,騰訊天籟“技術外溢”的產(chǎn)品力
目前,騰訊天籟已經(jīng)在騰訊會議、騰訊云、全民K歌、微視等騰訊內外部產(chǎn)品、場景中廣泛應用落地,并助力相關應用在音視頻體驗方面取得了良好的用戶口碑。
不僅如此,在騰訊的一些無障礙項目交流當中,騰訊多媒體實驗室的團隊成員們了解到聽障人士即使佩戴了人工耳蝸,在機場、商場等比較嘈雜的公共環(huán)境中,依然面臨“聽不清”的困擾。基于此,騰訊多媒體實驗室聯(lián)合國內最大的人工耳蝸廠商之一—諾爾康(Nurotron)一起展開相關討論和研究,經(jīng)過長達半年的技術驗證,從架構上最終確定了“手機伴侶+人工耳蝸”的聯(lián)合解決方案。通過多種技術的優(yōu)化和整合,實現(xiàn)了語音清晰度和可懂度提升40%的效果。經(jīng)過提升后的信號,傳遞給人工耳蝸后,可以極大改善聽障人士的聽覺體驗,讓聽障人士在“聽得見”的基礎上“聽得清、聽得真”。
9月27日國際聾人日之際,騰訊多媒體實驗室聯(lián)合騰訊公益慈善基金會、深圳市信息無障礙研究會等機構召開發(fā)布會,宣布發(fā)起“天籟行動”,通過面向公益開發(fā)者、設備廠商、NGO及行業(yè)免費開放騰訊天籟AI音頻技術,幫助聽障人群解決“聽不清”難題,并邀請歌手周深作為公益大使,呼吁全社會關注聽障人士身心康復,構建信息無障礙環(huán)境。

騰訊天籟行動發(fā)布
值得一提的是,天籟行動并不是一次“普通”的公益實踐,而是騰訊基于“科技向善”的愿景,進行體系化、持續(xù)性建設的科技公益落地。其背后的驅動機制,正是騰訊技術積累的“技術外溢”,以及技術快速場景化落地的強大產(chǎn)品力。
作為騰訊旗下頂尖的音視頻通信和處理研發(fā)團隊,騰訊多媒體實驗室致力于實時音視頻通信、音視頻編解碼前沿算法研究、音視頻國際標準、計算機視覺圖像處理、端到端音視頻質量評測。其中,天籟技術是其經(jīng)驗和技術能力積累重要成果之一。
在5G浪潮下,多媒體的技術和形式不斷發(fā)生改變,高效率低延遲的傳輸帶來了更豐富的落地場景。未來,騰訊天籟音頻技術也將會加速接入騰訊旗下金融、政務、教育等行業(yè)場景下的實時音視頻需求,讓更多更豐富的場景落地,為用戶帶來極具5G時代色彩的沉浸式體驗。