隨著移動辦公的普及,視頻會議成為了人們?nèi)粘9ぷ魃钪胁豢苫蛉钡墓ぞ?。然而,當人們在嘈雜的咖啡廳、機場等開會時,常常受到環(huán)境噪聲、背景人聲的干擾。因此,降噪技術(shù)在不同場景下的應(yīng)用與研究也愈發(fā)得到重視,特別是干擾人聲的消除,因人聲之間的特征相似度高于人聲與環(huán)境噪聲的特征相似度,處理難度更大,也成為了困擾業(yè)界和學術(shù)界的共同難題。
為此,天籟實驗室首創(chuàng)性研發(fā)了個性化語音增強技術(shù),率先應(yīng)用在了騰訊會議上。它能模擬人類聽覺注意機制,構(gòu)建起一個能夠在多人會話和復雜的背景噪音中、只關(guān)注目標說話人聲音的自動化系統(tǒng),仿佛一個“會找主人的麥克風”,能夠在環(huán)境噪聲消除的基礎(chǔ)上,進一步消除周圍人聲的干擾,凸顯主講人的聲音信號。
該項技術(shù),已在ICASSP DNS 2022深度學習降噪挑戰(zhàn)賽中,榮獲全頻帶實時個性化語音增強track 2比賽總分第一,并在音質(zhì)和識別率兩個核心單項指標上都分別達到了最好的水平。
作為當前國際上該領(lǐng)域規(guī)模最大、影響力最廣泛的比賽之一,第四屆DNS深度學習降噪挑戰(zhàn)賽在前幾屆環(huán)境噪聲消除基礎(chǔ)上,增加了難度更大的干擾人聲消除賽道,并首次發(fā)起了全頻帶實時個性化語音增強的挑戰(zhàn)賽,天籟實驗室則是在眾多參賽隊伍中脫穎而出,成功獲得總分第一名。
作為騰訊會議旗下的頂尖實時音頻處理團隊,天籟實驗室一直致力于打造下一代實時音頻通信端到端解決方案,適應(yīng)不同應(yīng)用場景和終端設(shè)備,為用戶提供高清、純凈、流暢的音頻通信體驗。
此前,基于上千小時的語音噪聲數(shù)據(jù),該方案通過深度學習和AI算法,已經(jīng)成功消除300多種環(huán)境噪聲,并已成功應(yīng)用在騰訊會議上。為了進一步解決會議室場景下雙工通信的挑戰(zhàn),天籟實驗室在業(yè)界首發(fā)推出了騰訊天籟inside音頻解決方案,它基于軟硬一體的聲學硬件設(shè)計,獨創(chuàng)了行業(yè)領(lǐng)先的多麥音頻算法,通過麥克風陣列和多模態(tài)深度學習技術(shù)相融合,首次結(jié)合房間聲場感知,采集和空間聲場重建技術(shù),開創(chuàng)性地實現(xiàn)遠距離拾音、智能降噪、通透雙講。該方案已經(jīng)和newline、MAXHUB、海信商顯等多個行業(yè)領(lǐng)先的硬件廠商合作,為其打造會議室里的“順風耳”。
未來,天籟實驗室將持續(xù)打磨技術(shù)、產(chǎn)品,為廣大用戶提供“聽得清、聽得真”的音頻體驗,共創(chuàng)數(shù)字時代的美好未來。