Paraformer模型結(jié)構(gòu)圖

在學(xué)術(shù)界常用的中文識別評測任務(wù)AISHELL-1、AISHELL-2及WenetSpeech等測試集上, Paraformer-large模型均獲得了最優(yōu)的效果。在專業(yè)的第三方全網(wǎng)公共云中文語音識別評測SpeechIO TIOBE白盒測試中,Paraformer-large識別準(zhǔn)確率超過98%,是目前公開測評中準(zhǔn)確率最高的中文語音識別模型。

SpeechIO TIOBE測試結(jié)果

配合GPU推理,不同版本的Paraformer可將推理效率提升5~10倍,同時,Paraformer使用了6倍下采樣的低幀率建模方案,可將計算量降低近6倍,支持大模型的高效推理。

達(dá)摩院語音實(shí)驗(yàn)室負(fù)責(zé)人鄢志杰介紹,Paraformer是阿里巴巴研發(fā)的下一代“殺手锏”級別的語音識別基礎(chǔ)模型,未來將廣泛應(yīng)用于會議紀(jì)要產(chǎn)品“聽悟”、釘釘語音轉(zhuǎn)文字、高德導(dǎo)航等場景。為盡快惠及中小公司及開發(fā)者群體,這款重磅模型“問世即開源”,可于魔搭社區(qū)ModelScope體驗(yàn)并下載,企業(yè)及個人可進(jìn)一步開發(fā)訓(xùn)練定制化模型。(https://www.modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary)

據(jù)了解,阿里語音團(tuán)隊近年已推出多款重磅語音識別模型,包括首次將識別準(zhǔn)確率提升至96%的DFSMN模型、E2E-ASR端到端語音識別技術(shù)等。Gartner今年7月發(fā)布的《云AI開發(fā)者服務(wù)關(guān)鍵能力報告》顯示,阿里在語音識別項(xiàng)目上評分與谷歌等公司并列全球第一,創(chuàng)中國企業(yè)最好成績。

分享到

xiesc

相關(guān)推薦