2020 AI先行者大會
“盡管語音識別技術有了極大的發(fā)展,但當前,它還沒有達到一套技術能夠打遍天下的狀態(tài),在很多真實應用場景中,仍然有‘最后一公里’的問題需要去解決。”薛少飛在分享演講中表示,語音識別在多數(shù)應用中還是一個強場景化的技術。比如說話人的方言、口音和特定場景的噪聲,很可能會造成通用系統(tǒng)識別準確率的急劇下降。
同時,由于識別內(nèi)容的領域不同,所需要去識別的話術也不一樣。例如,在聊到語音識別技術的時候提到遠場,可能就是遠場識別的遠;而在日常生活當中說到原廠,那可能指的就是手機原廠設置。在不同的場景中,專業(yè)術語是不一樣的。
另外還有不同拾音設備導致的信道差異,現(xiàn)今我們可見到的手機拾音信道、電話通話信道,是比較普遍的信道。但還有一些特別的拾音設備,它們的采樣率、音頻失真情況等都具有自己的特點,那業(yè)界任何一家公司的通用識別效果,都會因此出現(xiàn)明顯的下降。而這,也是行業(yè)當前普遍面臨的痛點。
思必馳高級技術總監(jiān)、語音應用技術負責人薛少飛
“只有解決這些問題,AI技術才能夠真正的落地到業(yè)務場景。”薛少飛說,基于此,思必馳推出了識別自訓練平臺,賦能客戶自己做識別系統(tǒng)端到端體驗的優(yōu)化。首先,它可以完全私有化部署在客戶場景當中,具有很強隱私性,解決了敏感數(shù)據(jù)的安全合規(guī)問題;其次,它的功能強大,支持數(shù)據(jù)標注、聲學模型自定制、以及包括段落文本、熱詞、敏感詞在內(nèi)的各級語言模型自定制;此外,它是一體化的方案,能夠賦能客戶完成分鐘級、一鍵式的自訓練。
當前,識別自訓練平臺處于2.0版本,在即將發(fā)布的3.0版本中,還將發(fā)布端點檢測自訓練、標點斷句自訓練等新功能,并支持增量學習方案等新特性。
通過思必馳識別自訓練平臺,客戶能夠運用自有的行業(yè)數(shù)據(jù),持續(xù)提升在自己行業(yè)領域的競爭力;思必馳作為紐帶和能力輸出方,并不去做客戶行業(yè)的應用,客戶可以沒有任何后顧之憂的使用,實現(xiàn)產(chǎn)品持續(xù)迭代。
在首屆智能家電語音識別與交互技術高峰論壇上,薛少飛重點分享了關于技術趨勢的思考。
首屆智能家電語音識別與交互技術高峰論壇
薛少飛認為,在家電廠商這端,自訓練將賦能家電廠商產(chǎn)品級定制能力,使原有的冗長的交付鏈路,升級為產(chǎn)品級快速自定制。
而在家的場景中,人機交互體驗將實現(xiàn)從“人與單一設備交互”到“人與設備矩陣的交互”的升級。就近喚醒與自然交互,將為家居場景帶來更流暢的體驗;聲音、圖像、視頻、傳感器技術的深度融合,則能夠讓家居體驗更加智慧。結合VR和AR的虛擬家庭管家,也將出現(xiàn)在我們的家中。