(百度地圖語(yǔ)音定制功能推出9句話錄制的“極速模式”)
2019年9月,百度地圖推出全球首個(gè)地圖語(yǔ)音定制產(chǎn)品,用戶需要錄制20句、每句15個(gè)字左右的文本,經(jīng)過(guò)15-20分鐘的AI訓(xùn)練,最終實(shí)現(xiàn)定制語(yǔ)音包的合成輸出。而如今,依托百度獨(dú)創(chuàng)的時(shí)長(zhǎng)可控端到端合成技術(shù),升級(jí)后的地圖語(yǔ)音定制功能對(duì)其中的Tacotron模型進(jìn)行了調(diào)整和優(yōu)化,特別是在Location Sensitive Attention的機(jī)制上,使得語(yǔ)音合成過(guò)程中時(shí)長(zhǎng)信息的獲取更加靈活、可控,極大提高了訓(xùn)練遷移的穩(wěn)定性,即便通過(guò)極少的語(yǔ)句也能進(jìn)行穩(wěn)定的合成,最終實(shí)現(xiàn)了從20句到9句的錄制縮減。
盡管錄制過(guò)程做了減法,但百度地圖依舊可以生成一如既往的高品質(zhì)語(yǔ)音合成效果,這背后依賴的,就是百度獨(dú)創(chuàng)的音色風(fēng)格細(xì)粒度編碼器?;贕lobal Style Tokens技術(shù),此次升級(jí)強(qiáng)化了分離音色風(fēng)格信息的能力,增強(qiáng)了音色風(fēng)格抽取的一致性,即便只有極少量的語(yǔ)句,也能夠完成穩(wěn)定的音色風(fēng)格控制和遷移。
目前,百度地圖智能語(yǔ)音助手用戶量超4億,個(gè)性化語(yǔ)音包每日播放次數(shù)超1億次。隨著百度地圖語(yǔ)音定制功能的再度升級(jí),相信會(huì)有越來(lái)越多用戶去嘗試錄制自己專(zhuān)屬的語(yǔ)音包,在導(dǎo)航、語(yǔ)音交互、智能旅游等眾多地圖場(chǎng)景中,體驗(yàn)個(gè)人專(zhuān)屬語(yǔ)音包的魅力。