實驗結(jié)果表明,當(dāng)數(shù)據(jù)量在10秒到5分鐘之間時,MegaTTS不僅可以在任意來源的新用戶的短提示下合成保同語音,而且始終優(yōu)于基于Fine-tuning的基線方法(Portaspeech 2)。
此外得益于音色和韻律獨立建模的方式,火山語音的韻律語言模型可以以細粒度和可控的方式將各種說話風(fēng)格轉(zhuǎn)移到目標(biāo)音色,甚至可以模仿Rap。未來這些功能也會陸續(xù)上線,為更多用戶提供創(chuàng)作空間。
一直以來,火山語音團隊不斷將打磨多年的語音技術(shù)能力面向市場并通過火山引擎開放給外部企業(yè),已覆蓋汽車、金融、有聲閱讀、視頻配音等眾多應(yīng)用場景,技術(shù)能力已成功應(yīng)用到抖音、剪映、番茄小說等多款國民級產(chǎn)品上,并助力多家行業(yè)頭部企業(yè)實現(xiàn)AI語音能力的應(yīng)用與拓展。未來火山語音還將不斷探索前沿科技與業(yè)務(wù)場景的高效結(jié)合,持續(xù)為用戶體驗和業(yè)務(wù)增長注入創(chuàng)新勢能,以實現(xiàn)更大價值。