圖:傳統(tǒng)語音模型和豆包語音模型合成鏈路的區(qū)別

Seed-TTS是字節(jié)跳動于2024年6月發(fā)布的語音生成基座模型。為提升語音表現(xiàn)力和長文本的理解能力,豆包語音模型團隊在Seed-TTS的數(shù)據(jù)、特征、上下文等結構上做了改進。比如數(shù)據(jù)上,音頻做章節(jié)級別處理,保證了長文下的語音一致性和連貫性;語音韻律和準確性上,融合原始文本和前端信息,保證語氣詞、副語言、強調(diào)、弱讀等內(nèi)容自然流暢;額外加入的上下文理解能力,使得模型能夠感知更大范圍的語義信息,旁白和角色音表現(xiàn)更精準到位。

優(yōu)化后的豆包語音模型,能端到端演繹更多元的情感,在人物不同情緒上表現(xiàn)自然,而且可實現(xiàn)連續(xù)多輪對話,保證角色區(qū)分鮮明。

豆包語音模型團隊以王明軍、李滿超兩位配音圈大咖的聲音為基礎,采用新技術合成的有聲書,已上線番茄小說,受到用戶的廣泛歡迎。(作者:梁蕓)

分享到

崔歡歡

相關推薦