圖:傳統(tǒng)語音模型和豆包語音模型合成鏈路的區(qū)別

Seed-TTS是字節(jié)跳動于2024年6月發(fā)布的語音生成基座模型。為提升語音表現(xiàn)力和長文本的理解能力,豆包語音模型團(tuán)隊(duì)在Seed-TTS的數(shù)據(jù)、特征、上下文等結(jié)構(gòu)上做了改進(jìn)。比如數(shù)據(jù)上,音頻做章節(jié)級別處理,保證了長文下的語音一致性和連貫性;語音韻律和準(zhǔn)確性上,融合原始文本和前端信息,保證語氣詞、副語言、強(qiáng)調(diào)、弱讀等內(nèi)容自然流暢;額外加入的上下文理解能力,使得模型能夠感知更大范圍的語義信息,旁白和角色音表現(xiàn)更精準(zhǔn)到位。

優(yōu)化后的豆包語音模型,能端到端演繹更多元的情感,在人物不同情緒上表現(xiàn)自然,而且可實(shí)現(xiàn)連續(xù)多輪對話,保證角色區(qū)分鮮明。

豆包語音模型團(tuán)隊(duì)以王明軍、李滿超兩位配音圈大咖的聲音為基礎(chǔ),采用新技術(shù)合成的有聲書,已上線番茄小說,受到用戶的廣泛歡迎。(作者:梁蕓)

分享到

崔歡歡

相關(guān)推薦