實(shí)驗(yàn)結(jié)果表明,當(dāng)數(shù)據(jù)量在10秒到5分鐘之間時(shí),MegaTTS不僅可以在任意來(lái)源的新用戶的短提示下合成保同語(yǔ)音,而且始終優(yōu)于基于Fine-tuning的基線方法(Portaspeech 2)。

此外得益于音色和韻律獨(dú)立建模的方式,火山語(yǔ)音的韻律語(yǔ)言模型可以以細(xì)粒度和可控的方式將各種說(shuō)話風(fēng)格轉(zhuǎn)移到目標(biāo)音色,甚至可以模仿Rap。未來(lái)這些功能也會(huì)陸續(xù)上線,為更多用戶提供創(chuàng)作空間。

一直以來(lái),火山語(yǔ)音團(tuán)隊(duì)不斷將打磨多年的語(yǔ)音技術(shù)能力面向市場(chǎng)并通過(guò)火山引擎開(kāi)放給外部企業(yè),已覆蓋汽車、金融、有聲閱讀、視頻配音等眾多應(yīng)用場(chǎng)景,技術(shù)能力已成功應(yīng)用到抖音、剪映、番茄小說(shuō)等多款國(guó)民級(jí)產(chǎn)品上,并助力多家行業(yè)頭部企業(yè)實(shí)現(xiàn)AI語(yǔ)音能力的應(yīng)用與拓展。未來(lái)火山語(yǔ)音還將不斷探索前沿科技與業(yè)務(wù)場(chǎng)景的高效結(jié)合,持續(xù)為用戶體驗(yàn)和業(yè)務(wù)增長(zhǎng)注入創(chuàng)新勢(shì)能,以實(shí)現(xiàn)更大價(jià)值。

分享到

songjy

相關(guān)推薦