從文本合成為人工語音,通常稱為“文語轉(zhuǎn)換”(簡稱TTS),這是許多應用程序中的必要組件,例如在具有語音功能的設備、導航系統(tǒng)和視覺障礙者的可訪問性上?;旧?,文語轉(zhuǎn)換允許人工技術交互,而不需要可視化界面。
現(xiàn)代TTS系統(tǒng)以復雜的多階段處理途徑為基礎,其中每一個環(huán)節(jié)都可以依賴于手工工程的特點和啟發(fā)法。由于過程復雜,開發(fā)新TTS系統(tǒng)的工作可能是勞動密集型的,也是困難的。
Deep Voice的靈感來自于傳統(tǒng)的文語轉(zhuǎn)換途徑,采用相同的結構,基于神經(jīng)網(wǎng)絡并根據(jù)更為簡單的特征來替換所有組件。這使我們的系統(tǒng)更容易適用于新的數(shù)據(jù)集、語音和區(qū)域,而無需任何手動數(shù)據(jù)注釋或附加功能工程。
Deep Voice為真正的端到端語音合成奠定了基礎,沒有復雜的處理流程,也不依賴于手工設計的輸入或預訓練功能。
當前的處理途徑還不是端到端的,包括音素模型和音頻合成組件之內(nèi)。機器語音合成源于處理途徑的結構和音素模型,語音合成組件單獨生成為更加自然的剪輯。其聲音樣本聽起來非常接近原始語音,表明語音合成組件可以非常有效地再現(xiàn)人類的聲音。
當今,深度學習改變了諸多領域的發(fā)展,如計算機視覺技術和語音識別,而文語轉(zhuǎn)換當前正處于一個類似的轉(zhuǎn)折點。