今年7月,達(dá)摩院發(fā)布新一代語音合成技術(shù)KAN-TTS,首次將該數(shù)字提高到97%以上。這被認(rèn)為是入選MIT Technology Review 2019年”全球十大突破性技術(shù)”后,阿里巴巴語音技術(shù)實(shí)力的又一次跨越式提升。

基于遷移學(xué)習(xí)以及多種新型算法模型,KAN-TTS可根據(jù)特定發(fā)音人的風(fēng)格快速生成高度相似的語音,并且大幅降低語音合成的門檻,手機(jī)錄音十分鐘,機(jī)器即可通過算法完成聲音的模仿。

過去數(shù)月,KAN-TTS技術(shù)已實(shí)現(xiàn)了主流場景風(fēng)格聲音的全覆蓋,可針對(duì)通用場景、客服場景、童聲場景、英文場景和方言場景,提供 41種高品質(zhì)的聲音,例如溫柔、甜蜜、嚴(yán)厲等風(fēng)格。據(jù)達(dá)摩院專家透露,團(tuán)隊(duì)還計(jì)劃用該技術(shù)來幫助視障和語言障礙人士實(shí)現(xiàn)無障礙溝通。

達(dá)摩院成立兩年以來,阿里巴巴在視覺、語音以及自然語言處理等領(lǐng)域已創(chuàng)下了多項(xiàng)世界紀(jì)錄,并且躍升為中國最大的人工智能公司。今年的杭州云棲大會(huì)上,阿里巴巴表示,阿里AI每天調(diào)用超1萬億次,服務(wù)全球10億人,日處理圖像10億張、視頻120萬小時(shí)、語音55萬小時(shí)及自然語言5千億句。

分享到

xiesc

相關(guān)推薦