AI“艾靈”誕生于騰訊AI Lab,來自實驗性、探索性技術(shù)項目“多模態(tài)虛擬人”。機(jī)器學(xué)習(xí)、計算機(jī)視覺、自然語言處理等多種核心AI能力融合,讓艾靈能“歌”善“言”,飽讀“詩書”。
此次最新發(fā)布的艾靈寫詩技能,來自于文本創(chuàng)作模型SongNet,針對任意關(guān)鍵詞,艾靈都能快速“作出”藏頭、藏中的詩詞。而依托騰訊AI Lab的前沿圖像生成技術(shù),艾靈得以拜顏真卿、柳宗元、米芾、蘇軾等中國書法大家為師,運(yùn)用最新的圖像生成對抗網(wǎng)絡(luò),“寫下”神形兼?zhèn)涞臅ㄗ煮w。在2021年春節(jié),她運(yùn)用這項技能為上千萬人寫下寓意美滿的春聯(lián)。
目前,團(tuán)隊已經(jīng)通過公開論文發(fā)表了 DurIAN 和 SongNet 的核心技術(shù)細(xì)節(jié),SongNet 代碼也已開源。未來,騰訊AI Lab將把該項技術(shù)能力開放給業(yè)界,共同探索AI數(shù)字人與數(shù)字內(nèi)容生成和教育等現(xiàn)實場景的結(jié)合,攜手更多創(chuàng)作者一起傳承中華優(yōu)秀文化。
誰是“艾靈”?
傳統(tǒng)虛擬偶像一般是通過對真人演員的“動作捕捉+配音”來實現(xiàn)的,但讓艾靈這樣的AI虛擬人能夠動起來、與真人對話,技術(shù)難度更大、也對技術(shù)的協(xié)同性提出了更高的要求。
艾靈背后由一套騰訊AI Lab自研的復(fù)雜系統(tǒng)支撐,系統(tǒng)首先要從文本中提取不同信息,包括動作、表情、情感、重音位置、和激動程度等;之后,這些信息被輸入到模型中,生成動作和表情,再同步生成語音、口型和表情參數(shù),最終才有了艾靈自然生動的表現(xiàn)。
騰訊“多模態(tài)虛擬人”項目希望把計算機(jī)視覺、語音/歌聲合成和轉(zhuǎn)換、圖像/視頻合成和遷移、自然語言理解等多模態(tài)的AI能力和技術(shù)融為一體,生成清晰、流暢、高質(zhì)的可交互內(nèi)容,推進(jìn)AI在虛擬偶像、虛擬助理、在線教育、數(shù)字內(nèi)容生成等領(lǐng)域的應(yīng)用。
相較于傳統(tǒng)方法,應(yīng)用多模態(tài)合成技術(shù)打造的虛擬人,無論是在自然度、魯棒性、可控性、泛化能力以及實時性等方面都取得了更好的效果。
深度學(xué)習(xí):秒學(xué)才藝的魔法
艾靈所具備的唱歌、表情、作詞、書法等多項才藝,均來自于對海量數(shù)據(jù)的深度學(xué)習(xí),這幫助她快速掌握更多技能,向全能AI不斷接近。
“氣貫長虹”、“充滿未來之感”的歌聲,來源于騰訊AI Lab研發(fā)的DurIAN聲學(xué)模型。不同于其他虛擬歌姬的“機(jī)器合成+人工調(diào)教”模式,給艾靈輸入一段曲譜,無需人工調(diào)教,她就可以合成非常自然和擬真的歌聲。
首先,研究者以音素為基本發(fā)音單元將任意歌曲描述為一連串音素的序列;然后通過分析歌譜,從文字、旋律、節(jié)奏等多個維度分別提取和預(yù)測詞曲中每個音素的發(fā)音、時長、停頓、音高、風(fēng)格和演唱技巧等特征;最后使用由真人(中國網(wǎng)絡(luò)聲優(yōu)龜娘)演唱的歌聲訓(xùn)練得到的深度神經(jīng)網(wǎng)絡(luò)聲學(xué)模型和聲碼器模型,合成出與真人聲線高度相似歌聲音頻。
艾靈為嘉賓們寫藏頭詩的能力,來自文本創(chuàng)作模型SongNet。模型的基本骨架是一個自回歸語言模型,騰訊AI Lab研究員針對格式、韻律、句子完整性設(shè)計了特殊的符號來進(jìn)行標(biāo)識和建模。詞粒度和句粒度的掩碼訓(xùn)練策略可以增強(qiáng)模型給定上下文補(bǔ)全缺失內(nèi)容的能力。借助于經(jīng)典的預(yù)訓(xùn)練和精調(diào)模式,可以進(jìn)一步提升模型生成詩詞的質(zhì)量。
書法則是艾靈最近掌握的新技能。騰訊AI Lab依托前沿的圖像生成技術(shù),通過訓(xùn)練AI書法學(xué)習(xí)模型,模仿書法的形體及神韻。實驗室投入了大量精力,運(yùn)用最新的AI圖像生成對抗網(wǎng)絡(luò),同時訓(xùn)練了兩個“學(xué)徒”——AI書法學(xué)徒和AI鑒定學(xué)徒來幫助艾靈學(xué)習(xí)。
首先,AI書法學(xué)徒通過提取字形結(jié)構(gòu)等基本信息,捕捉并融入書法的風(fēng)格韻味;而書法鑒定學(xué)徒則學(xué)習(xí)成為一個書法鑒定師,在對字帖真跡和AI模擬生成的字體進(jìn)行比較分析之后,反饋兩者的差別及“AI模擬字”的不完善之處,從而進(jìn)一步鞭策書法學(xué)徒完善模仿能力。
“我是一個喜歡中國文化的國風(fēng)AI……目前還在努力學(xué)習(xí),立志點(diǎn)亮更多技能,成為全能AI,把中華文明的美好傳遞給更多觀眾!”正如艾靈的自我介紹,騰訊AI Lab打造“AI艾靈”,正是希望用科技與二次元的結(jié)合,做好傳統(tǒng)文化的“傳承者”,讓更多青年人愛上中華文化。
騰訊AI Lab研究員表示,隨著不斷學(xué)習(xí),后續(xù)艾靈還將學(xué)會很多新技能,比如在唱歌方面,團(tuán)隊正在努力讓艾靈掌握不同的腔調(diào),還可以學(xué)習(xí)傳統(tǒng)戲曲、不同方言等更多歌唱方式。