米奇影视AV,2021国产精品国产精华

遠傳科技的“數(shù)字主持人”是通過語音合成、唇形合成、表情合成以及深度學習等技術(shù)，克隆出具備和真人主播一樣播報能力的數(shù)字人。通過語音合成技術(shù)和視頻驅(qū)動技術(shù)，只需要輸入一段文本，它就能在屏幕展現(xiàn)虛擬數(shù)字人形象并進行新聞播報，且唇形動作能與播報聲音實時同步。

或許在不久的未來，你再也分不清視頻中的主持人，究竟是真人還是虛擬人，而這一天正在到來。

一、根源探究：「高逼真」的背后

遠傳科技“數(shù)字主持人”以真人為原型，通過將真人形象數(shù)字化掃描技術(shù)，建立超寫實 3D 數(shù)字人建模，多模態(tài)識別及生成、實時面部動作生成及驅(qū)動、遷移學習等技術(shù)「熔爐」，煉就而成。

從效果上來說，3D AI 合成主播給人的最大印象便是高逼真，它較好的還原了真人的發(fā)膚、表情；同時，靈活性、可塑性更強，擁有的豐富的面部表情動作，嘴部唇動，以及身體的輕微擺動，具備在更廣闊空間使用的潛力。

透過 3D AI 合成主播技術(shù)實現(xiàn)過程，我們探究它為何擁有如此逼真的效果。

1.數(shù)字化掃描技術(shù)還原真人形象

建立人物模型必須要有海量數(shù)據(jù)，遠傳科技數(shù)字化掃描技術(shù)通過攝像頭對真人原型的身體各個部位進行全方位「打點」掃描，采集每一處細節(jié)，并對其多種形態(tài)的面部表情動作，嘴部唇動，以及身體的輕微擺動進行細致入微地捕捉記錄，還原真人形象。

2.深度學習算法生成3D數(shù)字人模型

遠傳科技算法工程師熟練應(yīng)用深度學習算法，對算法里的大量參數(shù)進行調(diào)優(yōu)，確保生成的3D數(shù)字人模型能夠精確的還原真人在正常說話時候的唇部動作，臉部表情及微動作，對3D數(shù)字人模型進行實時驅(qū)動、渲染，使其面部肌肉驅(qū)動、表情肢體和語言表達能力達到一個較高的度契合。確保非專業(yè)人士無法分辨出是真人拍攝的視頻還是通過數(shù)字技術(shù)合成出來的視頻。

二、核心亮點： AI 驅(qū)動、多模態(tài)交互

1.AI 驅(qū)動的 3D 數(shù)字人

遠傳科技“數(shù)字主持人”是一種由AI所驅(qū)動的虛擬存在，擁有和真人一致的音容、笑貌和言談舉止，擁有表達情感和智慧的能力。仔細觀察你會發(fā)現(xiàn)， 3D AI 合成主播是基于 AI 算法實現(xiàn)驅(qū)動。

具體來說，3D “數(shù)字主持人”靠 AI 算法實時驅(qū)動，輸入一個文本就能輸出一個視頻，往往生成一個 1 分鐘的視頻，僅只需要 1 分鐘，幾乎可以看作實時生成。

2.關(guān)鍵技術(shù)賦能多模態(tài)交互創(chuàng)新

唇動算法、3D建模技術(shù)、深度學習算法、5G通信等關(guān)鍵技術(shù)探索文本、語音和視覺多模態(tài)交互創(chuàng)新的無限可能。

遠傳科技利用唇動算法分析出數(shù)字人應(yīng)顯示的口型標記，突破語言交流過程的表情和唇動的無縫鏈接；根據(jù)給定人物形象要求，建立數(shù)字人3D模型，綁定骨骼，創(chuàng)立動作動畫和口型動畫；基于深度學習算法、肢體捕捉技術(shù)，將文本、音頻和圖片實時生成數(shù)字人視頻；5G通信技術(shù)則讓用戶跟數(shù)字人進行語音視頻互動成為可能，麥克風和攝像頭捕捉用戶的語音和動作，數(shù)字人的后端人工智能算法根據(jù)場景生成對應(yīng)的數(shù)字人交互動作、表情和語音。

三、未來已來，你準備好了嗎？

遠傳科技“數(shù)字主持人”雖然基于真實的人進行建模，但呈現(xiàn)在人們面前的行為都是完全逼真的，能像真實主播一樣，去笑，去哭，去表達，是被創(chuàng)造出來的一個“數(shù)字人”。

數(shù)字人的未來將會作為主體人的一個副本形式存在于數(shù)字世界中，在未來的數(shù)字世界中我們將無法分辨出真人和數(shù)字人，大量在數(shù)字世界的服務(wù)將都會由數(shù)字人來代替，在電話客戶服務(wù)、線上產(chǎn)品講解、電商直播甚至線上演唱會等眾多場景都將會有數(shù)字人的角色參與，數(shù)字化終極未來也許就是數(shù)字人的世界。

你準備好接受一個數(shù)字世界了嗎？

分享到

songjy

相關(guān)推薦

近期文章

熱門標簽