同伴客數(shù)據(jù)與至頂科技共同編寫了《AIGC人工智能生產(chǎn)內(nèi)容行業(yè)研究報(bào)告》。AIGC被資本給予厚望,AIGC行業(yè)迎來的新的發(fā)展契機(jī),但在政策、商業(yè)和法律等層面,仍然存在很大風(fēng)險(xiǎn)。
前言:
2022年8月,美國(guó)科羅拉多州舉辦的新興數(shù)字藝術(shù)家競(jìng)賽中,一位沒有繪畫基礎(chǔ)的參賽者提交AIGC繪畫作品《太空歌劇院》,獲得了比賽“數(shù)字藝術(shù)/數(shù)字修飾照片”類別一等獎(jiǎng),引起業(yè)內(nèi)關(guān)于“AI是否會(huì)取代藝術(shù)家”的一場(chǎng)爭(zhēng)論。
這也使得從2022年下半年開始,“AIGC”接棒“元宇宙”成為全球關(guān)注的焦點(diǎn)和熱議話題,各行各業(yè)都在積極探尋相關(guān)領(lǐng)域在AIGC助力下的嶄新發(fā)展方向。國(guó)內(nèi)外大企業(yè)紛紛在AIGC領(lǐng)域進(jìn)行布局,同時(shí)業(yè)內(nèi)也涌現(xiàn)了一大批新興的科技型創(chuàng)業(yè)公司,在資本的助力下,AIGC行業(yè)迎來的新的發(fā)展契機(jī)。
AIGC已經(jīng)引起了各行業(yè)的廣泛關(guān)注,如何將AIGC與各行業(yè)深度融合,進(jìn)行業(yè)務(wù)模式的創(chuàng)新,以及如何避免其中可能存在的政策、商業(yè)和法律風(fēng)險(xiǎn),成為了業(yè)界人士共同關(guān)心的議題。
本研究報(bào)告參考了AIGC業(yè)內(nèi)眾多機(jī)構(gòu)的研究成果,以及AIGC資深從業(yè)者的觀點(diǎn)和實(shí)踐經(jīng)驗(yàn)。從AIGC的行業(yè)發(fā)展概況出發(fā),系統(tǒng)梳理了AIGC與各行業(yè)業(yè)務(wù)結(jié)合的眾多場(chǎng)景和業(yè)務(wù)模式,同時(shí)整理了AIGC行業(yè)尚待解決的一些問題。希望本研究報(bào)告能為讀者打開接觸AIGC實(shí)踐的窗口,助力新經(jīng)濟(jì)領(lǐng)域的實(shí)踐探索。
第一章:AIGC概念與國(guó)內(nèi)外發(fā)展概況
1、AIGC概念與發(fā)展歷程
AIGC,全稱為:“AI Generated Content”。即人工智能生產(chǎn)的內(nèi)容,是繼專業(yè)生產(chǎn)內(nèi)容(PGC)、用戶生產(chǎn)內(nèi)容(UGC) 之后誕生的,利用AI技術(shù)自動(dòng)生成內(nèi)容的新型生產(chǎn)方式。
在AIGC場(chǎng)景下,人工智能可靈活運(yùn)用于寫作、編曲、繪畫和視頻制作等創(chuàng)意領(lǐng)域。初步估計(jì),到2025年,人工智能生成數(shù)據(jù)占比將達(dá)到10%。根據(jù)《Generative AI:A Creative New World》的分析,AIGC有潛力產(chǎn)生數(shù)萬(wàn)億美元的經(jīng)濟(jì)價(jià)值。
(圖:PGC、UGC、AIGC對(duì)比)
AIGC尚處于早期階段,其精準(zhǔn)概念范圍和商業(yè)落地路徑尚無(wú)行業(yè)共識(shí),其發(fā)展可以大致分為以下三個(gè)階段:
早期萌芽階段:20世紀(jì)50年代到90年代中期,受限于科技水平,AIGC僅限于小范圍實(shí)驗(yàn)。
沉積積累階段:20世紀(jì)90年代中期到21世紀(jì)10年代中期,AIGC從實(shí)驗(yàn)向?qū)嵱棉D(zhuǎn)變,受限于算法,無(wú)法直接進(jìn)行內(nèi)容生成。
快速發(fā)展階段:21世紀(jì)10年代中期至今,深度學(xué)習(xí)算法不斷迭代,AI生成內(nèi)容種類多樣豐富且效果逼真。尤其是近幾年來,AIGC的發(fā)展迅速,從原來作為邊緣側(cè)服務(wù)于企業(yè)、機(jī)構(gòu)的角色,變?yōu)榱爽F(xiàn)在C端零基礎(chǔ)用戶都可以使用的創(chuàng)作工具。開發(fā)側(cè)重點(diǎn)上,AIGC也從原先用于翻譯、語(yǔ)音合成以及重復(fù)性工作,轉(zhuǎn)變?yōu)榱烁⒅貞?yīng)用層面,用戶能夠便捷操作的方向。
AIGC在近年來的大發(fā)展主要源于三個(gè)契機(jī):
1)更大的模型
數(shù)據(jù)表明,至少在文本生成領(lǐng)域,更大的模型有更好的效果。在過去5年中,隨著算力和算法的提升,模型參數(shù)量提升了3個(gè)數(shù)量級(jí)。2017年第一版生成模型只有1億參數(shù),而最新的模型有超過1000億的參數(shù)。
2)高質(zhì)量圖像生成引起的廣泛傳播
文本生成模型gpt3達(dá)到百萬(wàn)用戶用了2年半,同樣的里程碑,代碼生成模型copilot用了半年,圖像生成模型dalle用了2.5個(gè)月,另一個(gè)圖像生成模型Stable Diffusion用了不到一個(gè)月。
3)更多的數(shù)據(jù)形態(tài)
在2021年之前,AIGC生成的還主要是文字,而新一代的模型可以處理任何內(nèi)容格式,文字、語(yǔ)音、代碼、圖像、視頻、3D模型、游戲機(jī)的按鍵、機(jī)器人的動(dòng)作等等。在不斷地把不同類型的數(shù)據(jù)用同一種思路做抽象,且都取得了很好的效果之后,我們隱約發(fā)現(xiàn)了一條可能通往通用人工智能(AGI)的路。
2022年AIGC發(fā)展速度驚人,年初還處于技藝生疏階段,幾個(gè)月之后就達(dá)到專業(yè)級(jí)別,足以以假亂真,這讓花費(fèi)畢生所學(xué)進(jìn)行創(chuàng)作的從業(yè)人員倍感焦慮和緊張。同時(shí),AIGC的迭代速度呈現(xiàn)指數(shù)級(jí)爆發(fā),這其中深度學(xué)習(xí)模型不斷完善、開源模式的推動(dòng)、大模型探索商業(yè)化的可能,成為AIGC發(fā)展的“加速度”。
近年來資本市場(chǎng)一片寒冬,但AIGC領(lǐng)域卻在全球范圍逆勢(shì)向上,不斷傳來AI智能初創(chuàng)公司獲得新一輪融資的利好消息。目前國(guó)內(nèi)外知名科技公司都完成了AIGC布局,谷歌、Meta、微軟,百度、阿里、字節(jié)等國(guó)內(nèi)外科技巨頭悉數(shù)在AIGC領(lǐng)域有所投入。新晉AIGC行業(yè)獨(dú)角獸公司同樣層出不窮,以各式各樣的“AI炫技”名聲大噪,迅速完成了原始用戶積累和品牌影響力擴(kuò)散。因此2022年被稱為“AIGC元年”,AIGC有望接棒元宇宙成為2023年科技和資本圈的最熱門概念。
(AI繪圖案例)
2、海外AIGC發(fā)展現(xiàn)狀
2022年8月,美國(guó)科羅拉多州舉辦的新興數(shù)字藝術(shù)家競(jìng)賽中,一位沒有繪畫基礎(chǔ)的參賽者提交AIGC繪畫作品《太空歌劇院》,獲得了比賽“數(shù)字藝術(shù)/數(shù)字修飾照片”類別一等獎(jiǎng),引起業(yè)內(nèi)關(guān)于“AI是否會(huì)取代藝術(shù)家”的一場(chǎng)爭(zhēng)論,也將AIGC概念推向新高潮。
隨著大眾對(duì)于AIGC的關(guān)注度持續(xù)上升,AIGC領(lǐng)域的融資規(guī)模也在近期快速擴(kuò)張,目前已經(jīng)出現(xiàn)多家估值超10億美元的獨(dú)角獸公司。
10月19日,主打文字生成的AIGC公司Jasper.ai宣布完成1.25億美元的A輪融資,估值達(dá)到15億美元。幾乎同一時(shí)間,Stability AI宣布獲得1.01億美元,公司宣布會(huì)繼續(xù)研發(fā)用于生成圖片、語(yǔ)言、音頻、視頻和3D的AI生成模型,投后估值達(dá)10億美元。
國(guó)外AIGC領(lǐng)域既有科技巨頭谷歌、META、微軟等,也不乏AIGC的新晉獨(dú)角獸Stability AI、Jasper、OpenAI等,并且科技公司很快又將AI作畫的熱度延續(xù)到了AI生成視頻等領(lǐng)域。從Meta宣布由文本到視頻的系統(tǒng)Make-A-Video,到谷歌宣布的可以從簡(jiǎn)單的文本提示中生成高清視頻的Imagen Video和Phenaki,AIGC在海外市場(chǎng)迅速發(fā)展。
目前具有參照意義的海外公司主要有:
1)Zyro :圍繞垂直業(yè)務(wù)場(chǎng)景,結(jié)合業(yè)務(wù) knowhow 組織相關(guān) AIGC 能力
圍繞電商場(chǎng)景,通過 AIGC 生成網(wǎng)站搭建過程中所需的各類素材,具體業(yè)務(wù)包括針對(duì)性生成公司介紹、企業(yè)價(jià)值、Slogan、自動(dòng)提升圖片清晰度、自動(dòng)生成 logo 等。
2)NVIDIA:構(gòu)建技術(shù)矩陣,使其最終服務(wù)于創(chuàng)作型工具平臺(tái)
在視覺生成研究領(lǐng)域始終位于前沿,代表作品包括 CycleGAN、GauGAN、EditGAN、GANverse3D、Instant NeRF 等。
3)OpenAI:將其底層模型對(duì)外開放商用,開創(chuàng)基礎(chǔ)設(shè)施型的商業(yè)模式
GPT-3 目前已經(jīng)開始對(duì)外提供 API,并分為四種模型按照用量對(duì)外收費(fèi)。
4)Gliacloud:拼湊式視頻生成代表
輸入文本鏈接,軟件能夠自動(dòng)對(duì)其中的標(biāo)題和文字進(jìn)行區(qū)分表示,并根據(jù)不同層級(jí)自動(dòng)匹配素材和文字的轉(zhuǎn)場(chǎng)、格式等,進(jìn)而形成說明式的視頻。據(jù)公開數(shù)據(jù),該方式能夠增加 10 倍的視頻產(chǎn)量。
類似公司還包括:Gliacloud、Synths.video、lumen5、Pencil。
5)Rosebud.ai:可結(jié)合營(yíng)銷數(shù)據(jù)生成無(wú)版權(quán)糾紛的圖像
Rosebud.ai 能夠生成非真實(shí)的人臉圖像,并在該圖像中匹配相關(guān)衣物等所需素材。此外,模型面孔可以根據(jù)對(duì)應(yīng)受眾的相關(guān)數(shù)據(jù)進(jìn)行調(diào)整。該公司聲稱,其生成模型能夠使活動(dòng)點(diǎn)擊率提升22%。
類似公司還包括:Generated Photos。
6)Persado:結(jié)合精準(zhǔn)用戶畫像,實(shí)現(xiàn)個(gè)性化文本營(yíng)銷
Persado 的平臺(tái)將營(yíng)銷創(chuàng)意分解為六個(gè)關(guān)鍵要素:敘事、情感、描述、號(hào)召性用語(yǔ)、格式和文字定位。通過組合各類元素,該平臺(tái)能夠?yàn)槊课豢蛻舸_定交流的個(gè)性化措辭。該平臺(tái)已被多家公司用于促銷電子郵件、社交媒體廣告、店內(nèi)展示橫幅甚至廣播內(nèi)容等,以提高品牌參與度和轉(zhuǎn)化率。
3、我國(guó)AIGC發(fā)展現(xiàn)狀
資料顯示,國(guó)內(nèi)大廠百度、騰訊優(yōu)圖、阿里巴巴、快手、字節(jié)跳動(dòng)、網(wǎng)易、商湯、美圖等都在AIGC領(lǐng)域有所投入,中國(guó)信通院也在2022年聯(lián)合京東探索研究院發(fā)布了AIGC白皮書,對(duì)行業(yè)進(jìn)行了深入剖析和研究。
2022年11月9日,百度創(chuàng)始人兼首席執(zhí)行官李彥宏表示,過去一年無(wú)論是在技術(shù)層面還是商業(yè)應(yīng)用層面,人工智能都有了巨大的進(jìn)展,有些甚至是方向性的改變。其中人工智能技術(shù)方向性改變體現(xiàn)就是AIGC。
李彥宏判斷AIGC將迎來三個(gè)發(fā)展階段:
“助手階段”,AIGC輔助人類進(jìn)行內(nèi)容生產(chǎn);
“協(xié)作階段”,AIGC以虛實(shí)并存的虛擬人形態(tài)出現(xiàn),形成人機(jī)共生的局面;
“原創(chuàng)階段”,AIGC將獨(dú)立完成內(nèi)容創(chuàng)作。
其他國(guó)內(nèi)大廠中,騰訊打造的寫稿機(jī)器人“夢(mèng)幻寫手”;阿里巴巴旗下的AI在線設(shè)計(jì)平臺(tái)Lubanner,幫助營(yíng)銷人員生產(chǎn)Banner;字節(jié)跳動(dòng)旗下的剪映以及快手云剪都能提供AI生成視頻;網(wǎng)易推出的一站式AI音樂創(chuàng)作平臺(tái)“網(wǎng)易天音”等等。
隨著AIGC的火熱,國(guó)內(nèi)也涌現(xiàn)了一批成長(zhǎng)迅速的創(chuàng)業(yè)公司,代表企業(yè)如下:
1)小冰科技
2021年完成 A 輪融資,該輪融資由高瓴領(lǐng)投,五源、Neumann、IDG、GGV 紀(jì)源資本及上輪投資人北極光與網(wǎng)易公司跟投。2022年完成10億元B輪融資,投資方尚未披露。
主營(yíng)方向:小冰是全球領(lǐng)先的人工智能科技公司,旗下小冰框架是全球承載交互量最大的完備人工智能框架之一,在開放域?qū)υ?、多模態(tài)交互、超級(jí)自然語(yǔ) 音、神經(jīng)網(wǎng)絡(luò)渲染及內(nèi)容生成領(lǐng)域居于全球領(lǐng)先。
AIGC 相關(guān)亮點(diǎn):作為 “AI being” 派虛擬人。小冰的產(chǎn)品始終是人 + 交互 + 內(nèi)容。具體包括虛擬人(夏語(yǔ)冰等 somebody instance、虛擬男友等 nobody instance 和國(guó)家隊(duì)人工智能裁判與教練系統(tǒng)觀君等在垂直場(chǎng)景中工作的虛擬人類)、音頻生成(主攻超級(jí)語(yǔ)言及歌聲,在線歌曲生成平臺(tái)與歌手 歌聲合成軟件 X studio)、視覺創(chuàng)造(畢業(yè)作品集《或然世界》、為國(guó)家紡織品開發(fā)中心、萬(wàn)事利等數(shù)百家機(jī)構(gòu)提供了圖案和紋樣設(shè)計(jì))、文本創(chuàng)造(2017 年即推出小冰詩(shī)集)、虛擬社交、Game AI(Xiaoice Game Studio)等。
商業(yè)客戶已覆蓋金融、智能車機(jī)、零售、體育、紡織、地產(chǎn)、文旅等十多個(gè)垂直領(lǐng)域,并提出了以 ” 人力 ” 的邏輯去進(jìn)行商業(yè)報(bào)價(jià)的虛擬人商業(yè)模式。
2)同伴客數(shù)據(jù)
2022年完成數(shù)千萬(wàn)來自W&M的戰(zhàn)略融資。
主營(yíng)方向:同伴客數(shù)據(jù)是一家致力于通過數(shù)字科技為人類釋放無(wú)限潛能的科技公司。核心產(chǎn)品是TBanic數(shù)字員工基礎(chǔ)平臺(tái),集成了基于“DARD”技術(shù)(數(shù)據(jù)-Data、人工智能-AI、機(jī)器流程自動(dòng)化-RPA、數(shù)字人-Digital Human)的數(shù)字員工開發(fā)套件,客戶可以根據(jù)不同的業(yè)務(wù)場(chǎng)景,構(gòu)造出具備對(duì)應(yīng)工作技能的數(shù)字員工。同伴客的解決方案覆蓋數(shù)字藍(lán)領(lǐng)、數(shù)字白領(lǐng)和數(shù)字金領(lǐng)三個(gè)層級(jí),主要包含AIGC數(shù)字員工、數(shù)據(jù)洞察數(shù)字員工、RPA數(shù)字員工、金融交易數(shù)字員工、人工增強(qiáng)數(shù)字員工等相關(guān)產(chǎn)品。目前已服務(wù)于全球超過200家客戶,其中不乏世界500強(qiáng)企業(yè)、大型國(guó)央企和知名高校與科研院所。
AIGC相關(guān)亮點(diǎn):以虛擬人數(shù)字員工的形式,為客戶直接提供功能強(qiáng)大的AIGC機(jī)器人,涵蓋了繪圖、文字撰寫、視頻處理等相關(guān)功能,同時(shí)集成PRA、數(shù)據(jù)處理和虛擬人等技術(shù),可以為客戶提供完整的解決方案。目前同伴客的AIGC機(jī)器人作為教學(xué)儀器,在高校教育市場(chǎng)擁有數(shù)百家客戶沉淀和絕對(duì)的競(jìng)爭(zhēng)優(yōu)勢(shì),同時(shí)也在眾多世界500強(qiáng)企業(yè)和大型國(guó)央企中得到落地應(yīng)用。
3)DeepMusic(靈動(dòng)音科技)
2018年完成數(shù)千萬(wàn)A輪融資,由TME 領(lǐng)投。
主營(yíng)方向:公司致力于運(yùn)用AI技術(shù)從作詞、作曲、編曲、演唱、混音等方面全方位降低音樂創(chuàng)作及制作門檻,為音樂行業(yè)提供新的產(chǎn)品體驗(yàn),提升效率。
AIGC相關(guān)亮點(diǎn):產(chǎn)品包括針對(duì)視頻生成配樂的配樂貓、支持非音樂專業(yè)人員創(chuàng)作的口袋音樂、可AI生成歌詞的 LYRICA、AI作曲軟件LAZYCOMPOSER。目前已與國(guó)內(nèi)多家音樂平臺(tái)廠商達(dá)成合作。其音樂標(biāo)注團(tuán)隊(duì)已形成了全球最精確的話語(yǔ)歌曲音樂信息庫(kù)。
4)倒映有聲
2021年完成Pre-A輪融資,投資機(jī)構(gòu)為“中文在線”,溫石企業(yè)顧問集團(tuán)擔(dān)任本輪融資獨(dú)家財(cái)務(wù)顧問。
主營(yíng)方向:一家以技術(shù)為核心的創(chuàng)新型公司和無(wú)人驅(qū)動(dòng)數(shù)字分身技術(shù)解決方案供應(yīng)商,通過自研神經(jīng)渲染技術(shù)和TTSA技術(shù),實(shí)現(xiàn)基于文本實(shí)時(shí)生成高質(zhì)量語(yǔ)音(音頻)和動(dòng)畫(視頻),致力于成為AI數(shù)字人神經(jīng)渲染引擎。
AIGC相關(guān)亮點(diǎn):倒映有聲將其虛擬人的高自然度歸結(jié)于神經(jīng)渲染(Neural Rendering)、TTSA(基于文本和語(yǔ)音合成實(shí)時(shí)生成音頻和視頻)、ETTS(富情感語(yǔ)音合成)、Digital Twin。通過神經(jīng)渲染技術(shù)快速構(gòu)建AI數(shù)字分身,通過語(yǔ)音+圖像生成技術(shù),生成和驅(qū)動(dòng)數(shù)字分身的唇形、表情、動(dòng)作、肢體姿態(tài),創(chuàng)造表情自然、動(dòng)作流暢、語(yǔ)音充滿情感的高擬真度數(shù)字分身IP。2021年3月倒映有聲和音頻客戶端「云聽」簽署戰(zhàn)略合作協(xié)議。
5)超參數(shù)
超參數(shù)科技宣布完成1億美元B輪融資,本輪融資由紅杉中國(guó)領(lǐng)投,老股東五源資本、高榕資本跟投。
主營(yíng)方向:超參數(shù)科技是一家專注于AI領(lǐng)域的科技公司,致力于「打造有生命的AI」,創(chuàng)造一個(gè)10億人與100億AI共同生活的虛擬世界。超參數(shù)圍繞L1-L4技術(shù)路徑打造極致的AI Bot,逐步為廣泛用戶帶來全新的虛擬世界體驗(yàn)。
AIGC相關(guān)亮點(diǎn):超參數(shù)科技提供的AI bot支持玩家陪玩(3D生存游戲AI獵戶座α)、多人團(tuán)隊(duì)競(jìng)技(球球大作戰(zhàn))、非完美信息博弈AI(斗地主、德?lián)?、麻將等)等。自有游戲AI平臺(tái)“Delta”采用全新的“AI+游戲”研發(fā)管線,為開發(fā)側(cè)和體驗(yàn)側(cè)兩端帶來范式創(chuàng)新。
6)影譜科技
2018年完成D輪13.6億元融資,投資方包括商湯科技Sensetime、軟銀中國(guó),東方明珠旗下產(chǎn)業(yè)投資基金、PAC、前海梧桐并購(gòu)基金、朗盛資本等。
主營(yíng)方向:影譜科技以人工智能視覺技術(shù)產(chǎn)業(yè)化為主要目標(biāo),是國(guó)內(nèi)領(lǐng)先的智能影像生產(chǎn)技術(shù)提供商及應(yīng)用方案提供商。公司專注于視覺內(nèi)容的生產(chǎn)效率與呈現(xiàn)交互方式的技術(shù)研究,通過ACM(影像商業(yè)化引擎)、AGC(影像工業(yè)化引擎)和ADT(數(shù)字孿生引擎)三大引擎,面向媒體、文化、科教等多行業(yè)領(lǐng)域提供一站式的智能解決方案。
AIGC相關(guān)亮點(diǎn):在視頻生成相關(guān)領(lǐng)域支持結(jié)構(gòu)化視覺分析、影像自動(dòng)合成技術(shù)(將視頻短片、圖片、音軌等按照規(guī)定效果批量化自動(dòng)拼接)、智能視頻編輯(基于視頻中多模態(tài)信息的特征融合進(jìn)行學(xué)習(xí),按照氛圍、情緒等高級(jí)語(yǔ)義限定,對(duì)滿足條件片段進(jìn)行檢測(cè)并合成)、視頻內(nèi)容生產(chǎn)(對(duì)視頻中的鏡頭、元素和場(chǎng)景采用不同的生成方式,同時(shí)對(duì)組件的組合方式進(jìn)行學(xué)習(xí),實(shí)現(xiàn)視頻的自動(dòng)化生產(chǎn))、行為動(dòng)作分析、場(chǎng)景信息恢復(fù)、跨模態(tài)轉(zhuǎn)換等。
第二章:AIGC產(chǎn)業(yè)發(fā)展分析
1、AIGC核心算法
AIGC 技術(shù)主要涉及兩個(gè)方面:自然語(yǔ)言處理 NLP 和 AIGC 生成算法。隨著 NLP(Natural Language Processing,自然語(yǔ)言處理)技術(shù)和擴(kuò)散模型(Diffusion Model)的發(fā)展,AI不再僅作為內(nèi)容創(chuàng)造的輔助工具,創(chuàng)造生成內(nèi)容成為了可能。
近年來,AIGC的快速發(fā)展歸功于生成算法領(lǐng)域的技術(shù)積累,其中包含了:生成對(duì)抗網(wǎng)絡(luò)(GAN)、變微分自動(dòng)編碼器(VAE)、標(biāo)準(zhǔn)化流模型(NFs)、自回歸模型(AR)、能量模型和擴(kuò)散模型(Diffusion Model)??梢钥吹?,大模型、大數(shù)據(jù)、大算力是未來的發(fā)展趨勢(shì)。算法模型的突破是近年來AIGC得以快速突破的催化劑,最常用的兩個(gè)模式,即生成對(duì)抗網(wǎng)絡(luò)和擴(kuò)散模型。
2014年,Ian J.Goodfellow 提出了GAN,是一種深度神經(jīng)網(wǎng)絡(luò)架構(gòu),由一個(gè)生成網(wǎng)絡(luò)和一個(gè)判別網(wǎng)絡(luò)組成。生成網(wǎng)絡(luò)產(chǎn)生“假”數(shù)據(jù),并試圖欺騙判別網(wǎng)絡(luò);判別網(wǎng)絡(luò)對(duì)生成數(shù)據(jù)進(jìn)行真?zhèn)舞b別,試圖正確識(shí)別所有“假”數(shù)據(jù)。在訓(xùn)練迭代的過程中,兩個(gè)網(wǎng)絡(luò)持續(xù)地進(jìn)化和對(duì)抗,直到達(dá)到平衡狀態(tài),判別網(wǎng)絡(luò)無(wú)法再識(shí)別“假”數(shù)據(jù),訓(xùn)練結(jié)束。
GAN被廣泛應(yīng)用于廣告、游戲、娛樂、媒體、制藥等行業(yè),可以用來創(chuàng)造虛構(gòu)的人物、場(chǎng)景,模擬人臉老化,圖像風(fēng)格變換,以及產(chǎn)生化學(xué)分子式等等。
優(yōu)點(diǎn):能更好建模數(shù)據(jù)分布。無(wú)需利用馬爾科夫鏈反復(fù)采樣,無(wú)需在學(xué)習(xí)過程中進(jìn)行推斷,沒有復(fù)雜的變分下界,避開近似計(jì)算棘手的概率的難題。
缺點(diǎn):難訓(xùn)練,不穩(wěn)定。生成器和判別器之間需要很好的同步,但是在實(shí)際訓(xùn)練中很容易判別器收斂,生成器發(fā)散。兩者的訓(xùn)練需要精心的設(shè)計(jì)。可能會(huì)出現(xiàn)模式缺失(Mode Collapse)問題。GANs 的學(xué)習(xí)過程可能出現(xiàn)模式缺失,生成器開始退化,總是生成同樣的樣本點(diǎn),無(wú)法繼續(xù)學(xué)習(xí)。
(AI繪圖的細(xì)節(jié)仍然非常粗糙)
擴(kuò)散模型是一種新型的生成模型,可生成各種高分辨率圖像。在OpenAI,Nvidia和 Google設(shè)法訓(xùn)練大模型之后,它們已經(jīng)引起了很多關(guān)注。基于擴(kuò)散模型的示例架構(gòu)包括 GLIDE,DALLE-2,Imagen和完全開源的穩(wěn)定擴(kuò)散。擴(kuò)散模型已經(jīng)擁有了成為下一代圖像生成模型的代表的潛力。以 DALL-E 為例,能夠直接通過文本描述生成圖像,讓計(jì)算機(jī)也擁有了人的創(chuàng)造力。
擴(kuò)散模型的生成邏輯相比其他的模型更接近人的思維模式,也是為什么近期AIGC擁有了開放性的創(chuàng)造力。本質(zhì)上,擴(kuò)散模型的工作原理是通過連續(xù)添加高斯噪聲來破壞訓(xùn)練數(shù)據(jù),然后通過反轉(zhuǎn)這個(gè)噪聲過程來學(xué)習(xí)恢復(fù)數(shù)據(jù)。訓(xùn)練后,我們可以通過簡(jiǎn)單地將隨機(jī)采樣的噪聲傳遞給學(xué)習(xí)的去噪過程來生成數(shù)據(jù)。
相比于其他模型,擴(kuò)散模型的優(yōu)勢(shì)在于生成的圖像質(zhì)量更高,且無(wú)需通過對(duì)抗性訓(xùn)練,這使得其訓(xùn)練的效率有所提升。同時(shí),擴(kuò)散模型還具有可擴(kuò)展性和并行性。
高斯噪聲是一種概率密度函數(shù)符合正態(tài)分布的函數(shù),當(dāng)AIGC運(yùn)用擴(kuò)散模型來生成內(nèi)容 的時(shí)候,是通過在一副純白的畫布(隨機(jī)白噪聲)上逐步去噪來生成最終的目標(biāo)畫作。即用戶給出的文本描述形容詞,來從一個(gè)模糊的概念逐步具象。我們可以簡(jiǎn)化為多個(gè)正態(tài)分布函數(shù)的疊加,模型選擇其中重疊的區(qū)間輸出,這也是一個(gè)逐步縮小范圍的過程。這與人類的思維模式很類似。簡(jiǎn)言之,在AI訓(xùn)練階段,我們將數(shù)據(jù)集中上億組圖文對(duì)進(jìn)行訓(xùn)練,提取特征值;生產(chǎn)過程中,通過添加文字描述,引入不同的特征值進(jìn)行去噪,從而生產(chǎn)一副AI理解下的內(nèi)容作品。例如,在當(dāng)我們?cè)谀X海中想象一個(gè)畫面的時(shí)候,比如:一只柯基通過一個(gè)小號(hào)玩火焰。我們的思維模式也是先有一只柯基,再去想象小號(hào)和火焰,最后將這些元素疊加在柯基身上。
簡(jiǎn)述完原理以后,我們可以通過目前非常先進(jìn)的AI圖像生成應(yīng)用DALL-E2來舉例闡述 具體的工作過程:將文本提示輸入到一個(gè)經(jīng)過訓(xùn)練能夠?qū)⑻崾居成涞奖硎究臻g的文本編碼器中;通過一個(gè)被稱為“先驗(yàn)”(Prior)的模型,將文本編碼映射到圖像編碼器中。這一圖像編碼器會(huì)捕獲文本編碼包含的信息和語(yǔ)義;圖像編碼器隨機(jī)生成一個(gè)圖像,這一圖像是該語(yǔ)義信息的視覺表現(xiàn)。這一個(gè)過程和人類的思維模式相似。在生成的過程中,涉及到了文本編碼器這一概念,目前主流的文本編碼器是來自于OpenAI的Clip模型,其通過4億組文字-圖片對(duì)進(jìn)行訓(xùn)練。當(dāng)然,其中的模型訓(xùn)練都是基于英文實(shí)現(xiàn),語(yǔ)言的區(qū)別又會(huì)給AIGC帶來另一重挑戰(zhàn)。
除了上述提到的AIGC生成算法模型以外,超級(jí)計(jì)算機(jī)和算力這些硬件作為基礎(chǔ)設(shè)施也是不可或缺的。在機(jī)器學(xué)習(xí)的過程中,需要通過大量的訓(xùn)練來實(shí)現(xiàn)更準(zhǔn)確的結(jié)果,這樣的計(jì)算量普通的電腦是無(wú)法完成的,目前主要由英偉達(dá)A100構(gòu)建的計(jì)算集群完成,而國(guó)內(nèi)外的初創(chuàng)企業(yè)也會(huì)通過云實(shí)現(xiàn)。
2、AIGC數(shù)據(jù)與算力
數(shù)據(jù)、算力、算法是驅(qū)動(dòng)AIGC發(fā)展的三駕馬車,要實(shí)現(xiàn)AIGC的發(fā)展,這三者缺一不可。目前,結(jié)合自然語(yǔ)言的大模型與數(shù)據(jù)集已成為 AIGC 發(fā)展的軟件基礎(chǔ),OpenAI 的 Clip 模型基于4億組高質(zhì)量的英文圖文對(duì)應(yīng)數(shù)據(jù)訓(xùn)練而成;算力即權(quán)力將在AIGC數(shù)字時(shí)代更加凸顯,Stable Diffusion目前依賴于4000個(gè)英偉達(dá)A100的GPU集群,運(yùn)營(yíng)成本超 5000萬(wàn)美金。為了讓功能更加精確,未來還將更多地基于語(yǔ)種去開發(fā)垂直類的應(yīng)用,便于更有目的性地為特定功能進(jìn)行訓(xùn)練。
然而,AIGC的算法、算力和數(shù)據(jù),都需要企業(yè)投入大量的資金,這就導(dǎo)致AIGC初創(chuàng)企業(yè)的經(jīng)營(yíng)成本居高不下。以新晉獨(dú)角獸企業(yè)Stability AI為例,該公司為維護(hù)一個(gè)擁有4000塊英偉達(dá)A100 GPU組成的算力群,總計(jì)花費(fèi)超5000萬(wàn)美元。
較高的前期投入,要求AIGC企業(yè)用戶規(guī)模能夠迅速擴(kuò)張。因?yàn)橹挥行袠I(yè)用戶規(guī)模達(dá)到一定體量,才能夠攤平成本,扭虧為盈。過去的經(jīng)驗(yàn)表明,要在短時(shí)間內(nèi)實(shí)現(xiàn)用戶規(guī)模的快速增長(zhǎng),需要提供標(biāo)準(zhǔn)化的服務(wù)內(nèi)容,畢竟標(biāo)準(zhǔn)的等于大眾的,也等于成規(guī)模的用戶需求滿足。
而且,AIGC自身的特點(diǎn),其實(shí)也限制了服務(wù)標(biāo)準(zhǔn)化的進(jìn)程。由于AIGC生成內(nèi)容具有不穩(wěn)定性,內(nèi)容質(zhì)量層次不齊,無(wú)法形成統(tǒng)一的質(zhì)量標(biāo)準(zhǔn),一定程度上限制了用戶規(guī)模的擴(kuò)張,也限制了AIGC企業(yè)的賺錢能力的提升。
不僅如此,由于AIGC賽道正處于摸索階段,公司戰(zhàn)略以完善技術(shù)水平、考察消費(fèi)者需求為主,大部分技術(shù)沒有完善到足以實(shí)際運(yùn)用到生產(chǎn)之中,而小部分相對(duì)成熟的應(yīng)用,也為了吸引顧客,而處在免費(fèi)試用的階段。這就意味著,AIGC技術(shù)本身缺乏變現(xiàn)能力。投入增多,而收入不夠,使得眾多AIGC公司處于虧損狀態(tài)。
并且,這種虧損狀態(tài),長(zhǎng)期內(nèi),并不會(huì)因用戶規(guī)模的增多而得到改善。因?yàn)?,一旦行業(yè)用戶規(guī)模達(dá)到一定體量,大廠們必然會(huì)加速入場(chǎng),此時(shí)行業(yè)競(jìng)爭(zhēng)加劇,一方面會(huì)促進(jìn)企業(yè)增加成本投入;另一方面也會(huì)導(dǎo)致企業(yè)收入減少。那時(shí),面對(duì)著AIGC有限的變現(xiàn)能力,加上持續(xù)不斷的成本投入,勢(shì)必對(duì)AIGC企業(yè)形成非常大的經(jīng)營(yíng)壓力。
第三章:AIGC應(yīng)用場(chǎng)景分析
1、AIGC應(yīng)用場(chǎng)景匯總
按照AIGC的發(fā)展邏輯,主要可以分為3個(gè)階段:一是AIGC內(nèi)容生產(chǎn)技術(shù)完善階段,能夠?qū)崿F(xiàn)文本、視頻、圖片生成以及三者的跨模態(tài)轉(zhuǎn)換;二是具有多模態(tài)生成技術(shù)的聚合應(yīng)用——虛擬人;三是AIGC內(nèi)容生態(tài)聚合體——元宇宙。
未來,AIGC將有望成為數(shù)字內(nèi)容創(chuàng)新發(fā)展的新引擎。
1)AIGC能夠以優(yōu)于人類的制造能力和知識(shí)水平承擔(dān)信息挖掘、素材調(diào)用、復(fù)刻編輯等基礎(chǔ)性機(jī)械勞動(dòng),從技術(shù)層面實(shí)現(xiàn)以低邊際成本、高效率的方式滿足海量個(gè)性化需求。
2)AIGC能夠通過支持?jǐn)?shù)字內(nèi)容與其他產(chǎn)業(yè)的多維互動(dòng)、融合滲透從而孕育新業(yè)態(tài)新模式。
3)助力“元宇宙”發(fā)展。通過AIGC加速?gòu)?fù)刻物理世界、進(jìn)行無(wú)限內(nèi)容創(chuàng)作,從而實(shí)現(xiàn)自發(fā)有機(jī)生長(zhǎng)。
長(zhǎng)期來看,AIGC與各行業(yè)的融合,有望創(chuàng)造更多的應(yīng)用場(chǎng)景,大幅提高各行業(yè)的內(nèi)容創(chuàng)作效率。
1)AIGC+傳媒:寫稿機(jī)器人、采訪助手、視頻字幕生成、語(yǔ)音播報(bào)、視頻錦集、人工智能合成主播。
2)AIGC+電商:商品3D模型、虛擬主播、虛擬貨場(chǎng)。
3)AIGC+影視:AI劇本創(chuàng)作、AI合成人臉和聲音、AI創(chuàng)作角色和場(chǎng)景、AI自動(dòng)生成影視預(yù)告片。
4)AIGC+娛樂:AI換臉應(yīng)用(如FaceAPP、ZAO)、AI作曲(如初音未來虛擬歌姬)、AI合成音視頻動(dòng)畫。
5)AIGC+教育:AI合成虛擬教師、AI根據(jù)課本制作歷史人物形象、AI將2D課本轉(zhuǎn)換為3D。
6)AIGC+金融:通過AIGC實(shí)現(xiàn)金融資訊、產(chǎn)品介紹視頻內(nèi)容的自動(dòng)化生產(chǎn),通過AIGC塑造虛擬數(shù)字人客服。
7)AIGC+醫(yī)療;AIGC為失聲者合成語(yǔ)言音頻、為殘疾人合成肢體投影、為心理疾病患者合成醫(yī)護(hù)陪伴。
8)AIGC+工業(yè):通過AIGC完成工程設(shè)計(jì)中重復(fù)的低層次任務(wù),通過AIGC生成衍生設(shè)計(jì),為工程師提供靈感。
(圖:PGC、UGC、AIGC對(duì)比)
2、AIGC商業(yè)模式分析
商業(yè)模式上看,目前AIGC企業(yè)主要有以下幾種商業(yè)模式:
1)作為底層平臺(tái)接入其他產(chǎn)品對(duì)外開放,按照數(shù)據(jù)請(qǐng)求量和實(shí)際計(jì)算量計(jì)算:GPT-3對(duì)外提供API接口,采用的四種模型分別采用不同的按量收費(fèi)方式。
2)按產(chǎn)出內(nèi)容量收費(fèi):包括DALL·E、Deep Dream Generator等AI圖像生成平臺(tái)大多按照?qǐng)D像張數(shù)收費(fèi)。
3)直接對(duì)外提供軟件:例如個(gè)性化營(yíng)銷文本寫作工具AX Semantics則以約1900人民幣/月的價(jià)格對(duì)外出售,并以約4800歐元/月的價(jià)格提供支持定制的電子商務(wù)版本。大部分C端AGC工具則以約80人民幣/月的價(jià)格對(duì)外出售。
4)模型訓(xùn)練費(fèi)用:適用于NPC訓(xùn)練等個(gè)性化定制需求較強(qiáng)的領(lǐng)域。
5)根據(jù)具體屬性收費(fèi):例如版權(quán)授予(支持短期使用權(quán)、長(zhǎng)期使用權(quán)、排他性使用權(quán)和所有權(quán)多種合作模式,擁有設(shè)計(jì)圖案的版權(quán))、是否支持商業(yè)用途(個(gè)人用途、企業(yè)使用、品牌使用等)、透明框架和分辨率等。
商業(yè)門檻來看,雖然AIGC是一個(gè)重技術(shù)的行業(yè),但是由于眾多開源平臺(tái)的存在,以及軟件技術(shù)的可復(fù)制性,單純的技術(shù)和算法,很難成為AIGC行業(yè)的主要競(jìng)爭(zhēng)壁壘。AIGC相關(guān)企業(yè)如果想建立長(zhǎng)久的競(jìng)爭(zhēng)優(yōu)勢(shì),還需要在一體化解決方案、行業(yè)深度綁定、業(yè)務(wù)閉環(huán)等領(lǐng)域不斷耕耘。應(yīng)該說,技術(shù)是AIGC企業(yè)成功的必要條件,但不是充分條件,對(duì)于商業(yè)能力的把控,會(huì)是未來AIGC賽道中相關(guān)企業(yè)的競(jìng)爭(zhēng)焦點(diǎn)。
1)打造一體化解決方案服務(wù)能力:AIGC本質(zhì)上提供的是內(nèi)容的生成工具,和傳統(tǒng)的內(nèi)容輔助編輯邏輯是相同的。采集、生產(chǎn)、媒資管理、分發(fā)消費(fèi)等視頻整個(gè)生命周期,一般都需要覆蓋內(nèi)容生成的全生命周期。
2)與行業(yè)的深度綁定關(guān)系:通過和行業(yè)形成深度綁定關(guān)系,接入相關(guān)平臺(tái)或底層系統(tǒng)的,與原來的內(nèi)容載體建立良好的合作關(guān)系,除去說明場(chǎng)景可行性外,還需要強(qiáng)調(diào)對(duì)方在基礎(chǔ)架構(gòu)上的配合意愿。
3)構(gòu)建業(yè)務(wù)閉環(huán):創(chuàng)作型的工具如何得到反饋的手段,需要新的模式形成閉環(huán)。需要從“拼接式”(需要大量的人工標(biāo)注數(shù)據(jù),只能針對(duì)具體任務(wù),不會(huì)自我成長(zhǎng))到“進(jìn)化式”(創(chuàng)造特定條件和核心能力,使之能夠完成通用任務(wù)并自我成長(zhǎng)),并與用戶增加對(duì)話輪次、建立情感鏈接。
第四章:AIGC發(fā)展預(yù)測(cè)
1、AIGC發(fā)展前景
目前,科技圈和資本圈普遍對(duì)于AIGC的發(fā)展抱有很大的期望,AIGC有望接棒元宇宙,成為2023年科技圈的熱點(diǎn)。
2022年7月,百度世界大會(huì)上李彥宏這樣預(yù)言到:“未來十年,AIGC(人工智能自主生產(chǎn)內(nèi)容)將顛覆現(xiàn)有內(nèi)容生產(chǎn)模式??梢詫?shí)現(xiàn)以十分之一的成本,以百倍千倍的生產(chǎn)速度,去生成AI原創(chuàng)內(nèi)容。”
2022年9月,紅杉資本聯(lián)合GPT-3,發(fā)布了一篇名為《生成式AI:一個(gè)創(chuàng)造性的新世界》的文章,并且立刻引爆了AIGC賽道?!叭藗兊膲?mèng)想:生成式AI將創(chuàng)造和知識(shí)工作的編輯成本降至零,生產(chǎn)巨大的勞動(dòng)生產(chǎn)率和經(jīng)濟(jì)價(jià)值,以及相應(yīng)的市值?!卑凑掌渲械睦斫?,AI能夠讓人效突破現(xiàn)在技術(shù)條件的天花板,未來企業(yè)的增長(zhǎng)將不再受制于人力和成本,企業(yè)的經(jīng)營(yíng)效率也會(huì)隨之發(fā)生質(zhì)變。
在移動(dòng)互聯(lián)網(wǎng)時(shí)代,關(guān)于未來的暢想,已經(jīng)進(jìn)行過很多次,從當(dāng)初紅極一時(shí)的元宇宙和Web 3,就像給大眾營(yíng)造的一場(chǎng)科技幻想,跳脫出時(shí)間和空間的維度,充斥著對(duì)未來的無(wú)限期待,這也是很多極客的畢生夙愿。劇本是如此的相似,只不過這次的主角換成了AIGC。伴隨著文本、圖片、視頻以及三者跨模態(tài)相互轉(zhuǎn)化方面的技術(shù)不斷突破,我們所熟悉的AI行業(yè),正意欲重構(gòu)人類生產(chǎn)力和生產(chǎn)關(guān)系的變革,這究竟是一時(shí)曇花,還是一片新的藍(lán)海,還有待市場(chǎng)和時(shí)間的檢驗(yàn)。
現(xiàn)在的AIGC仍處于早期摸索期,發(fā)展的有限程度導(dǎo)致了目前應(yīng)用場(chǎng)景的有限。也許未來技術(shù)的突破,能夠不斷擴(kuò)展AIGC的應(yīng)用場(chǎng)景,但短期內(nèi)各企業(yè)能做的,只是優(yōu)化模型,從而提高其與應(yīng)用場(chǎng)景的適配度。
公開數(shù)據(jù)顯示,在未來2-3年間,AIGC的初創(chuàng)公司和商業(yè)落地方案將持續(xù)增加;到2030年,AIGC市場(chǎng)規(guī)?;?qū)⒊^萬(wàn)億人民幣。
從PGC到UGC再到 AIGC,AIGC能讓人類突破內(nèi)容生產(chǎn)力枷鎖,高效率生成高質(zhì)量?jī)?nèi)容,讓人類進(jìn)入到真正的元宇宙之中。若要AIGC能夠滿足元宇宙的需求,獨(dú)立完成高質(zhì)量、高精度的內(nèi)容,AIGC技術(shù)層面還需要一定的發(fā)展,我們可以分為軟硬件兩個(gè)維度看,軟件層面主要包括自然語(yǔ)言處理技術(shù)、AIGC生成算法模型和數(shù)據(jù)集,硬件層面主要是算力、通信網(wǎng)絡(luò)。
從業(yè)務(wù)層面看,結(jié)合國(guó)內(nèi)外發(fā)展情況,目前在AIGC的知識(shí)產(chǎn)權(quán)歸屬方面尚有法律空缺,且創(chuàng)作倫理問題也未得到有效解決,因此無(wú)論是技術(shù)還是商業(yè)層面,高質(zhì)、干凈的數(shù)據(jù)集對(duì)于模型訓(xùn)練及內(nèi)容生成均有至關(guān)重要的影響。同時(shí),隨著AIGC逐步落地,其算力需求將大增,未來相關(guān)企業(yè)除用云計(jì)算之外,或組建自有算力集群,考慮到英偉達(dá)A100、 H100出口受限,相關(guān)國(guó)產(chǎn)算力芯片將有機(jī)會(huì)獲得增量市場(chǎng)。
從主題投資的角度看,區(qū)塊鏈、元宇宙、Web3 均描述了數(shù)字經(jīng)濟(jì)時(shí)代中宏大的應(yīng)用場(chǎng)景,而去年被資本市場(chǎng)關(guān)注的虛擬人、NFT等只是其中的具體應(yīng)用之一。未來,AIGC可能將是推動(dòng)數(shù)字經(jīng)濟(jì)從Web2向 Web3升級(jí)的重要生產(chǎn)力工具:一方面,其對(duì)現(xiàn)有的殺手級(jí)應(yīng)用——短視頻、游戲等具有顛覆式影響,或進(jìn)一步擴(kuò)大內(nèi)容量、提高成癮性,同時(shí)對(duì)社交和廣告提供新的工具;另一方面,Web3 開放、共建的價(jià)值觀下,UGC、AIGC的內(nèi)容會(huì)更具吸引力,二次創(chuàng)作、開放想象的浪潮將來臨。目前AIGC已成為硅谷最新熱門方向,國(guó)內(nèi)一級(jí)市場(chǎng)、互聯(lián)網(wǎng)大廠等對(duì)AIGC應(yīng)用關(guān)注度也在快速提升中。
2、AIGC待解決問題
盡管AIGC發(fā)展前景廣闊,但也存在著很多難以解決的問題,影響了其商業(yè)化的進(jìn)程。
1)技術(shù)不成熟
技術(shù)上來看,雖然當(dāng)前生成的圖片、文字已經(jīng)可以用以商業(yè)用途,但還存在一些問題使得無(wú)法滿足較高的質(zhì)量要求。在不太關(guān)注細(xì)節(jié)的大場(chǎng)景圖片生成中,AIGC的表現(xiàn)較好。但對(duì)于比較具體和細(xì)節(jié)的內(nèi)容,生成的效果不盡如人意。這主要是由于自然語(yǔ)義的理解在處理一些空間關(guān)系上還存在一定的誤差,同時(shí)業(yè)內(nèi)大部分機(jī)構(gòu)都在采用開源的 OpenAI 的 Clip 模型。其函數(shù)是開源的,但訓(xùn)練的數(shù)據(jù)集是封閉的,數(shù)據(jù)集的質(zhì)量、合規(guī)性、風(fēng)格偏向都會(huì)決定生成的內(nèi)容質(zhì)量。
2)版權(quán)不清晰
AIGC本質(zhì)上是機(jī)器學(xué)習(xí),因而無(wú)法避免使用大量的數(shù)據(jù)集執(zhí)行訓(xùn)練,在這之中確實(shí)存在損害圖片版權(quán)者的利益。對(duì)于藝術(shù)家來說,雖然認(rèn)為這些平臺(tái)侵害了自己的權(quán)益,但是現(xiàn)在仍沒有完善的法律規(guī)定此類侵權(quán)行為,甚至在某些法律條文中,這種行為是合法的。
一方面,AIGC難以被稱為“作者”。著作權(quán)法一般規(guī)定,作者只能是自然人、法人或非法人組織,很顯然AIGC不是被法律所認(rèn)可的權(quán)利主體,因此不能成為著作權(quán)的主體。但AIGC應(yīng)用對(duì)生成的圖片版權(quán)問題持有不同觀點(diǎn),圖片屬于平臺(tái)、完全開源還是生成者,目前尚未形成統(tǒng)一意見。
另一方面,AIGC產(chǎn)生的“作品”尚存爭(zhēng)議。傳統(tǒng)意義上的作品是指文學(xué)、藝術(shù)和科學(xué)領(lǐng)域內(nèi)具有獨(dú)創(chuàng)性并能以某種有形形式復(fù)制的智力成果。AIGC的作品具有較強(qiáng)的隨機(jī)性和算法主導(dǎo)性,能夠準(zhǔn)確證明AIGC作品侵權(quán)的可能性較低。同時(shí),AIGC是否具有獨(dú)創(chuàng)性目前難以一概而論,個(gè)案差異較大。
即使現(xiàn)在把自己的作品從數(shù)據(jù)集中刪除也無(wú)法阻止自己風(fēng)格作品的生成,首先,AI 模型已經(jīng)過訓(xùn)練,對(duì)應(yīng)風(fēng)格已經(jīng)掌握。而且,由于OpenAI的CLIP模型(于訓(xùn)練Stable Diffusion 以理解文字和圖像之間的聯(lián)系),用戶仍然可以調(diào)用特定的藝術(shù)風(fēng)格。
對(duì)于AI項(xiàng)目方來說,讓數(shù)據(jù)集每張圖片都得到授權(quán)是不現(xiàn)實(shí)的,如果此類法案通過,那么 AI 行業(yè)的發(fā)展將受到很大的阻礙,或許是滅頂之災(zāi)。
3)壁壘不夠高
AIGC 產(chǎn)業(yè)鏈涉及環(huán)節(jié)眾多。上游生成算法的環(huán)節(jié),存在著一定程度上改進(jìn)國(guó)外開源模型的情況。渲染、模型訓(xùn)練等環(huán)節(jié),也大多依賴國(guó)外GPU。
目前各種各樣的 AIGC 范式,大都建立在國(guó)外的論文、開源模型上。這些建立在開源模型上的AIGC并沒有核心技術(shù)壁壘。即便辛苦做出的小幅度優(yōu)化,往往會(huì)被開源方發(fā)布的新版本所抹平。
同時(shí)在應(yīng)用場(chǎng)景上,目前AIGC只是工具鏈上的某個(gè)環(huán)節(jié)的增強(qiáng),初創(chuàng)公司很難與完整工具鏈和生態(tài)的企業(yè)競(jìng)爭(zhēng)。如國(guó)內(nèi)雖然有大量項(xiàng)目對(duì)標(biāo)新一代的Figma、Canva或者短視頻創(chuàng)作工具,但是Figma已經(jīng)集成了Stable Diffusion的生成模型,而字節(jié)跳動(dòng)這樣的企業(yè)在短視頻AIGC方面也有深厚的積累和創(chuàng)新。即使游戲領(lǐng)域,一個(gè)游戲引擎是一套非常復(fù)雜的工具鏈體系,也不僅僅是個(gè)渲染器。
目前,國(guó)內(nèi)正在朝著自主可控的方向發(fā)展,這要求AIGC領(lǐng)域的創(chuàng)新型企業(yè)在加強(qiáng)原創(chuàng)性研究的同時(shí),盡快將技術(shù)轉(zhuǎn)化為知識(shí)產(chǎn)權(quán),形成行業(yè)壁壘與競(jìng)爭(zhēng)力。
4)商業(yè)不清晰
盡管AIGC為人類描繪了一個(gè)美好的未來,但是其商業(yè)路徑并不足夠清晰,客戶的付費(fèi)意愿也不是非常明確。目前各家公司為了搶占用戶,很多都采用了免費(fèi)體驗(yàn)的模式,而目前AIGC提供的服務(wù),不管是繪圖、文字還是視頻,都很難精準(zhǔn)的滿足客戶的需求,更多的是為專業(yè)設(shè)計(jì)人員提供思路和參考價(jià)值,其實(shí)際商業(yè)化價(jià)值仍然讓客戶抱有懷疑。
同時(shí),最為一項(xiàng)工具屬性較強(qiáng)的技術(shù),AIGC尚未出現(xiàn)UGC時(shí)代的大平臺(tái)、殺手級(jí)應(yīng)用和現(xiàn)象級(jí)項(xiàng)目。AIGC雖然得到了資本的青睞,但商業(yè)模式清晰、能夠獲得持續(xù)穩(wěn)定現(xiàn)金流、競(jìng)爭(zhēng)壁壘較強(qiáng)的新興公司尚沒有出現(xiàn),更多的是大公司在新技術(shù)領(lǐng)域不計(jì)成本的前沿布局。因此,AIGC技術(shù)發(fā)展和商業(yè)化進(jìn)程不及預(yù)期的風(fēng)險(xiǎn)仍然較大。
參考資料:
《AIGC的十大前沿創(chuàng)新》 孫思明
《國(guó)內(nèi)外最值得關(guān)注的AIGC機(jī)構(gòu)》量子位
《AIGC:Web3時(shí)代的生產(chǎn)力工具》宋嘉吉、金郁欣
《突然爆火的AIGC究竟是不是泡沫?》顧煜
《AIGC產(chǎn)業(yè)鏈全梳理》楊江凱
《人工智能生成內(nèi)容(AIGC)白皮書(2022年)》中國(guó)信通院