近日,騰訊云存儲解決方案總監(jiān)溫濤受邀在2024數(shù)據(jù)基礎(chǔ)設(shè)施技術(shù)峰會-“智算中心技術(shù)創(chuàng)新論壇”分享了騰訊云的數(shù)據(jù)智能生態(tài)創(chuàng)新之路,剖析騰訊云數(shù)據(jù)湖在賦能AIGC多模態(tài)大模型方面的應(yīng)用實(shí)踐。

去年年底到今年年初,很多客戶開始致力于在視頻方面的訓(xùn)練,我們直觀感受到多模態(tài)大模型的沖擊,也帶來了一些機(jī)會和挑戰(zhàn)。一旦進(jìn)入到多模態(tài),有了圖片和視頻之后,數(shù)據(jù)量特別大,現(xiàn)在原始數(shù)據(jù)量有的客戶達(dá)到百PB級別,訓(xùn)練數(shù)據(jù)也到了幾PB、幾十PB,數(shù)據(jù)的流動(dòng)、讀取要求高很多,算力也是成倍增長,系統(tǒng)成本很高,我們的解決方案一方面解決性能問題,另一方面也要解決成本問題。

我們把AIGC的業(yè)務(wù)流程分為數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)訓(xùn)練、推理、內(nèi)容治理。我們認(rèn)為AIGC生成物里面有很多內(nèi)容價(jià)值可以進(jìn)一步挖掘,我們也有很多產(chǎn)品能力和解決方案創(chuàng)新的重點(diǎn),也放在最后這個(gè)階段。

在這五個(gè)不同的階段,對存儲數(shù)據(jù)的處理和存儲其實(shí)有不同的要求:

對于采集來說需要非常高效靈活的數(shù)據(jù)采集接入的協(xié)議和接入的節(jié)點(diǎn),另外數(shù)據(jù)采集階段原始數(shù)據(jù)量很大,我們能承接EB級數(shù)據(jù)的存儲,這是采集的要求。

清洗的要求主要支持多種文件協(xié)議,這里面有HDFS、S3。海量的吞吐能力,達(dá)到Tbps級別。

訓(xùn)練階段要求就比較高了,無論是吞吐量和時(shí)延要求更高,我們認(rèn)為需要亞毫秒級的時(shí)延。

內(nèi)容治理,一方面是要有一個(gè)合規(guī)的要求,需要溯源,所以現(xiàn)在很多客戶越來越關(guān)注內(nèi)容的合規(guī)。

數(shù)據(jù)檢索,為什么在第五個(gè)階段很關(guān)注,當(dāng)你生成的數(shù)據(jù)越來越大,很重要的一點(diǎn)是怎么把這些數(shù)據(jù)檢索出來,能隨時(shí)高效地找到你想要的數(shù)據(jù),這個(gè)能力以后會備受關(guān)注。

總體來說,多模態(tài)大模型對存儲系統(tǒng)提了五個(gè)方面的要求,低成本、高性能、海量存儲、高可用、安全。

這五個(gè)階段有不同的數(shù)據(jù)要求,也有不同的存儲的數(shù)據(jù),他們之間數(shù)據(jù)的流動(dòng)就成為一個(gè)問題,如果是每個(gè)階段有獨(dú)立的存儲系統(tǒng)不現(xiàn)實(shí),無論是成本還是效率都是問題,就非常適合于用一個(gè)數(shù)據(jù)湖的統(tǒng)一存儲平臺,去實(shí)現(xiàn)數(shù)據(jù)的底座,減少數(shù)據(jù)無畏的流動(dòng)。騰訊云COS Data Lake向智能數(shù)據(jù)湖演進(jìn),打造一體化AIGC多模態(tài)存儲解決方案

騰訊云通過在數(shù)據(jù)湖原來的基礎(chǔ)上增加了數(shù)據(jù)的加速能力,增加了AI能力之后,就可以把數(shù)據(jù)湖系統(tǒng)的業(yè)務(wù)范圍擴(kuò)展到AIGC、數(shù)據(jù)的智能檢索,還有數(shù)據(jù)的資產(chǎn)管理,我們認(rèn)為存儲系統(tǒng)不只是要存數(shù)據(jù),一定要把數(shù)據(jù)管起來,而且數(shù)據(jù)價(jià)值的挖掘逐步會變成企業(yè)資產(chǎn),數(shù)據(jù)挖掘的越多,無形資產(chǎn)就越多,這個(gè)是能給客戶帶來一個(gè)新的增值的價(jià)值,這就是我們的思路,向智能數(shù)據(jù)湖演進(jìn)。

架構(gòu)分為四部分,底層是用對象存儲,因?yàn)閷ο蟠鎯κ堑统杀?,五大要求第一個(gè)要求就是低成本,基于COS之上有三個(gè)子系統(tǒng),包括數(shù)據(jù)的導(dǎo)入,因?yàn)閿?shù)據(jù)量越來越大的時(shí)候,原始數(shù)據(jù)越來越大,原始數(shù)據(jù)會分散在全球各地,數(shù)據(jù)如何高效地導(dǎo)入進(jìn)來是一個(gè)很大的問題,無論是成本還是效率,我們也做了很多事情,我們提供了數(shù)據(jù)遷移MSP的遷移服務(wù),還有全球加速的能力,因?yàn)閿?shù)據(jù)從全球各個(gè)地方收集的,如果沒有加速能力,時(shí)間和網(wǎng)絡(luò)成本是非常高的。

還有數(shù)據(jù)加速,數(shù)據(jù)湖通常是基于對象存儲,但對象存儲傳統(tǒng)定位是低成本的海量的存儲類型,強(qiáng)調(diào)就是低成本,低成本往往就代表性能也不可能太高,如果讓對象存儲能做對接AI,做AI的數(shù)據(jù)底座,一定是要有數(shù)據(jù)加速的支撐才行,所以在數(shù)據(jù)加速這個(gè)地方做了很多方面的開發(fā)。有五個(gè)組件,包括GooseFS-Cache,包括GooseFS-lite、GooseFS–x,還有一個(gè)元數(shù)據(jù)加速,還有AZ的加速器,不同類型解決不同的問題,總之是為了讓對象存儲跟得上計(jì)算的速度,不要成為整個(gè)計(jì)算系統(tǒng)里面的關(guān)鍵路徑。

數(shù)據(jù)的分析和洞察,這是我一直強(qiáng)調(diào)第五個(gè)階段的事情,這里面是基于數(shù)據(jù)萬象的服務(wù)的集,里面功能很多,前不久新發(fā)布了一個(gè)服務(wù)能力Metainsight。

圖片

GooseFS數(shù)據(jù)加速服務(wù),提升數(shù)據(jù)預(yù)處理、模型訓(xùn)練、推理應(yīng)用效率

騰訊云如何將數(shù)據(jù)快速導(dǎo)入,從全球范圍內(nèi)快速收集數(shù)據(jù)。重點(diǎn)介紹一下緩存加速,也就是GooseFS緩存能力集,重點(diǎn)看兩個(gè),一個(gè)是GooseFS-Cache,GooseFS-Cache以前簡稱GooseFS,后來把GooseFS的能力擴(kuò)展了一下,我們管它叫GooseFS能力集,以前的GooseFS現(xiàn)在只對應(yīng)的叫GooseFS-Cache。

Cache是利用計(jì)算側(cè)本地的資源,可以用內(nèi)存,可以用SSD,甚至可以用GPU節(jié)點(diǎn)的HDD做本地化加速,這樣能夠減少網(wǎng)絡(luò)的傳輸,實(shí)現(xiàn)低延遲和高帶寬,特點(diǎn)是近計(jì)算側(cè),可以用于大數(shù)據(jù)、AI、HPC、基因測序、渲染這些場景,配合COS既實(shí)現(xiàn)低成本同時(shí)達(dá)到高性能的存儲能力,它支持多種協(xié)議,同時(shí)可以支持容器化的部署,也可以跟Hadoop做集成,緩存的類型也可以很多,可以分級,可分好幾級的緩存,來實(shí)現(xiàn)不同的性能要求。實(shí)際測算過使用不同的緩存介質(zhì),性能提升可以到2到10倍之間。

一站式內(nèi)容審核、智能檢索服務(wù),為數(shù)據(jù)安全合規(guī)保駕護(hù)航

介紹一下關(guān)于數(shù)據(jù)分析和數(shù)據(jù)共享,數(shù)據(jù)萬象能力的應(yīng)用場景,包括內(nèi)容審核、圖片、視頻、音頻和文檔的處理能力,既是服務(wù)于AIGC,也是基于AIGC,用AI對AI進(jìn)行支持,這里面包括影像、圖片、音頻、視頻里面的一些智能的標(biāo)簽,智能的搜索,包括評分,能力有很多,大概有100多種,而且在不斷地持續(xù)。

最近圍繞著AIGC,數(shù)據(jù)萬象發(fā)布了新的能力,一個(gè)是一體化的內(nèi)容安全方案,剛剛有嘉賓也講了,數(shù)據(jù)安全非常重要,因?yàn)楸O(jiān)管很嚴(yán),我們這個(gè)方案在兩個(gè)點(diǎn)去重點(diǎn)做內(nèi)容安全的管理,一個(gè)是用戶的輸入,原始數(shù)據(jù)的輸入和用戶的輸入都會做檢查,給訓(xùn)練計(jì)算為了數(shù)據(jù)就是干凈的,安全的,第二個(gè)是對于大模型生成的對象,這里面有時(shí)候可能也是因?yàn)锳IGC生成的,有時(shí)候比較發(fā)散,沒有那么嚴(yán)格的規(guī)則,要在生成物這個(gè)地方做一次內(nèi)容審核的管控。

包括對違禁違法等內(nèi)容的審核,同時(shí)提供了一些維權(quán)方面的能力,比如盲水印,以前看一些網(wǎng)絡(luò)電視和視頻在某一個(gè)角有一個(gè)水印,是明水印,后來出了一個(gè)暗水印,水印不是一個(gè)新的東西,水印有技術(shù)門檻,技術(shù)門檻就體現(xiàn)在防攻擊能力上,有很多能力解決水印的問題,客戶不但要加水印,還要去水印,目的就不深究了,有這個(gè)能力,去水印相當(dāng)于一個(gè)攻擊能力,想把水印做好防攻擊是非常重要的參考因素,很多客戶沒有這個(gè)理解和認(rèn)識,我們的防攻擊能力是比較強(qiáng)的,我們要把盲水印能力作為一個(gè)重點(diǎn)。還有對數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換、內(nèi)容標(biāo)注,都是在萬象的一體化安全方案里面。,時(shí)長02:12數(shù)據(jù)萬象MetaInsight演示視頻

舉一個(gè)例子,可以用兩種輸入方式,一種是文本輸入,可以輸入穿著紅色長裙的舞者,還有可以導(dǎo)入一個(gè)圖片,可以根據(jù)輸入的要求,在后面的媒體庫里面找最相近的,匹配度最高的圖片,不僅是單純的一個(gè)界面,界面像是一個(gè)ToC的服務(wù),我們提供的是一個(gè)API的接口。

通過API進(jìn)行數(shù)據(jù)的輸入和輸出,有兩個(gè)數(shù)據(jù)流,一個(gè)數(shù)據(jù)流是把原來的媒體庫,把用戶要做內(nèi)容搜索的媒體庫,當(dāng)然可以在AIGC把推理出來之后的生成的文件作為媒體庫的內(nèi)容,通過萬象的API導(dǎo)入到里面,接下來是萬象圖文的大模型,這個(gè)大模型是我們自己訓(xùn)練的,基于公司內(nèi)部的通用大模型,我們做了一個(gè)進(jìn)一步的調(diào)優(yōu)和訓(xùn)練,專門用于圖文內(nèi)容搜索模型的模型。

通過我們自己的圖文大模型之后,就把導(dǎo)入的這些文檔變成了量化,保存到騰訊云的數(shù)據(jù)庫里面去,用戶展示搜索的時(shí)候,我們把搜索請求通過圖文大模型做向量化,從向量維度,在向量數(shù)據(jù)庫里面進(jìn)行搜索,找到匹配度比較高的,在向量空間匹配度比較高的對象,返回給用戶,這就是一個(gè)技術(shù)原理和主要組成部件,當(dāng)然數(shù)據(jù)是基于中間的對象存儲,就是COS。

剛剛我們講的MetaInsight的應(yīng)用場景主要在推理,我們在AIGC的過程中在推理,對于一個(gè)生成的數(shù)據(jù)進(jìn)行一些管理和檢索,其實(shí)還有另一個(gè)應(yīng)用場景,我們可以把它用作訓(xùn)練前數(shù)據(jù)的篩選,可以在數(shù)據(jù)清洗那個(gè)地方,讓它發(fā)揮作用,為什么呢?

因?yàn)樵紨?shù)據(jù)量很大,這里面質(zhì)量很難得到保證,尤其是基于內(nèi)容的時(shí)候,如果想生成一個(gè)特定場景的,垂直行業(yè)的小模型,或者是調(diào)優(yōu)的模型,這時(shí)候你的內(nèi)容相關(guān)性越強(qiáng)訓(xùn)練的效率越高,訓(xùn)練的效果越好,怎么喂質(zhì)量更高的數(shù)據(jù)?可以用MetaInsight的能力,先過一輪,按照內(nèi)容的要求把匹配度比較高的挑出來,再去喂給模型進(jìn)行訓(xùn)練,這樣的好處是可以大幅度減少訓(xùn)練的數(shù)據(jù),也可以減少訓(xùn)練所需要的算力,也能提升整個(gè)訓(xùn)練過程的時(shí)間,所以效率和成本會帶來很大的提升,當(dāng)然里面也會結(jié)合GooseFS的加速,MetaInsight的能力一頭一尾都可以用。

總結(jié)一下,騰訊云智能數(shù)據(jù)湖的方案針對AIGC場景提供了一系列的能力,包括數(shù)據(jù)遷移的能力,包括GooseFS緩存加速集的能力,還有數(shù)據(jù)萬象集的能力,共同支撐AIGC的5個(gè)業(yè)務(wù)流程,一起提供一個(gè)低成本、高性能海量存儲、高可用和安全合規(guī)的數(shù)據(jù)基座、數(shù)據(jù)平臺。

(演講內(nèi)容詳見會后專題)

分享到

nina

相關(guān)推薦