什么是新基建?
新基建也就是說新型基礎(chǔ)設(shè)施建設(shè),相對于舊基建其主要包括5G計算建設(shè)、特高壓、城際高速鐵路、新能源汽車充電樁、大數(shù)據(jù)中心、人工智能、工業(yè)互聯(lián)網(wǎng)等領(lǐng)域,涉及諸多的產(chǎn)業(yè)鏈,以新發(fā)展為引領(lǐng),以技術(shù)創(chuàng)新為驅(qū)動,信息網(wǎng)絡(luò)為基礎(chǔ),面向高質(zhì)量發(fā)展需要提供技術(shù)轉(zhuǎn)型、職能升級、容量創(chuàng)新等服務(wù)的基礎(chǔ)設(shè)施體系。
新基建技術(shù)中最核心的資產(chǎn)就是數(shù)據(jù),物聯(lián)網(wǎng)讓采集的數(shù)據(jù)種類和數(shù)量越來越多,5G讓數(shù)據(jù)傳輸?shù)乃俾试絹碓娇欤朴嬎阍诓粩嗟貙?shù)據(jù)進行計算處理,AI在不斷地挖掘數(shù)據(jù)的價值。這些技術(shù)連接的關(guān)鍵紐帶便是存儲,在新基建的推動下,存儲可以說是推動產(chǎn)業(yè)向高端化發(fā)展的一個剛需,為此新基建需要新的存儲。
新存儲有哪幾個重要特征?
第一個是海量存儲的可持續(xù)高效存儲。第二是海量數(shù)據(jù)的高效管理。第三是海量數(shù)據(jù)的一個價值挖掘。面對如此龐大的信息存儲量和可預(yù)見性的數(shù)據(jù)增長量,新的存儲架構(gòu)必須要考慮的第一個點就是如何以更高擴展性、更高的吞吐、更低的時延以及更低的性價比來實現(xiàn)容量的管理。
首先要有高擴展性,滿足因為業(yè)務(wù)量數(shù)據(jù)精細度提升導(dǎo)致的數(shù)據(jù)量增加以及隨時擴容的需求。其次要有高吞吐、低延時,可以快速讀取跟調(diào)用。當然,用戶也是很看重整體方案的性價比。今天解決了數(shù)據(jù)存儲的問題,對新基建用戶來說是遠遠不夠的,還要進一步解決數(shù)據(jù)存儲的管理問題。
數(shù)據(jù)跟人一樣也是有生命周期,從產(chǎn)生到消亡有很多階段。新基建所需要的存儲系統(tǒng)必須要具備生命周期管理的能力,數(shù)據(jù)最終的價值呈現(xiàn)一定是為應(yīng)用服務(wù)的。人工智能和大數(shù)據(jù)驅(qū)動的發(fā)展,驅(qū)動數(shù)據(jù)產(chǎn)生更多的應(yīng)用價值,所以在數(shù)據(jù)的價值挖掘方面,其中終極需求必須更好地利用人工智能,服務(wù)人工智能,賦能大數(shù)據(jù)人工挖掘。
基于海量的價值挖掘分析基本上都要依賴于機器學(xué)習、深度學(xué)習的人工智能技術(shù)。在人工智能的場景中,數(shù)據(jù)要經(jīng)歷采集、訓(xùn)練、推理、歸檔等國家。人工智能各個階段對存儲系統(tǒng)要求差異非常大,采集階段要支持互聯(lián)網(wǎng)原始訪問的協(xié)議,吞吐量非常大。要求系統(tǒng)有高并發(fā)、低時延的歸檔的能力,而在歸檔的階段則需要低成本的存儲系統(tǒng)。
業(yè)界關(guān)注度頗高的騰訊云文件存儲CFS在關(guān)鍵業(yè)務(wù)應(yīng)用場景中如何發(fā)揮能力?CFS如何以40GB/s高吞吐應(yīng)對新建下的數(shù)據(jù)挑戰(zhàn)呢?騰訊云主要有哪幾種存儲產(chǎn)品?
COS、CFS和CBS,騰訊推出這三款產(chǎn)品可以滿足各種不同的需要。其中CFS是一個縮寫,鏈存儲,主要是提供文件存儲服務(wù)。CBS即云硬盤,主要提供的是快速的服務(wù)。而COS是云對象存儲,主要提供云對象存儲的服務(wù)。下面我們通過對比的形式介紹這三種產(chǎn)品,產(chǎn)品的規(guī)格、性能以及規(guī)模對比,主要是以CBS單刻盤、CBS單文件系統(tǒng)以及COS單存儲統(tǒng)一為單位進行對比。在存儲規(guī)模的方面,CFS大文件系統(tǒng)最大支持是20TB存儲上限,COS單盤支持16TB存儲上限,COS則能提供億B級存儲上限。延時方面,CFS是在0.3毫秒到20毫秒之間;CBS是在0.2毫秒至5毫秒之間,COS的延時是根據(jù)網(wǎng)絡(luò)情況而定的。在吞吐方面,CFS大文件系統(tǒng)最大能夠支持40GB/s的上限,SSD云硬盤目前最大能夠支持260兆B的吞吐上限。而COS吞吐主要與用戶互聯(lián)網(wǎng)存儲的帶寬相關(guān),支持海量并發(fā)。在IOPS方面,CFS單文件系統(tǒng)目前最大能夠支持60K的IOPS。而CBS在SSD目前最大能夠支持26K的IOPS。COS主要性能指標是QPS,最低目前能支持1.2K的QPS。在訪問量上COS可以達到數(shù)億的并發(fā)連接,而CFS可以支持數(shù)萬的客戶端并發(fā)的訪問。而CBS在并發(fā)訪問上比較受限,在業(yè)務(wù)的網(wǎng)絡(luò)上CFS和CBS主要用在了內(nèi)網(wǎng)上,COS在內(nèi)外網(wǎng)都可以使用。生態(tài)方面COS比較豐富,有數(shù)據(jù)萬象、大數(shù)據(jù)套件、無服務(wù)函數(shù)等。在價格方面的話,CFS和CBS差不多,CFS超高一些,而COS則比較低廉。
什么是CFS?
CFS是公有云上的NAS存儲,幫助用戶解決公有云上的高性能共享存儲的需求,支持容量和性能的在線擴展,現(xiàn)有的應(yīng)用無需修改即可直接掛載使用。CFS提供了可擴展共享的文件存儲服務(wù),可以與騰訊云云服務(wù)器容器批量計算等服務(wù)搭配使用。CFS提供了標準的NFS及SMB云間訪問系統(tǒng)的訪問協(xié)議,為其他的計算服務(wù)提供共享的數(shù)據(jù)源,支持彈性的容量和性能的擴展?,F(xiàn)有的應(yīng)用就是無需修改就可以掛載使用,是一個高可靠的文件系統(tǒng)。
適用于大數(shù)據(jù)分析、媒體處理和內(nèi)容管理等場景。文件存儲接入非常簡單,用戶無須調(diào)節(jié)自身的結(jié)構(gòu)或者無需進行復(fù)雜的配置,需要三步就可以了。第一步創(chuàng)建系統(tǒng),第二步啟動服務(wù)器上的文件系統(tǒng)客戶端,第三掛載文件系統(tǒng)即可。
CFS產(chǎn)品優(yōu)勢主要是四個:集成管理、自動擴展、安全可靠、成本低。在集中管理方面,CFS可以支持系統(tǒng)數(shù)據(jù)訪問,例如強數(shù)據(jù)一致性和文件鎖定,至于云的計算資源可以通過NFSv3.0或者是NFSv4.0的協(xié)議來掛載CFS的文件存儲。CFS可以提供控制臺界面,讓用戶可以創(chuàng)建文件系統(tǒng),可以根據(jù)文件容量的大小,自動對文件系統(tǒng)的存儲容量進行拓展,同時不需要中斷請求和應(yīng)用,確保獨享所需要的存儲資源的同時,降低管理工作的時間成本,減輕工作量。
在安全可靠性方面,CFS具有極高的可用性和可靠性,每一個CFS都有冗余,CFS可以嚴密控制文件系統(tǒng)的訪問權(quán)限,通過基礎(chǔ)網(wǎng)絡(luò)或者是VPC網(wǎng)絡(luò)的安全組,并搭配權(quán)限組,實現(xiàn)訪問的權(quán)限控制。在成本低廉方面,CFS可以動態(tài)調(diào)節(jié)需求容量,而無需提前調(diào)配存儲,用戶只需要按照使用量來付費,不需要進行最低消費或者前期部署、后期運維的費用,動態(tài)計算節(jié)點可以通過NFS共享一個存儲空間,而無需購買其他的存儲服務(wù),也不需要考慮緩存。
CFS的應(yīng)用情況?
第一個實例是HPC計算下第三代大規(guī)?;驕y序的應(yīng)用,基因測序項目需要臨時的大量計算和存儲資源執(zhí)行基因測序,而現(xiàn)行的方案是采用本地的計算節(jié)點,加上商用文件存儲形式。本地的資源無法滿足這種彈性的客戶要求,采用騰訊云文件存儲CFS,它的優(yōu)勢在于可以無縫對接測試程序,用戶無需額外修改這個程序。同時,用戶可以按照實際的使用量來付費,無需額外付費,同時CFS能夠提供超高的一個吞吐性能,也能夠提供彈性拓展的存儲空間。最終的方案是我們提供300臺計算型服務(wù)器CVM的節(jié)點,配置32核120G的內(nèi)存,再加上300T文件存儲,總計7個文件系統(tǒng),每個文件系統(tǒng)提供500MB/s的吞吐量。
第二個案例是廣電行業(yè)視頻處理。需求是視頻處理、分發(fā)、持久化存儲一站式解決方案。IDC機房計算節(jié)點+文件存儲設(shè)備。痛點視頻量激增,IDC計算節(jié)點不足,存儲容量不足,擴容運維非常復(fù)雜,客戶希望長期保留數(shù)據(jù)。
采用CFS優(yōu)勢在于它可以提供高吞吐、低延時用于視頻渲染,同時可以將用戶希望長期保存的數(shù)據(jù)沉淀在COS中進行持久化存儲,降低成本。最終的方案在騰訊云的云總機上部署媒資管理系統(tǒng),同時使用CFS作為渲染存儲庫,通過COS進行分發(fā)。
第三個案例,動畫電影制作。需要執(zhí)行高吞吐、高并發(fā)計算任務(wù),客戶現(xiàn)行的方案是使用IDC機房計算節(jié)點加上商用文件存儲形式,痛點是動畫后期渲染IDC計算節(jié)點不足、存儲性能不足,導(dǎo)致渲染耗時很長,無法滿足電影按時上線的需求。采用CFS的優(yōu)勢,騰訊云能夠提供彈性伸縮高吞吐的文件存儲,而且也支持標準的NFS協(xié)議,并且可以方便地協(xié)同低成本的計算實例。最終的方案,客戶原始素材通過專線上傳到CFS,同時超過1000+云主機進行渲染作業(yè),客戶峰值吞吐達到160Gbps,整體時長降低了28%,保證了電影按時上線。
第四個案例,教育行業(yè)AI訓(xùn)練,教育場景是小文件、低延時??蛻衄F(xiàn)行方案是CVM+自建HDFS+COS。現(xiàn)行方案的一個痛點是轉(zhuǎn)碼平臺原對接云上自建HDFS,其延時性能不佳、維護耗時。使用CFS的優(yōu)勢在于CFS可以提供低延時、高吞吐的云服務(wù),同時可以很大程度上提升轉(zhuǎn)的碼平臺的效率。加速模型優(yōu)化,最終的方案也是使用CFS,是無縫替換CFS的集群。
第五個案例,短視頻訓(xùn)練和推理。該客戶直接采用CFS加COS文案,訓(xùn)練的流程是COS讀取后,在TKE上訓(xùn)練分析,并發(fā)掛載量是幾十個Node,單文件大小是幾百KB到2MB左右文件,數(shù)量百萬到千萬級。為了滿足寫吞吐的需求,采用異步操作的模型,從COS預(yù)拉取進行系統(tǒng)。讀吞吐峰值可以打滿10GB/s,因此訓(xùn)練模型30分鐘,因此訓(xùn)練過程+模型發(fā)布最短要求為30分鐘??蛻舳耸荊PU,而發(fā)布的流程則是訓(xùn)練完成后將最終的模型存儲到CFS上,業(yè)務(wù)的Pod就需要在最短的時間內(nèi)完成,并發(fā)掛載量是100以內(nèi)的Pod,文件大小是10GB到30GB之間,讀吞吐的分級是實際運營的,需要10分鐘以內(nèi)做完,而數(shù)據(jù)的更新頻率是在最短30分鐘時間內(nèi)發(fā)布模型。
CFS如何在新基建中發(fā)揮作用?
首先是客戶業(yè)務(wù)場景的分析。廣告推薦顧名思義,我們在使用期間會看到各種消費的小彈窗、小視頻等等,結(jié)合用戶模型為用戶提供最精準的廣告,從而提高營銷資金的利用率。CFS參與應(yīng)用廣告推薦的具體業(yè)務(wù)流程主要分為三步。第一步模型發(fā)布,廣告客戶模型在訓(xùn)練中心完成,訓(xùn)練完成之后將模型文件發(fā)布到騰訊云。第二部分是業(yè)務(wù)應(yīng)用獲取模型,客戶在騰訊云上使用了三個T的云系集群,共計超過4000node,或者超過8000個,以分擔業(yè)務(wù)的壓力。這些Pod將幾十GB的數(shù)據(jù)模型全部加載后應(yīng)用才能啟動。
第三步是廣告推薦,系統(tǒng)使用模型文件和用戶數(shù)據(jù),為用戶定制廣告推送。這是客戶的一個廣告業(yè)務(wù)架構(gòu)圖,左邊是廣告推薦訓(xùn)練集群,當訓(xùn)練集群推初模型后會掛載CFS,將模型拷貝到CFS中。上面是客戶在騰訊云線上應(yīng)用集群,大概是2000到8000個Pod組成不同的多個集群,分布在北京三個核心區(qū),這些Pod通過掛載客戶端,從CFS中讀取虛擬集群,生成推理模型數(shù)據(jù)。在業(yè)務(wù)啟動時,運營程序需要讀取廣告推薦模型的文件。在運行的過程中,系統(tǒng)根據(jù)用戶使用數(shù)據(jù)進行廣告推薦。
騰訊云通過對業(yè)務(wù)流程的摸底,了解業(yè)務(wù)的存儲場景、存儲留存以及集成規(guī)模。關(guān)鍵性的含量指標包括業(yè)務(wù)的性能需求,客戶容量的需求以及具體模型。CFS解決了特定場景下大文件、大吞吐的難題。
“總而言之,新基建為中國的產(chǎn)業(yè)升級清晰指明的方向,數(shù)字化技術(shù)廣泛的應(yīng)用以及隨之產(chǎn)生的需求,將帶來數(shù)據(jù)爆發(fā)式增長,海量數(shù)據(jù)蘊含著巨大的價值,存儲作為新基建堅實的支柱。更多樣化的數(shù)據(jù)模式、日益復(fù)雜的數(shù)據(jù)管理,以及高效的數(shù)據(jù)利用對存儲提出更高的要求,無論對傳統(tǒng)的吞吐廠商還是創(chuàng)新的吞吐廠商來說,這既是挑戰(zhàn)更是機遇,”陳宏亮表示。