宋家雨:請(qǐng)介紹一下新華三硬件重構(gòu)1.0、2.0、3.0的概念。

關(guān)天舒:存儲(chǔ)與其他基礎(chǔ)設(shè)施產(chǎn)品一樣,都是因應(yīng)用的需求而發(fā)展,新華三基于多年對(duì)行業(yè)應(yīng)用的深刻洞察,在幾年前,把數(shù)據(jù)存儲(chǔ)作為公司重點(diǎn)戰(zhàn)略之一,并以存儲(chǔ)重構(gòu)1.0、2.0、3.0作為具體的產(chǎn)品發(fā)展路線。

存儲(chǔ)重構(gòu)1.0秉承AI in Storage發(fā)展的理念,借助AI技術(shù)讓存儲(chǔ)系統(tǒng)在性能、可靠性等方面變得更加高效。2023年,我們發(fā)布了Alletra MP存儲(chǔ)產(chǎn)品,采用全局解耦架構(gòu),重新定義了AI通用存儲(chǔ)性能和可靠性,同時(shí)也借助AI技術(shù),讓存儲(chǔ)系統(tǒng)不斷地自我優(yōu)化,去提升它的性能,這是存儲(chǔ)硬件重構(gòu)1.0。

存儲(chǔ)重構(gòu)2.0是針對(duì)AI智算應(yīng)用場(chǎng)景去做的變化,我們發(fā)現(xiàn)無論結(jié)構(gòu)化存儲(chǔ),還是分布式存儲(chǔ)都沒有辦法很好地滿足智算場(chǎng)景的需求,所以我們需要從性能、可靠性、數(shù)據(jù)管理等多方面對(duì)存儲(chǔ)進(jìn)行重構(gòu),推出了Polaris X20000新一代高性能的存儲(chǔ)產(chǎn)品,滿足在AI時(shí)代百行百業(yè)的AI應(yīng)用,釋放整個(gè)智算生產(chǎn)力的創(chuàng)新價(jià)值。

重構(gòu)3.0,是我們正在做的事情,基于我們的傲擎系統(tǒng)軟件平臺(tái),以及多年硬件研發(fā)經(jīng)驗(yàn),進(jìn)一步發(fā)展AI時(shí)代海量數(shù)據(jù)存儲(chǔ)。

宋家雨:從新華三上一代分布式存儲(chǔ)代表產(chǎn)品H3C UniStor X10000 G6到現(xiàn)在的Polaris X20000,發(fā)生了哪些調(diào)整和變化?

關(guān)天舒:在前幾年的時(shí)候,云計(jì)算非常熱,百行百業(yè)都在做數(shù)字化轉(zhuǎn)型,做系統(tǒng)上云的工作。從而為分布式存儲(chǔ)提供了機(jī)會(huì),那時(shí)更多關(guān)注的是分布式產(chǎn)品形態(tài)下,擴(kuò)展性架構(gòu)的問題,提供更優(yōu)的TCO存儲(chǔ)方案。

Polaris X20000是我們存儲(chǔ)重構(gòu)2.0的代表產(chǎn)品,主要針對(duì)智算應(yīng)用場(chǎng)景,智算系統(tǒng)建設(shè)的投資非常大,用戶對(duì)于投資回報(bào)率要求很高,這對(duì)存儲(chǔ)會(huì)有更高的指標(biāo)要求,如今Chat GPT的參數(shù)是千億規(guī)模,未來會(huì)達(dá)到萬億參數(shù),從千卡集群到萬卡集群,需要提供更加高效的數(shù)據(jù)供給,才能夠提升智算系統(tǒng)的使用率。

在智算應(yīng)用中,同一份數(shù)據(jù)需要在不同應(yīng)用,比如文件處理、對(duì)象處理之間做數(shù)據(jù)的拷貝和搬移,甚至格式的轉(zhuǎn)換,如此非常耗費(fèi)時(shí)間,從而影響GPU使用率,這就需要存儲(chǔ)提供高效的數(shù)據(jù)訪問方式。與此同時(shí),也因?yàn)橹撬阃顿Y非常大,用戶希望GPU算力能夠滿負(fù)荷運(yùn)轉(zhuǎn),因此要求存儲(chǔ)不能有任何中斷,必須要持續(xù)穩(wěn)定地運(yùn)行,對(duì)此,我們重新考慮了資源分配,并投入了近千名工程師,歷時(shí)三年,研發(fā)了涉及數(shù)百萬行代碼的傲擎新一代數(shù)據(jù)存儲(chǔ)軟件系統(tǒng)平臺(tái)。整個(gè)過程雖然非常艱辛,但還是非常有成就感,在這個(gè)軟件平臺(tái)的加持下,才有了當(dāng)前的Polaris X20000這款產(chǎn)品。該軟件平臺(tái)也將是新華三存儲(chǔ)未來發(fā)展的堅(jiān)實(shí)基礎(chǔ),我們會(huì)繼續(xù)結(jié)合行業(yè)應(yīng)用,進(jìn)一步發(fā)展在AI時(shí)代的海量數(shù)據(jù)存儲(chǔ)。

宋家雨:新的存儲(chǔ)技術(shù),如EDSFF、CXL在硬件重構(gòu)中的位置?H3C Polaris X20000有沒有結(jié)合E3.S CXL 2.0內(nèi)存池的技術(shù)?

關(guān)天舒:EDSFF、CXL兩個(gè)技術(shù)非常重要。其中,EDSFF是企業(yè)級(jí)數(shù)據(jù)中心領(lǐng)域SSD盤形態(tài)的新規(guī)范,它對(duì)盤的密度、散熱有很大提升,現(xiàn)在比較成型的產(chǎn)品是E1.S和E3.S。我們Polaris X20000系列中有一款產(chǎn)品,能夠在2U空間支持48盤位E1.S,提供業(yè)界最高存儲(chǔ)密度,這就是新技術(shù)帶來的好處。在未來數(shù)據(jù)中心里邊,E1.S無論在能效還是性能的處理,在各個(gè)方面會(huì)有全方位提升。

CXL則是基于PCIe技術(shù)發(fā)展起來的數(shù)據(jù)傳輸協(xié)議,能夠提高設(shè)備內(nèi)、設(shè)備間的CPU、網(wǎng)卡、內(nèi)存之間的數(shù)據(jù)互訪,可以資源池化部件之間的緩存,實(shí)現(xiàn)內(nèi)存級(jí)的數(shù)據(jù)直接訪問,如此,系統(tǒng)內(nèi)存瓶頸就被消除了,為未來存儲(chǔ)系統(tǒng)處理性能提供潛力空間。

H3C Polaris X20000完全支持E1.S產(chǎn)品形態(tài),也兼容了CXL 2.0標(biāo)準(zhǔn)。在Polaris X28000產(chǎn)品中,把四個(gè)分布式節(jié)點(diǎn)加上兩個(gè)交換機(jī),從原本10U的設(shè)備,做到2U空間里邊,空間節(jié)約75%,能耗降低17%,從而輕松應(yīng)對(duì)數(shù)據(jù)中心對(duì)存儲(chǔ)系統(tǒng)性能和資源帶來的挑戰(zhàn)。

隨著CXL 3.0的出現(xiàn),未來有可能對(duì)存儲(chǔ)系統(tǒng)帶來新的幫助,甚至有可能重新定義智算中心組網(wǎng)的形態(tài),實(shí)現(xiàn)算力資源池化、存儲(chǔ)資源池化、內(nèi)存資源池化。但這個(gè)事情,還是需要整個(gè)業(yè)界廠商一起共同努力才能夠?qū)崿F(xiàn)。

宋家雨:如何看待AI大模型在行業(yè)中的應(yīng)用?

關(guān)天舒:這是新華三一直在做的一個(gè)事情。新華三成立了人工智能研究院,主要工作就是推動(dòng)智能算力和私域大模型的創(chuàng)新發(fā)展。我們基于行業(yè)客戶數(shù)據(jù),再結(jié)合新華三硬件基礎(chǔ)設(shè)施,以及在模型訓(xùn)練、微調(diào)及推理的系列經(jīng)驗(yàn),共同打造了多個(gè)基于專屬行業(yè)的私域大模型,我們的經(jīng)驗(yàn)是非常豐富的。

AIGC已經(jīng)被公認(rèn)為社會(huì)發(fā)展的第五次變革,前一段時(shí)間,一個(gè)小朋友拿了兩個(gè)模型,一個(gè)是ChatGPT,還有另外一個(gè)模型去做一個(gè)辯論,從中學(xué)習(xí)、思考到更多的東西。可以說,智能化已經(jīng)改變了我們的生活。但是現(xiàn)有的模型還是以通用大模型為主,基于通用數(shù)據(jù)去做訓(xùn)練,相反,行業(yè)大模型發(fā)展很慢。

當(dāng)前,制約行業(yè)大模型發(fā)展主要有三個(gè)方面:一是算力的限制;二是行業(yè)缺少高質(zhì)量數(shù)據(jù),數(shù)據(jù)分散在企業(yè)不同部門,并沒有完全共享;三是需要行業(yè)專家的參與。需要算法、數(shù)據(jù)、行業(yè)專家、大模型專家共同參與,才有可能實(shí)現(xiàn)垂直領(lǐng)域的行業(yè)模型。單獨(dú)依靠行業(yè)企業(yè)單方的力量是比較難的,需要像新華三這樣具備全棧大模型能力的企業(yè)共同去參與,才有可能完成。

新華三在政府、能源、醫(yī)療、教育等行業(yè)都在做垂直領(lǐng)域模型的突破,比如在冶金領(lǐng)域,用智能視覺去降低冶金冶煉中氣泡的數(shù)量,提升冶金的水平。在醫(yī)療領(lǐng)域,我們聯(lián)合北京清華長(zhǎng)庚醫(yī)院和清華大學(xué)共同研發(fā)了“靈犀醫(yī)學(xué)腦血管病專病大模型”,基于海量腦血管病臨床醫(yī)學(xué)數(shù)據(jù)構(gòu)建,為醫(yī)生提供更為精準(zhǔn)的醫(yī)療指導(dǎo)和個(gè)性化治療方案,對(duì)于整個(gè)醫(yī)療的數(shù)字化,有一個(gè)很大的促進(jìn)。

新華三作為業(yè)界領(lǐng)先的數(shù)字化解決方案領(lǐng)導(dǎo)者,秉承“精耕務(wù)實(shí),為時(shí)代賦智慧”的發(fā)展理念,積極地同行業(yè)客戶一起,促進(jìn)行業(yè)垂直模型落地,隨著越多大模型行業(yè)應(yīng)用的落地,我相信智能時(shí)代也會(huì)加速到來。

宋家雨:如何看待現(xiàn)有存儲(chǔ)產(chǎn)品與向量數(shù)據(jù)庫技術(shù)的結(jié)合?

關(guān)天舒:這個(gè)問題要從全局智算系統(tǒng)的角度來看。向量數(shù)據(jù)庫是一個(gè)面向非結(jié)構(gòu)化數(shù)據(jù),提供管理、存儲(chǔ)、檢索,把非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成高維向量,但本質(zhì)還是數(shù)據(jù)庫存儲(chǔ)。

但站在智算角度,智算系統(tǒng)需要與存儲(chǔ)、向量數(shù)據(jù)庫做深度結(jié)合,才能去給客戶提供更好的應(yīng)用體驗(yàn)。在垂直行業(yè)私域大模型訓(xùn)練里已經(jīng)用到了相應(yīng)的技術(shù)。對(duì)于私域大模型訓(xùn)練,其實(shí)與通用大模型訓(xùn)練沒有本質(zhì)的區(qū)別。如何能讓私域大模型達(dá)到預(yù)期的準(zhǔn)確率?

現(xiàn)在來看,我們認(rèn)為至少準(zhǔn)確率要達(dá)到95%以上,這個(gè)私域大模型才是可以用的,未來可能需要更高的水平。在整個(gè)私域大模型訓(xùn)練工作中,要去做三方面的工作:第一個(gè),從數(shù)據(jù)加載的角度,要保證數(shù)據(jù)治理和數(shù)據(jù)安全,對(duì)于全域數(shù)據(jù)做分級(jí)分類管理。第二個(gè),做隱私計(jì)算數(shù)據(jù)安全的工作。第三個(gè),才能對(duì)最終的全域的數(shù)據(jù)去做整合,形成一個(gè)高質(zhì)量的數(shù)據(jù)集。然后就是數(shù)據(jù)訓(xùn)練模型的選擇,我們常用的方法是將大模型和小模型的結(jié)合應(yīng)用,小模型就涉及到向量數(shù)據(jù)庫。我們通過小模型,向其他數(shù)據(jù)源做實(shí)時(shí)查詢,以解決“大模型幻覺”問題,去提升整個(gè)行業(yè)模型的水平。

存儲(chǔ)怎么跟向量數(shù)據(jù)庫去做結(jié)合呢?

從存儲(chǔ)本身來說,我們可能需要針對(duì)它的非結(jié)構(gòu)化索引查詢,做定制化的緩存,對(duì)于向量小文件要支持高速訪問。針對(duì)行業(yè)場(chǎng)景IO模型去做內(nèi)存優(yōu)化,才能滿足在整個(gè)訓(xùn)練前,快速提取和更新整個(gè)向量數(shù)據(jù)庫的數(shù)據(jù)。

宋家雨:GDS這樣的一個(gè)私有協(xié)議,有沒有可能成為事實(shí)上的標(biāo)準(zhǔn)?

關(guān)天舒:如今智算系統(tǒng)大量采用GDS技術(shù)去提升GPU和存儲(chǔ)之間的數(shù)據(jù)訪問的效率。但一個(gè)技術(shù)能不能成為標(biāo)準(zhǔn),首先看這個(gè)技術(shù)能不能對(duì)整個(gè)應(yīng)用產(chǎn)生價(jià)值,能滿足當(dāng)前用戶的需求。GDS需要原廠不斷投入,不斷發(fā)展這個(gè)技術(shù),讓更多應(yīng)用廠商和系統(tǒng)廠商使用這個(gè)技術(shù)。第二就要有好的兼容性和開放性,需要兼容更多操作系統(tǒng),需要將API接口,對(duì)存儲(chǔ)廠商、盤的廠商開放,完善產(chǎn)業(yè)生態(tài)。第三需要使用開源的社區(qū),讓更多的廠商、更多的開發(fā)者進(jìn)來,一起去解決問題,眾人拾柴火焰高,這才有可能成為一個(gè)事實(shí)上的標(biāo)準(zhǔn)。

分享到

songjy

相關(guān)推薦