華為智能數(shù)據(jù)與存儲產(chǎn)品線全閃存領(lǐng)域產(chǎn)品總監(jiān)謝黎明

華為智能數(shù)據(jù)與存儲產(chǎn)品線全閃存領(lǐng)域產(chǎn)品總監(jiān)謝黎明,發(fā)表《告別機(jī)械時(shí)代,走向更經(jīng)濟(jì)的智能存儲》的主題演講,重點(diǎn)介紹了華為新一代智能存儲 OceanStor Dorado V6。

如何定義智能的存儲?

眾所周知,整個(gè)中國經(jīng)濟(jì)增長是非常迅猛的,GDP在全球排名第二。其中,數(shù)字經(jīng)濟(jì)占據(jù)三分之一的市場份額。

在整個(gè)數(shù)字化過程中,出現(xiàn)了非常多的新聯(lián)接以及新應(yīng)用。而新聯(lián)接、新應(yīng)用帶來最大的變化就是數(shù)據(jù)產(chǎn)生的加速和數(shù)據(jù)流動的加速。同時(shí),還可以看到5G帶來的變化,從人與人之間的聯(lián)接變成了萬物互聯(lián),這其中變化的本質(zhì)是聯(lián)接數(shù)量的增加,包括數(shù)據(jù)流動加速。很多新的應(yīng)用,如VR、AR、8K、智能工廠、自動化駕駛等帶來的數(shù)據(jù)量是極其龐大的。

以自動駕駛為例,一輛車每天產(chǎn)生的數(shù)據(jù)量高達(dá)64TB。車子從開發(fā)到量產(chǎn)需要經(jīng)歷近100億公里的駕駛里程,才能達(dá)到量產(chǎn)要求。而這個(gè)過程中大概會產(chǎn)生50EB的數(shù)據(jù),海量數(shù)據(jù)帶給基礎(chǔ)設(shè)施的挑戰(zhàn)同樣是巨大的。

面對這樣的挑戰(zhàn),在今年6月,華為智能數(shù)據(jù)和存儲產(chǎn)品線發(fā)布了面向數(shù)據(jù)治理的智能數(shù)據(jù)治理平臺——FusionData。透過該平臺,大家可以看到,必須將整個(gè)數(shù)據(jù)基礎(chǔ)設(shè)施進(jìn)行重新定義才能真正完成在數(shù)據(jù)治理上的挑戰(zhàn)。

首先從底層來看,計(jì)算會發(fā)生很多變化,使得數(shù)據(jù)類型發(fā)生了比較大的變化。例如在處理統(tǒng)計(jì)信息需要CPU能力;處理圖片、視頻則需要GPU能力;處理機(jī)器計(jì)算、機(jī)器學(xué)習(xí)可能需要的就是NPU能力,表明未來計(jì)算一定是從單一走向異構(gòu)。

面對多樣數(shù)據(jù),不論結(jié)構(gòu)化還是非結(jié)構(gòu)化數(shù)據(jù),必須滿足各類數(shù)據(jù)的接入。因此在數(shù)據(jù)接入層需要進(jìn)行重新定義,包括在存儲層,其數(shù)據(jù)一定是從單一存儲走向融合存儲。

以前的大數(shù)據(jù)平臺和數(shù)據(jù)倉從屬于不同的煙囪,如今需要進(jìn)行融合處理,這就出現(xiàn)了很大變化,包括數(shù)據(jù)使能層可能需要非常強(qiáng)大的調(diào)度器,實(shí)現(xiàn)所有大數(shù)據(jù)數(shù)倉調(diào)度任務(wù)分析,生成一些數(shù)據(jù)主題去消費(fèi),都會使數(shù)據(jù)使能層發(fā)生變化,所以從上到下每一層都必須進(jìn)行重新定義,才可能真正解決數(shù)據(jù)治理的問題。

今天是閃存峰會,接下來將會重點(diǎn)介紹華為在閃存方面如何重新定義。

華為閃存從2008年開始至今已有10多年的歷史。在華為整個(gè)閃存的發(fā)展歷程中,2008年發(fā)布了業(yè)界第一批閃存,在2014年發(fā)布了SAN&NAS融合存儲,到2017年發(fā)布了業(yè)界最高的SPC-1的測試結(jié)果,再到2018年率先于業(yè)界發(fā)布了全系列NVMe架構(gòu)存儲系統(tǒng)。整個(gè)發(fā)展歷程中,華為的創(chuàng)新步伐從未停止。

在今年7月23日,華為在北京發(fā)布了OceanStor Dorado V6新一代智能閃存,其在快、穩(wěn)、智能三個(gè)方面有突出表現(xiàn)。

首先是。對于閃存而言,一定是非??斓模陨弦淮A為發(fā)布了700萬的IOPS和0.3毫秒時(shí)延的存儲系統(tǒng)。7月23日發(fā)布的OceanStor Dorado V6達(dá)到2000萬的IOPS和0.1毫秒的時(shí)延。但這是不是足夠快呢?其實(shí)華為做存儲將近20年的時(shí)間,華為深有感觸,在生命周期中會經(jīng)歷非常多的過程,因此需要對數(shù)據(jù)進(jìn)行保護(hù),需要“大掃除”,做一些垃圾回收,可能還要打一些快照,做一些備份,還包括內(nèi)部的后臺處理。在所有場景之下是否可以保證存儲體驗(yàn)的一致以及對性能的影響最小?

OceanStor Dorado V6不僅可以提供高性能指標(biāo),還能提供全生命周期性能體驗(yàn)的穩(wěn)定。好似開車一般,不僅希望加速快,而且在過溝溝坎坎的時(shí)候振蕩非常小。華為現(xiàn)在能做到的是控制在10%以內(nèi),而業(yè)界大概在30%,這就是華為理解的快。

其次再談一談為什么能這樣的快,為什么能做極致性能?其核心在于軟件、硬件,而最重要的事情是華為擁有五顆芯片去解決這些問題。

華為自研SSD控制器,華為的控制器能夠把讀寫訪問時(shí)延降到最低,包括整個(gè)控制器單板上面用的板機(jī)管理芯片都是華為自己研發(fā)的。因此華為能夠做到整個(gè)板機(jī)各種故障識別,包括準(zhǔn)確率能夠?qū)崿F(xiàn)業(yè)界最佳。同時(shí),華為在整個(gè)OceanStor Dorado V6上面還搭載了AI芯片,具備自學(xué)習(xí)能力,使之能夠越用越好。

鯤鵬920處理器就是CPU芯片,這個(gè)是存儲控制器上面的關(guān)鍵芯片。一顆芯片上面有48個(gè)核,大家可以想一想一套高端存儲系統(tǒng)如何才能把如此重核的系統(tǒng)性能發(fā)揮到極致?這是一個(gè)難題。華為需要利用資源分區(qū)的專利技術(shù),去協(xié)調(diào)重核,將溝通沖突的問題解決,否則核數(shù)再多也無處可用,這便是快。

穩(wěn)方面,OceanStor Dorado V6在業(yè)界又實(shí)現(xiàn)了哪些超越?我們知道存儲控制器是常見的故障,控制器故障在生命周期是很可能出現(xiàn)的,而業(yè)界針對控制器的故障能做到什么樣的水平呢?壞了一個(gè)控制器沒問題,兩個(gè)也能冗余,但是后面再壞更多控制器可能就不行了。華為在新的OceanStor Dorado V6架構(gòu)里面,就把架構(gòu)做了解耦,能夠?qū)崿F(xiàn)8個(gè)控制器壞了7個(gè)情況下還能提供業(yè)務(wù)。

華為憑什么擁有這樣的可靠性架構(gòu)呢?其核心的架構(gòu)設(shè)計(jì)是華為SmartMatrix全互聯(lián)的架構(gòu),這樣的架構(gòu)中間通過RDMA的網(wǎng)絡(luò),實(shí)現(xiàn)了前端的IO和后端的控制器以及盤控全部解耦,全互聯(lián)的設(shè)計(jì),能夠?qū)崿F(xiàn)這樣的架構(gòu)。而里面最關(guān)鍵的部件就是IO的共享卡,內(nèi)置了華為自研芯片,把所有的FC芯片、CPU芯片全部整合,這樣做帶來的好處是,我們看到的OceanStor Dorado V6僅僅只有4U的空間就能把它全部搞定。

講完可靠,那智能又意味著什么?上半年在與歐洲運(yùn)營商客戶交流過程中,他提了一個(gè)很好的概念,即白手套式運(yùn)維。

每個(gè)人進(jìn)入機(jī)房是必須帶上手套,主要是為了防止靜電損害設(shè)備,而客戶希望手套永遠(yuǎn)是白的,永遠(yuǎn)不會變臟。而手套變臟的核心是要觸碰設(shè)備、操作設(shè)備。但如果不觸碰設(shè)備、不操作設(shè)備,是不是意味著手套不會變臟,而客戶所需要的就是這樣一種運(yùn)維方式。

而這背后就要求存儲系統(tǒng)擁有足夠的自動化能力去解決這個(gè)難題,不觸碰也能夠操作設(shè)備,這就叫白手套運(yùn)維。

白手套運(yùn)維設(shè)計(jì)想法得靠三層架構(gòu)去解決整個(gè)自動化的問題,徹底釋放。而設(shè)備必須要有AI的能力,所以華為在存儲中應(yīng)用了AI芯片,其次在管理上實(shí)現(xiàn)全生命周期的過程中都能夠自動化,而不僅僅是覆蓋某個(gè)環(huán)節(jié);其次,還得配備一顆云上智能的大腦,必須能夠做智慧的算法學(xué)習(xí)。

目前,存儲面臨的問題是相同的,當(dāng)面臨非常多的場景去匹配,可能需要不同的配置,不同的性能去滿足不同的要求,華為希望打造智能的存儲。

未來存儲上需要承載的IOPS是千萬級的,就意味著我們的IO特征數(shù)據(jù)可能過億,面對海量的數(shù)據(jù)分析,完全依靠CPU承載是不行的,必須要有AI的芯片,而華為恰好有這樣的芯片,將該芯片放在存儲中,以解決邊緣智能問題。

如果將它用在不同的技術(shù)中,會帶來怎樣的變化?華為的客戶不再關(guān)心這些事情,交給存儲自身去學(xué)習(xí),去配置,自我優(yōu)化和完善,這就是智能存儲。

除了存儲上有AI能力以外,更重要的事情是整個(gè)管理上必須能夠全流程解決自動化的問題。因?yàn)槿鞒虝婕暗皆O(shè)備、規(guī)劃、部署、分配、維護(hù)、優(yōu)化整個(gè)端到端的環(huán)節(jié),往往可能要配十幾個(gè)管理員。

現(xiàn)在華為把整個(gè)過程全部實(shí)現(xiàn)自動化,通過一個(gè)簡單的例子,大家或許更為清晰。以前規(guī)劃存儲時(shí),可能并不清楚該采購多少容量,多少性能。而現(xiàn)在這套系統(tǒng)就可以告訴用戶,未來在三個(gè)月時(shí),系統(tǒng)達(dá)到的性能瓶頸,現(xiàn)在應(yīng)該采購什么樣的控制器達(dá)到多少性能等等,徹底地解決管理員,這便是全流程生命周期的自動化。

除了這些還夠不夠呢?還不夠,為什么?因?yàn)榭蛻舻靡幸活w大腦,這顆大腦在哪里?就在華為的公有云上。華為在公有云上部署了eService系統(tǒng),將全球19萬臺設(shè)備接入到這套系統(tǒng)中,積累了將近2個(gè)PB的特征值數(shù)據(jù),通過這些特征值數(shù)據(jù)不斷地學(xué)習(xí)算法,來去優(yōu)化運(yùn)維過程。

用戶能夠發(fā)現(xiàn),在全生命周期過程中的任何場景,都能提供很多智能建議,告訴用戶可能在兩周后某塊盤可能會故障,會告訴用戶什么時(shí)候可能會面臨性能的瓶頸,這就是這顆大腦所發(fā)揮的作用。

智能化則主要體現(xiàn)在自動化三層架構(gòu)上面,真正去解放管理員的雙手,實(shí)現(xiàn)“白手套”運(yùn)維。除此之外,在華為整個(gè)數(shù)據(jù)生命周期所有的用戶一定都會有一個(gè)痛點(diǎn)非常的明確,即存儲設(shè)備這些年大多在英特爾之下,每到三年設(shè)備就會過保,可能就會面臨數(shù)據(jù)遷移,這個(gè)過程很可能需要終端業(yè)務(wù)來做,尤其是一些核心業(yè)務(wù)。

是否有辦法實(shí)現(xiàn)無需遷移?華為在OceanStor Dorado V6上提供這樣的能力,即做設(shè)備永新的能力,意味著生命周期內(nèi)甚至?xí)娱L到10年內(nèi)不再需要再做數(shù)據(jù)遷移,只需要不斷地去更換整個(gè)存儲系統(tǒng)里面的部件,控制器、引擎等等,便可以實(shí)現(xiàn)整個(gè)設(shè)備不斷地更新,這就是設(shè)備永新。而這個(gè)過程中你就發(fā)現(xiàn)不用再做遷移,這樣存儲的使用體驗(yàn)會相比以往的傳統(tǒng)存儲會有質(zhì)的變化。

華為如何把閃存推廣出去,如何做普惠,華為在這塊也做了非常多的事情。大家知道華為是既做系統(tǒng)也做盤,而華為的SSD盤已經(jīng)上市銷售了10年?,F(xiàn)在華為做盤到底是什么程度呢?我們業(yè)界NVMe和SaaS的SSD華為是全球第五名,而前四名都是一些老牌的廠家。

華為自己做盤能夠帶來的就是存儲系統(tǒng)跟盤能夠做深度的整合,真正把盤的性能、壽命和容量做到最優(yōu),同時(shí)可以發(fā)揮很多數(shù)據(jù)縮減的軟件能力。華為現(xiàn)在在做數(shù)據(jù)縮減,希望通過數(shù)據(jù)縮減進(jìn)一步把SSD應(yīng)用成本降低。

因?yàn)镾SD相比機(jī)械盤速度是100倍的提升,適合做數(shù)據(jù)庫、數(shù)據(jù)中心、適合將以前老舊的存儲全部整合成一臺全閃存。這樣可以發(fā)現(xiàn)空間的占用,能耗,運(yùn)維成本等均會大大降低,這就是全閃存最合適做的事情,這也是為什么這些年全閃存發(fā)展如此之快。核心在這里,它不僅僅快,不僅僅穩(wěn),還是真正的綠色環(huán)保。

這就是本次介紹整個(gè)OceanStor Dorado V6,新一代智能存儲。我相信它的快、穩(wěn),包括智能一定能夠?qū)⒄麄€(gè)產(chǎn)業(yè)加速向全閃存推進(jìn),去告別數(shù)據(jù)中心最后一個(gè)機(jī)械部件、機(jī)械盤,為整個(gè)數(shù)據(jù)基礎(chǔ)設(shè)施提供澎湃的新動力。

謝謝大家!

分享到

zhangnn

相關(guān)推薦