下面是李帆老師的現(xiàn)場演講文字實錄:

非常高興有這樣一個機會在這個2013年中國存儲峰會跟大家分享一下關于大數(shù)據(jù)的觀點和看法。我們富士通是廠商,我們存儲峰會拿出我們大數(shù)據(jù)平臺基礎設施的解決方案,這里我們一起分享一下。

我們首先跟大家談一下大數(shù)據(jù)時代,這個時代到底有什么不一樣,有什么在變化?在我來參加展會之前有一個朋友問我你愿意到存儲峰會演講主要是談什么?談服務器存儲、云計算還是什么?我跟他說談大數(shù)據(jù)。好像所有人都在談論大數(shù)據(jù),為什么?看起來數(shù)據(jù)這個東西我們在整個大會中我們看到,這個數(shù)據(jù)是真正有價值的。對數(shù)據(jù)的挖掘和分析做一些探討,如何看海量數(shù)據(jù)當中有一些業(yè)務方向和哪些新的商機存在的,這個是我們考慮的一點。

第二點所有人想我們做大數(shù)據(jù)的平臺做大數(shù)據(jù)整個的解決方案跟以前有什么不一樣。同時我們也要看到做大數(shù)據(jù)的時候有很多方面跟原來實際上是一樣的都需要做分析,都需要有一個很高效、可靠這樣大數(shù)據(jù)的平臺。變化在哪里?不一樣的地方在于大數(shù)據(jù)時代用戶和業(yè)務所產(chǎn)生的數(shù)據(jù)總量在變大,這個海量增加會使你看到數(shù)據(jù)發(fā)生了一個變化,原來是TB級現(xiàn)在馬上到PB級,這個總量在變大。由于技術革新帶來我們現(xiàn)代的系統(tǒng)、服務器、設施帶來挖掘的數(shù)據(jù)種類變多了,用戶日志、交易的包,這個包由于你技術不達標,處理手段不夠先進,我不能處理?,F(xiàn)在有大量非結構化數(shù)據(jù)出現(xiàn),同時我們有一些很好的軟件框架去部署到整個開源市場,也部署到商業(yè)市場,這時候我們處理種類變多了。

還有一部分由于大數(shù)據(jù)到來之后,由于計算領域提高,我們分析數(shù)據(jù)時效性提高了,有的用戶做一個復雜的報告有時候運行幾個小時甚至幾天才能看到一個報表,現(xiàn)在領導要求我只需要在這么多用戶當中我用戶下一個節(jié)點使用什么樣的數(shù)據(jù)包,什么樣的流量,這時候時效性被提高。大數(shù)據(jù)歸根到底我們看到整個大數(shù)據(jù)對基礎設施的變化是存在的。

我們特別看到數(shù)據(jù)的時候我們想提到一點,整個數(shù)據(jù)對大數(shù)據(jù)時代,這個數(shù)據(jù)存儲方式發(fā)生了顯著變化,這個變化體現(xiàn)在哪里?這個數(shù)據(jù)層次變多了。怎么叫變多了?以前我們大多數(shù)業(yè)務系統(tǒng)從硬盤出來之后弄過內(nèi)存到CPU,摩爾定律發(fā)展很快,整個磁盤的技術和存儲技術屬于提升不是那么明顯?這時候對于計算能力要求,希望就是說我這個系統(tǒng)能夠有更高的計算能力,所以我們看到從毫秒級納秒級我們希望有更多內(nèi)存技術提升我整個大數(shù)據(jù)處理效率。在處理整個金字塔尖是內(nèi)存計算,你業(yè)務你的系統(tǒng)需要有一套機制實現(xiàn)并存高計算運行計算的引擎,這是我們大數(shù)據(jù)時代看到第一個變化。

第二個變化當中中間層次,我們叫做橫向拓展的存儲,以前存儲是集中式的,我們要求集中式縱向擴展有很高集成能力,現(xiàn)在很多存儲是碎片化,分布式,我們要求這個節(jié)點在北京,這個節(jié)點在上?;蛘咴诔啥?,這時候這個分布式的計算要求我們處理能力速度提高和我們數(shù)據(jù)要跟上,我數(shù)據(jù)還是在集中式的我,我數(shù)據(jù)和我分散能力碎片化的計算相離非常遠,延時很大。所以我們中間層次叫做橫向擴展的存儲,既是存儲也是計算的處理服務器我們叫做一體機。

我們還有需要有一個金字塔機,我們之前幾個演講當中我們看到數(shù)據(jù)始終是很珍貴的,用戶希望不管我數(shù)據(jù)怎么分布計算,我們始終有一個地方對它進行統(tǒng)一的存儲,統(tǒng)一存儲和備份在這個基礎之上我們看到整個存儲計算考慮結構化數(shù)據(jù)和非結構化的數(shù)據(jù),我們對整個大數(shù)據(jù)的存儲這樣一個方式變化的非常明顯。講到這個情況下我們看到大數(shù)據(jù)與現(xiàn)有的基礎設施并不意味著云計算來了,大數(shù)據(jù)來了,原有基礎設施沒有用了,或者架構發(fā)生翻天覆地的變化,不再需要縱向擴展,不再需要高性能不是這樣的,用戶始終需要高可靠性,而且用戶有很多生產(chǎn)系統(tǒng),生產(chǎn)系統(tǒng)都是包括它的關鍵數(shù)據(jù)庫。更多的存儲的層次,結構化和非結構化都能處理。

第三更簡單的應用,各行各業(yè)都有數(shù)據(jù)挖掘,需要有一體機的平臺解決我大數(shù)據(jù)的時代對hadoop和甲骨文這些硬件軟硬兼施的處理。

未來大數(shù)據(jù)中心的布局,我認為始終存在一個節(jié)點是一個高可靠的關鍵業(yè)務系統(tǒng),它要求有縱向擴展,高性能,節(jié)點數(shù)比較少,對廠商的技術能力要求非常大。

第二塊如果你發(fā)現(xiàn)你的計算和你存儲再一個節(jié)點縱向擴展還不能滿足你需要橫向擴展還需要分布式,這時候我們需要軟件和硬件充分的調(diào)優(yōu)和集成,這誕生了我們整體一體機,對于一體機的市場我們看到高性能專門做橫向擴展和處理的。

你應用很多,你想到我這臺服務器性能跑不滿,有時候我過了這個口我就不需要了,這時候你需要做虛擬化把你基礎設施統(tǒng)一的調(diào)度管理。

第二我們看一下富士通在大數(shù)據(jù)上的布局,我們對于大數(shù)據(jù)談了很多,既有現(xiàn)有關系性的系統(tǒng)也有橫向擴展還有虛擬化。我們?nèi)蛟谧鑫覀兏皇客▌?chuàng)建以人為本的智能社會,所以我們在人、信息和科技上面總體做一個集成,很多地方尋找IDC集成給大家?guī)淼膭?chuàng)新。對于大數(shù)據(jù)設施整體布局我們基本上分為三個部分。

中間部分是對傳統(tǒng)關系性數(shù)據(jù)庫處理所帶來的變化,我們提供可縱向擴展數(shù)據(jù)庫服務器,同時提供高性能數(shù)據(jù)計算。針對于新的業(yè)務類型很多非結構化數(shù)據(jù),我們提供針對與非結構化內(nèi)存計算hadoop的平臺,基于我們商業(yè)版本的hadoop平臺加上我們內(nèi)存平臺。我們?nèi)峦瞥鲆詷I(yè)務為中心的存儲它可以實現(xiàn)結構化系統(tǒng)的處理,也可以實現(xiàn)非結構化數(shù)據(jù)備份。對于傳統(tǒng)的關系性數(shù)據(jù)庫的話我們提供M10的小型機這個我們和oracle合作的產(chǎn)物,可拔插縱向擴展動態(tài)調(diào)整M10的服務器。如果說你現(xiàn)有行業(yè)應用中需要對于原來關系性數(shù)據(jù)庫做一個優(yōu)化做一個革新這個是我們提供的一個選擇。

然后在第二部分針對于非結構化數(shù)據(jù)的并行處理,我們提供基于hadoop大數(shù)據(jù)分析處理平臺,主要針對于四個方面給客戶提供價值。一、離線分析挖掘數(shù)據(jù)庫。二、針對于實時計算數(shù)據(jù)庫。三、針對內(nèi)存分析。四、針對復雜事物的流處理。在不同場景下面給用戶提供非結構化數(shù)據(jù)處理的價值。我們hadoop相比開源的hadoop超過10倍的數(shù)據(jù)提升,這個我們使用我們自己專利內(nèi)存計算技術,我們達到50到100倍的提升。我們提供整體在線的數(shù)據(jù)庫和內(nèi)存分析數(shù)據(jù)庫這樣一個分析的能力。

在它后面是我們大數(shù)據(jù)統(tǒng)一存儲的管理,我們都知道對于集中式的傳統(tǒng),傳統(tǒng)是基于san關系性數(shù)據(jù)庫,在我們最全新的存儲當中我們同時提供基于NAS和自動生成的系統(tǒng),我們都可以提供統(tǒng)一的結構化和非結構化數(shù)據(jù)的管理。它具備一些高可靠、高性能和高密度。

第三部分我們來看一下一些典型的場景和我們富士通對應的一些產(chǎn)品明確的場景。這是我們?nèi)毡疽粋€實際的案例,這個在零售行業(yè)之中,他們客戶最早他們只是在一個很關系特別區(qū)域里面做一些零售方面的服務,需要富士通幫他提供整體的解決方案,這個整體方案我們分成兩部分,一部分是大數(shù)據(jù)的基礎設施,第二部分結合客戶做一些客戶化,這個客戶化當中包含了客戶自己的用戶分析系統(tǒng)。這個客戶的案例主要是他們的數(shù)據(jù)量非常非常大,然后通過實施這個項目,他們把他們從某一個片區(qū)商戶擴展到整個全島之內(nèi)的商戶,使用每日分析和用戶信息提供。這是多樣性的體現(xiàn)在制造業(yè)中,我們的一個客戶他們同時會考慮接他們800的電話抱怨用戶投訴處理,還有社交網(wǎng)絡上的監(jiān)控,監(jiān)控之后他可以發(fā)現(xiàn)哪些用戶在一些什么時間段,對什么產(chǎn)品提出一些抱怨和投訴。我們提供多元化數(shù)據(jù)分析之后,然后它在上面針對海量數(shù)據(jù)提供預防測試和海量交易,使得用戶在同樣問題的復發(fā),同時它可以監(jiān)控整個的狀態(tài),這是在制造業(yè)上面一個明確的案例。

同時我們還提到我們對于復雜事物特別是在一些跟移動互聯(lián)網(wǎng)相關,還有在一些高端制造行業(yè)里面我們都存在這種應用,它是復雜事務流處理,這個在我們基礎平臺之上的軟件模塊,這個模塊在內(nèi)存中接收一些規(guī)則,在規(guī)則設定基礎下用戶到我這里來我做一些出發(fā),我數(shù)據(jù)庫存儲了很多會員信息,這些會員信息和商戶信息當中有一個動態(tài)的信息,中間匹配隨著客戶位置信息在不斷發(fā)生變化,這個時候我們按照原來的模式處理,把它收集上來入到oracle的數(shù)據(jù)庫當中,在表圖提取出來做分析基本上很慢,客戶走過就走過了不會快。

但是有了我們復雜事務流處理,可以做到只要是我會員經(jīng)過我目標當中我可以動態(tài)找我商鋪有什么優(yōu)惠券把這個優(yōu)惠券puch到手機上面。前面講了速度、整個流量還有多樣性?,F(xiàn)在整個移動互聯(lián)網(wǎng)如火如荼,整個大家使用微信或者其他一些即時通訊的設備軟件產(chǎn)生的數(shù)據(jù)庫都非常大。在我們客戶之中我們有一些電信的設備制造商會做一些設備的探偵,這些探偵在網(wǎng)絡部署,在所有網(wǎng)源當中截取它的信息,包括大家發(fā)的微信這些消息,運營商通過部署這些探偵,它只要想做都是可以查得到的,這個設備是電信制造的專用設備不是開放的計算平臺,所以客戶應用之中會發(fā)現(xiàn)說我提取到你信息之后,干啥?我有什么用?你給我之后還放在這里,你要給我處理分析報表,客戶跟我們合作,我們合作以后我們給他提供一個大數(shù)據(jù)處理的設備,我們?nèi)ブ翱蛻粞邪l(fā)自己做一些開源軟件的研究和調(diào)配,這個當中他們會發(fā)現(xiàn)說說都是做hadoop,但是存在很多的問題不能解決,有很多問題不能處理。但是我們把我們的預警機設備拿過去之后,用戶發(fā)現(xiàn)很好,他專門寫他算法程序和報表程序就可以。

最極端情況他有一個報表他預計兩個小時,換成我們系統(tǒng)運行只要15苗種就可以搞定,這是典型的綜合案例,這個數(shù)據(jù)量也很大,要求速度也很快,但是通過這樣一個整體平臺介入進去,能夠實現(xiàn)幫助客戶快速實現(xiàn)價值,幫助客戶把他想要花的力氣專注于自己的算法之上,把基礎設施以下的部分交給專業(yè)廠商去做。我們來看一下我們做了一個分析,從2012年到2013年我們富士通總部在全球做了一個分析,我們把大體上我們現(xiàn)在案例分成三種類型。一種類型針對于現(xiàn)有的業(yè)務領域需要提升數(shù)據(jù)處理效率,有在線的系統(tǒng),有是關系性的數(shù)據(jù)庫,還有若干個其他自己算法的東西,它要求你產(chǎn)品和設備來了以后可以幫助它提升現(xiàn)有數(shù)據(jù)處理的效率,這是一種類型。

第二類型是處理被埋葬的數(shù)據(jù),或者被埋沒的數(shù)據(jù),我們以前沒有大數(shù)據(jù)技術之前有很多數(shù)據(jù)是你無法處理,太快,太多看也看不過來,都是劣質信息,海量數(shù)據(jù)無法處理,有了大數(shù)據(jù)之后,利用海量數(shù)據(jù)被掩埋的數(shù)據(jù),在這個數(shù)據(jù)中尋找相應價值,這是第二種類型。

第三類型利用數(shù)據(jù)尋找新的價值,我原來的數(shù)據(jù)我自己很清楚,但是我需要尋找下一個價值。你下一個10塊錢在哪里,你能不能多收三五個,這個是我們認為是三類場景。這三類場景我們以前的占比A類47%,B類40%,C類14%,說明什么?說明大部分客戶的原來設施要改善,速度不夠快,同時有接近40%的客戶會看到我原來數(shù)據(jù)好多是沒有被利用的,是可以從中了解我客戶在干什么?這種情況下以前沒有考慮現(xiàn)在有考慮了。這幾個情況下我們整個場景分析下,我們看到整個大數(shù)據(jù)的布局相應做一個匹配,所以說現(xiàn)在我們看一下我們富士通的產(chǎn)品。舊的數(shù)據(jù)是這種模式,分離服務器、分離內(nèi)存進程和數(shù)據(jù)庫進程,在數(shù)據(jù)庫M10發(fā)布之后,圍繞oracle我們打造全新關鍵數(shù)據(jù)庫平臺,我們打造可拔插數(shù)據(jù)庫和可動態(tài)擴展拔插的服務器,這個在中國市場銷售面向市場銷售,提供三個型號,入門級是M10-1提供56個空。中間是m10-4是提供64個空,M10-4S堆疊16BB,可以做24個空和84個TB的內(nèi)存,在這樣的一個系統(tǒng)上面你可以做一個動態(tài)的重新配置。這個我們針對于如果客戶需要關鍵數(shù)據(jù)庫需要革新我們可以提供這樣一個組合產(chǎn)品提供給客戶。對大數(shù)據(jù)的平臺里面非結構化是其中很重要一環(huán)但不是全部,我們富士通理念我們利用原生的開源平臺提供商業(yè)優(yōu)化的版本,我們現(xiàn)在基于hadoop2.0提供了這樣一個版本,同時我們在這樣一個版本上面我們增加了我們專利內(nèi)涵的計算技術和非結構化數(shù)據(jù)的備份。這一塊是一個高處理緩存,可以做到在我緩存弄到我的內(nèi)存當中如果你數(shù)據(jù)庫表很重要要求很快,或者說你原來沒有優(yōu)化過需要自動的KICH,我當中內(nèi)存數(shù)據(jù)庫可以做到這一點。這個好處就是說可以做到你原來基于HBS的方式,做基于優(yōu)盤的計算,你對普通計算做這樣一個開發(fā),同時你可以把我數(shù)據(jù)一些表格有選擇或者是自動的放到內(nèi)存中計算這樣可以獲得上10倍或者更多數(shù)量級性能的提升。

同時我們集成的系統(tǒng)還提供一套非結構化數(shù)據(jù)的備份。我們碰到交通行業(yè)的客戶他們說我這個卡口這個數(shù)據(jù)的確要快,如果當我關鍵的車子過來的時候,很快要算出結果,但是算過就算過了,它計算要求在一個瞬間之內(nèi)會非常高,但是過去之后它也不見得把這套數(shù)據(jù)反反復復給計算。也就是說我們談上PB海量的數(shù)據(jù),在這個數(shù)據(jù)之中要看數(shù)據(jù)冷熱程度不一樣,有很多數(shù)據(jù)不需要馬上計算的,如果我們把這些海量的數(shù)據(jù)全部放在橫向擴展存儲之中,我們的客戶就跟我們抱怨了,他說我這樣放我現(xiàn)在計算能力飽和了,你橫向擴展存儲,這個服務器兩個CPU所能處理的設備是有限的,我不能擴展下去了,我計算領域過剩我不停的去買服務器,這時候我告訴他,其實這種情況你計算能力已經(jīng)飽和了,其實你沒必要無限的擴展你中間層,而是看一下你非結構化數(shù)據(jù)在金字塔最底層我們怎么樣提供統(tǒng)一專業(yè)存儲高可靠的東西保存和歸檔你的數(shù)據(jù)。當然我們提供歸檔備份也提供存儲功能,我看到我過去一個月或者半年之前的數(shù)據(jù),我們提供一個功能把冷數(shù)據(jù)重新調(diào)到我分布式的存儲當中來,這樣很好解決整個數(shù)據(jù)層次化部署的方式。圍繞它我們涉及到的硬件產(chǎn)品一個prmergy,是專門針對于橫向擴展CX系列的服務器。第二是基于英特爾架構的小型機,你構建一個hadoop的節(jié)點,你需要高可用高可靠的時候,你有計算,我們建議你在整個hadoop集群最核心一環(huán)使用好可靠可用的服務器。第三我們提供存儲提供面向存儲數(shù)據(jù)的保護。

針對非結構化構建一個數(shù)據(jù)平臺我們需要哪些設備?我需要構建我整個系統(tǒng)全局的命名節(jié)點,這些是相對來講我部署幾個不需要大量橫向擴展,這是我整個系統(tǒng)中心節(jié)點。第二部分如果說我一個中心節(jié)點不能滿足計算需要,我們需要大量橫向擴展節(jié)點,這個橫向節(jié)點基于非結構化內(nèi)存計算做集群擴展節(jié)點。這兩個滿足了你擴展需要,這時候你需要有一個統(tǒng)一的數(shù)據(jù)平臺,這是金字塔尖的部分,我橫向擴展到一定程度,我們形容放數(shù)據(jù)的水平,一個小水瓶我們需要一個大水瓶,一個大水水瓶,這需要高容量的文件歸檔。我們選擇有哪些?我們基于四節(jié)點hadoop處理器,可以提供兩優(yōu)的空間提供四個節(jié)點,這是構建高密度計算的基石。這是八路的服務器,可以實現(xiàn)六個九的可靠性。在這個之后如果你擴展的時候你說我計算能力我不需要這么高但是存儲能力要這么高,我們可以提供我們CX400兩配置,存儲技能三倍,計算能力減倍,兩塊高性能的計算單元。

最后是第三代的存儲,能夠實現(xiàn)結構化和非結構化的存儲,橫向熱門、熱數(shù)據(jù)和冷數(shù)據(jù)的調(diào)配,我們核心基礎是hadoop,之上是我們高性能的計算,中間是分布式存儲,最后一部分是數(shù)據(jù)備份。這個三代我們在12月份發(fā)布我們產(chǎn)品,這個產(chǎn)品有這么幾個特色,主要是我們系列當中的四款,所有設備可以實現(xiàn)動態(tài)無縫控制器的升級,同時相比中間橫向擴展的服務器它的好處是它可以實現(xiàn)六個口的高可靠性,統(tǒng)一數(shù)據(jù)管理高性能,5倍LPS的成長,整個空間節(jié)省50%,容量提高40%,這是我們富士通整個統(tǒng)一設計的。

最后我們看一下我們富士通整個優(yōu)勢,我們高性能,高密度,高可靠性,預集成優(yōu)化系統(tǒng),易于安裝部署和使用。源自大型機IT系統(tǒng)產(chǎn)品技術的集成。

我們強調(diào)的觀點是整個大數(shù)據(jù)時代,大數(shù)據(jù)是舊瓶裝新酒,新酒是里面科技的創(chuàng)新,科技創(chuàng)新量變帶來質變,整個行業(yè)信息數(shù)據(jù)分析帶到全新的高度。彈性化、可擴展的大數(shù)據(jù)基礎設施,對數(shù)據(jù)安全和可靠性的追求同等重要。

大數(shù)據(jù)處理方式高度多元化,我們富士通致力于構建最佳的大數(shù)據(jù)系統(tǒng)平臺,建立以人為本的智能社會,我演講就到這里,謝謝大家!

分享到

shaohaihong

相關推薦