首先他認(rèn)為 今天大數(shù)據(jù)和云結(jié)合在一起了,而且這是非常合理的一個結(jié)合。
自己的電腦和一些存儲,以及一些計算的能夠或者是內(nèi)存或者是硬盤存儲和網(wǎng)絡(luò)。將所有的電腦放到一起,尤其是在一個典型的大數(shù)據(jù)的群集里面,你需要考慮所有的矢量,把所有矢量的資源放在一起需要有一個架構(gòu),這就是所謂的云框架。
Hadoop的數(shù)據(jù)是非常重要的一點(diǎn)。一般來說有三種方法來應(yīng)對處理和存儲,一種方法是實(shí)時的分析工具,同時還有一些數(shù)據(jù)的操作性的工作。也就是說得到了什么到底怎么做?同時還需要進(jìn)行對數(shù)據(jù)的操作,這需要處理多種不同的數(shù)據(jù)得到一個結(jié)果,這就是Hadoop在早期的時候超越其他工具的地方。而且我們必須要處理數(shù)據(jù),用這個數(shù)據(jù)來在培訓(xùn)過程中引用到,或者引用來進(jìn)行一些可視化,幫助來使用一些??赡茉诖髷?shù)據(jù)的時代我們確實(shí)有這個機(jī)會來把一些工作的負(fù)擔(dān)和一些傳統(tǒng)的數(shù)據(jù)處理從傳感器這方面進(jìn)行轉(zhuǎn)換,不僅僅只是在實(shí)時地互動的方式來處理,我們必須進(jìn)行可視化的工作,這就是VMware工作的背景。
有基礎(chǔ)設(shè)施的層面還有云的基礎(chǔ)設(shè)施,中間的這層叫數(shù)據(jù)層,我們在這里有很多的分布式的文件的系統(tǒng)還有很多的大數(shù)據(jù)存在在里面,而且還會有一些彼此纏繞在一起的數(shù)據(jù),而且還有計算機(jī)層。在左側(cè)可以有實(shí)時處理數(shù)據(jù)的能力。這些都是Hadoop、英特爾等范圍以內(nèi)的?;A(chǔ)結(jié)構(gòu)方面可以有多個不同的部分,包括本地的和一些共享的存儲的能力。還有一些分布式的管理的系統(tǒng)。所以我們可以看到這里有多個不同的管理。如果我們來看一下,這種實(shí)時的虛擬的基礎(chǔ)設(shè)施的架構(gòu)首先可以看到有人談到了美國的應(yīng)用我們對數(shù)據(jù)庫進(jìn)行了安裝,我們可以看到有很多不同的集群建立起來了,它是遍布整個的公司和組織的。有時候可以用,有時候并不是可以充分地利用。所以它們需要更多的空間,因為他們要存儲更多的數(shù)據(jù),也是因為數(shù)據(jù)計算的能力在增加。所以資源并沒有完全地用到,因此虛擬的架構(gòu)是非常重要的。
一個單一的性能環(huán)境可能是運(yùn)行的是NPP的運(yùn)營或者是Hadoop的集群或者是其他的集群,而且它還能夠?qū)⒋鎯陀嬎愕哪芰Κ?dú)立進(jìn)行。其中一個集群運(yùn)行得比其他的更長更熱,就可以進(jìn)行應(yīng)用,這是云的基礎(chǔ)架構(gòu)能夠,特別是在私有的運(yùn)行情況下可以運(yùn)行得更好。而且在某一個APP的環(huán)境Hadoop是一個獨(dú)立的集群,也許它管理起來并不是那么容易,雖然效率并不是很高,但它是獨(dú)立運(yùn)行的,把它放在一起可以看到是單一數(shù)據(jù)的分享。但是如果彼此在一起運(yùn)行的話是做得很好的,首先如果我做的是很復(fù)雜的計算我不希望有人進(jìn)入我只是希望有人做這個動作,控制這個過程,避免產(chǎn)生一些噪音和雜音,如果問一個問題可能后面的人要等很久,這樣要用到不同的集群,這樣要把整個的虛擬化應(yīng)用起來可以幫助我們解決很好的問題。
最重要的是安全的優(yōu)化,要運(yùn)行各種不同的運(yùn)行,但這并不意味著我們有一些私有的信息,當(dāng)然我們還要遵守信息的隱秘性,如果客戶有要求的話。如果我們在虛擬的系統(tǒng)中可能也有這樣的問題,所以這也是在虛擬環(huán)境中解決的問題,這樣的一些元素和問題包括了其可視化,這是可以幫助我們解決的,但確實(shí)也需要從資源的分享中獲得更好的益處。而且我們也看到了很多的數(shù)據(jù),把它放到了云的計算中,比如說基礎(chǔ)設(shè)施可能是同一個基礎(chǔ)架構(gòu)對資源進(jìn)行分享。但在分享存儲這方面可以看到有一些大數(shù)據(jù)都可以有一些優(yōu)勢,但問題并不是完全需要這樣的。資源的分享、存儲的分享確實(shí)是可以的,你可以用SAN或者是NAS進(jìn)行分享,你可以對集群進(jìn)行評論的工作,還可以幫助你不斷地改善虛擬的架構(gòu)。但是,并不是完全地需要這么做,還可以用本地的存儲,可以用本地的磁盤。
對Hadoop來說它可以給你更多的可擴(kuò)展的帶寬,所以有很重要的選項。最重要的是把資源進(jìn)行簡化,并不把它對某種方式進(jìn)行鎖定才能進(jìn)行這種工作。
在這個行程中我們也看到了一些合作的人,如何對他們進(jìn)行可視化,所以我們確實(shí)非常相信計算中有很多大數(shù)據(jù)的應(yīng)用。第一,能夠運(yùn)行簡化,可以幫助我們做很好的準(zhǔn)備。也可以幫助我們很好地進(jìn)行生命周期的管理,如果是一個生命周期的管理可以很好地對其進(jìn)行管理,而且可以很好地確定把一個集群進(jìn)行整合,而且需要進(jìn)行一些重新配置,所以并不一定是有虛擬的需求,它們都是虛擬的。因此這是一個集合資源的過程,運(yùn)行起來更簡單。第二,可運(yùn)行性、可用性很高。這樣的話可以運(yùn)行一些基礎(chǔ)設(shè)施進(jìn)行優(yōu)化,而且我們可以看到在技術(shù)這方面虛擬技術(shù)可以幫助你達(dá)到很高的容忍度,而且并不需要人類的處理。放在潛在的平臺中,所以能夠用到這樣的系統(tǒng)。用現(xiàn)有的Hadoop的版本把它放在其他的版本之上,我并不需要對它進(jìn)行改變,只需要對潛在的架構(gòu)進(jìn)行運(yùn)行就可以了。這也是很高的可是度的優(yōu)勢。另外計算中很重要的概念是,一個多功能性。
在中國的新年期間我們會做更多的工作,而且可以同時做更多的工作,不一定是我在用還有其他的人在用,可以很彈性地把能力進(jìn)行收縮或者是增大。而且我們可以通過現(xiàn)有的數(shù)據(jù)知道這里有很多VMDisk,可以把資源集成在云資源中,而且可以把Hadoop的能力運(yùn)行多個集群,這種能力是非常重要的一個因素,也是為什么我們這么多的投資于Hadoop的開發(fā)之中的原因。再談一些經(jīng)驗,我們用了典型的Hadoop的25節(jié)點(diǎn)的集群,有20個磁盤,這在一個Hadoop的集群中是很典型的應(yīng)用,它是非常經(jīng)典的Hadoop的應(yīng)用。我們還測量了有多長的時間,我們運(yùn)行了這樣的一些系統(tǒng),而且進(jìn)行了測試。這樣一個虛擬的點(diǎn)。我們在同樣的系統(tǒng)中消耗同樣的資源來運(yùn)行的。
可能它要超過一點(diǎn),那么看一下它有不同的特點(diǎn),例如說它是虛擬的,好像是24個機(jī)器,但實(shí)際上可能會有48個是同樣的配置嗎?我們再對它進(jìn)行測試,它沒有改變?nèi)魏蔚臇|西為什么會這樣?為什么會得到的結(jié)果更好呢?但發(fā)生的事情是對資源的安排,有時候會把情況變得更好,更好的簡化和可視化。它沒有改變?nèi)魏我恍蠬adoop的代碼,這是第一個需要看到的問題。
VMware把所有的暫時的文件放在本地的磁盤中,之后在輸出這方面放在了分享磁盤上,所以極大地增加了工作的效率,同時也可以很好的支持可擴(kuò)展的帶寬,同時也可以把你的成本控制在一個很合理的水平上,使你的股東可以接受,所以你并不一定選擇一個,但可以從這方面獲益幫助提高運(yùn)行的效率。