Oracle Exadata數(shù)據(jù)庫(kù)云服務(wù)器硬件架構(gòu)

除了Oracle大數(shù)據(jù)機(jī),按照高低配置,Oracle Exadata數(shù)據(jù)庫(kù)云服務(wù)器分別采用英特爾六核或八核處理器,并整合了Oracle 11g R2數(shù)據(jù)庫(kù)及其它軟件系統(tǒng);而Oracle Exalytics商務(wù)智能云服務(wù)器配置了40個(gè)英特爾x86處理器內(nèi)核,1TB內(nèi)存和TimesTen實(shí)時(shí)分析軟件。

事實(shí)上,Oracle一直是一家關(guān)鍵的數(shù)據(jù)庫(kù)軟件供應(yīng)商,在收購(gòu)了SUN之后,SUN的RISC架構(gòu)處理器SPARC也使Oracle在高端服務(wù)器市場(chǎng)占有一席之地,但對(duì)于最新推出的數(shù)據(jù)庫(kù)一體機(jī),Oracle無(wú)一例外地選擇了英特爾x86平臺(tái),除了性價(jià)比的考慮,背后的原因當(dāng)然與英特爾x86性能不斷提升有關(guān),在處理諸如數(shù)據(jù)庫(kù)、OLTP等關(guān)鍵應(yīng)用業(yè)務(wù)中,英特爾至強(qiáng)處理器的性能已經(jīng)能夠勝任,在這些關(guān)鍵領(lǐng)域中x86服務(wù)器已開始博得更多原本采用RISC處理器的用戶的青睞。此外,近幾年x86市場(chǎng)不斷壯大,并成為業(yè)界的開放標(biāo)準(zhǔn),在用戶接受度上,x86無(wú)疑更有優(yōu)勢(shì),對(duì)供應(yīng)商而言,要想讓其新系統(tǒng)迅速獲得用戶認(rèn)可,基于x86平臺(tái)無(wú)疑是最好的選擇。

這一點(diǎn)在惠普AppSystem for Hadoop系統(tǒng)上同樣得到體現(xiàn),AppSystem for Hadoop是惠普面向大數(shù)據(jù)分析領(lǐng)域的最新集成解決方案,目前支持主流的三大Hadoop版本:Cloudera、Hortonworks、MapR,方便用戶根據(jù)自己的需要來(lái)部署相應(yīng)的版本。

關(guān)于Hadoop,本文在后半部分將會(huì)有更詳盡的介紹,這里就不做詳述。單從硬件角度來(lái)說(shuō),Hadoop的誕生與x86 系統(tǒng)就有著非常密切的關(guān)系,它的出現(xiàn)使得在基于x86這種要求較低的硬件系統(tǒng)上運(yùn)行復(fù)雜的分布式集群運(yùn)算成為可能,從這種意義上來(lái)說(shuō),Hadoop本身就是為x86系統(tǒng)而量身定制的平臺(tái)。

在處理器方面,這些系統(tǒng)無(wú)一例外的,全部都基于英特爾至強(qiáng)平臺(tái)?;萜誂ppSystem for Hadoop采用最新至強(qiáng)E5-2600處理器平臺(tái),以獲得最佳的性能表現(xiàn)。此外,在AppSystem for HANA的集成系統(tǒng)中,也是全面采用英特爾至強(qiáng)E7處理器平臺(tái)(ProLiant DL580 G7)來(lái)提供最高的內(nèi)存計(jì)算性能。

以AppSystem for Hadoop的Cloudera部署版本為例,AppSystem for Hadoop的Cloudera部署版本的計(jì)算節(jié)點(diǎn)包括HP ProLiant 360p Gen8與380p Gen8兩款服務(wù)器,分別配備了E5-2600處理器。

AppSystem for Hadoop的Cloudera部署版本單機(jī)柜配置

如圖,一個(gè)單機(jī)柜的AppSystem for Hadoop的Cloudera部署中,標(biāo)配采用2臺(tái)DL360p Gen8作為NameNode,1臺(tái)DL360p Gen8作為Management Node,18臺(tái)DL380p Gen8為WorkNode。

在Terasort基準(zhǔn)測(cè)試中,18節(jié)點(diǎn)的DL380p Gen8的10TB數(shù)據(jù)排序用時(shí)為5128秒(約1個(gè)半小時(shí)),合1.99GB/s,對(duì)于100GB數(shù)據(jù)量,排序時(shí)間為55秒,合1.82GB/s。而 16節(jié)點(diǎn)至強(qiáng)X5670服務(wù)器集群的100GB排序速度是236.3秒,合433.3MB/s,20節(jié)點(diǎn)至強(qiáng)E5650服務(wù)器集群的100GB數(shù)據(jù)排序速度為130秒,合787.7MB/s。由此可見,基于新一代至強(qiáng)E5-2600平臺(tái)的Hadoop集群的威力。

除了Oracle和惠普,還有一家廠商我們不得不提,那就是IBM,在今年4月份IBM發(fā)布了全新的專家集成系統(tǒng)(Pure Systems),其中即將在中國(guó)發(fā)布的PureData System就是針對(duì)數(shù)據(jù)庫(kù)應(yīng)用的一體化系統(tǒng)。

從計(jì)算節(jié)點(diǎn)來(lái)看,PureData System配備了IBM全新的服務(wù)器x240,x240是一款基于Intel處理器、針對(duì)虛擬化的可擴(kuò)展服務(wù)器,在配置方面,x240最多可配備兩路Intel E5-2600處理器,內(nèi)存容量最高可達(dá)768GB。

解讀英特爾大數(shù)據(jù)平臺(tái)和技術(shù)
PureFlex System x240計(jì)算節(jié)點(diǎn)

以上主流的大數(shù)據(jù)處理集成系統(tǒng)中,英特爾x86架構(gòu)正在成為一種新的標(biāo)準(zhǔn)平臺(tái),英特爾至強(qiáng)處理器這一堅(jiān)實(shí)基石也使眾多的軟硬集成解決方案如虎添翼,并得以彰顯最大的威力。另一方面,除了已經(jīng)成為傳統(tǒng)計(jì)算領(lǐng)域中的開放標(biāo)準(zhǔn),英特爾也正在大數(shù)據(jù)這股新浪潮中打造一個(gè)新的標(biāo)準(zhǔn)化硬件生態(tài)系統(tǒng)。

Hadoop標(biāo)準(zhǔn)優(yōu)化和擴(kuò)充

以上介紹了業(yè)界主流大數(shù)據(jù)一體機(jī)的硬件平臺(tái),x86平臺(tái)成為首選,在大數(shù)據(jù)處理的軟件方面則離不另一個(gè)軟件框架標(biāo)準(zhǔn),那就是分布式運(yùn)算系統(tǒng)Hadoop,它使用簡(jiǎn)單的編程模型即能支持在計(jì)算機(jī)集群中分布式處理大數(shù)據(jù)集。

完 整Hadoop的技術(shù)堆棧包括常用設(shè)施、分布式文件系統(tǒng)、分析和數(shù)據(jù)存儲(chǔ)平臺(tái),以及管理分布式處理、并行計(jì)算、工作流程和配置管理的應(yīng)用層。除了提供高可 用性之外,與傳統(tǒng)方法相比,Hadoop是一種更加經(jīng)濟(jì)高效的大型非結(jié)構(gòu)化數(shù)據(jù)集處理方法,同時(shí)提供極大的可擴(kuò)展性和速度。

Hadoop 最早來(lái)源于Google的MapReduce和文件系統(tǒng)(GFS),后由Yahoo完成絕大部分初始設(shè)計(jì)和開發(fā)。短短幾年時(shí)間,Hadoop從互聯(lián)網(wǎng)行業(yè) 開始興起,如今已經(jīng)成為重要的并行處理架構(gòu)標(biāo)準(zhǔn),并被公認(rèn)為分析存儲(chǔ)大數(shù)據(jù)的關(guān)鍵平臺(tái)。但不得不提的是,因?yàn)榛谄胀ǖ挠⑻貭杧86架構(gòu)運(yùn)行,也是促成 Hadoop快速發(fā)展并廣泛接受的重要原因。

當(dāng)然,除了處理器,存儲(chǔ)和網(wǎng)絡(luò)也是Hadoop集群性能的重要保 證。在Hadoop集群中,萬(wàn)兆位以太網(wǎng)(10GbE)帶來(lái)的帶寬增長(zhǎng)是導(dǎo)入和復(fù)制(在多臺(tái)服務(wù)器之間)大型數(shù)據(jù)集的關(guān)鍵,英特爾Ethernet 10 Gigabit融合網(wǎng)絡(luò)適配器提供了高吞吐量連接,同時(shí)英特爾SATA固態(tài)硬盤為原始存儲(chǔ)提供了高性能、高吞吐量存儲(chǔ)選擇。為提高效率,存儲(chǔ)往往需要支持 其它高級(jí)能力,如壓縮、加密、自動(dòng)數(shù)據(jù)分層、重復(fù)數(shù)據(jù)刪除、糾刪碼和自動(dòng)精簡(jiǎn)配置,現(xiàn)有的英特爾至強(qiáng)處理器都已經(jīng)支持這些功能。

眾 所周知,Hadoop是一個(gè)開源的框架,Apache在2012年1月推出了Apache Hadoop 1.0的首個(gè)完整生產(chǎn)版本。但在對(duì)開源版本Hadoop的使用過(guò)程中,企業(yè)通常需要自己去解決系統(tǒng)一致性、安裝維護(hù)以及管理監(jiān)控的問題,并且需要自己解決 和修補(bǔ)開源版本的軟件缺陷,盡管在Hadoop初期部署中具備成本的優(yōu)勢(shì),但是對(duì)后期的技術(shù)維護(hù)將提出更高的要求,并且從長(zhǎng)遠(yuǎn)的角度來(lái)看,企業(yè)付出的技術(shù) 維護(hù)成本將更加高昂。

隨著大量IT廠商的加入,Hadoop的商用版本正呈增長(zhǎng)趨勢(shì),眾多廠商都推出了自己的Hadoop版本,并集合了其他Hadoop項(xiàng)目的基本堆棧,可與數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)庫(kù)和其他數(shù)據(jù)管理產(chǎn)品集成。

針 對(duì)企業(yè)對(duì)Hadoop平臺(tái)的需要,英特爾已經(jīng)推出Hadoop發(fā)行版,英特爾提供的Hadoop發(fā)行版提供了一個(gè)穩(wěn)定高效可管理的Hadoop版本,經(jīng)過(guò) 大量的實(shí)際項(xiàng)目在線驗(yàn)證,英特爾將最佳的Hadoop實(shí)踐提供給企業(yè),包含Hadoop分布式文件系統(tǒng)HDFS、分布式數(shù)據(jù)庫(kù)HBase、分布式計(jì)算框架 MapReduce、數(shù)據(jù)倉(cāng)庫(kù)Hive、數(shù)據(jù)處理Pig、機(jī)器學(xué)習(xí)Mahout商業(yè)套件。此外,英特爾還提供全面的產(chǎn)品技術(shù)支持和顧問服務(wù),使得企業(yè)在系 統(tǒng)規(guī)劃、設(shè)計(jì)和實(shí)施運(yùn)行中能得到專業(yè)及時(shí)的專業(yè)服務(wù),為企業(yè)解除后顧之憂。

英特爾企業(yè)版Hadoop發(fā)行版堆棧

除了在性能和管理方面有了大幅提升,英特爾Hadoop發(fā)行版基于底層的大量?jī)?yōu)化算法也使應(yīng)用效率更高,而且計(jì)算存儲(chǔ)分布更均衡,通過(guò)與英特爾硬件技術(shù)相結(jié)合,全面提升數(shù)據(jù)處理平臺(tái)性能。

在Hadoop的大規(guī)模分布式架構(gòu)中,關(guān)聯(lián)系統(tǒng)并發(fā)性能往往是一大難題,英特爾Hadoop發(fā)行版提供獨(dú)有的基于瀏覽器的集群安裝和管理界面,解決開源版本管理困難的問題,同時(shí)可通過(guò)網(wǎng)頁(yè)、郵件及短信的方式發(fā)送系統(tǒng)異常告警。

除了在大數(shù)據(jù)基礎(chǔ)設(shè)施和分析處理平臺(tái)發(fā)揮作用,在數(shù)據(jù)交付和應(yīng)用層面,英特爾也不斷加強(qiáng)基于英特爾架構(gòu)的客戶端與服務(wù)器算法開發(fā),提高分析計(jì)算的性能和規(guī)模,為應(yīng)用層和可視化層提供最佳應(yīng)用展示環(huán)境,提供決策支持。

綜上,在傳統(tǒng)的印象中,英特爾是一家為數(shù)據(jù)中心提供基礎(chǔ)設(shè)施和技術(shù)的供應(yīng)商,但是隨著對(duì)Hadoop功能的優(yōu)化和擴(kuò)充,在應(yīng)用層優(yōu)化可視化環(huán)境,英特爾在大數(shù)據(jù)分析處理領(lǐng)域技術(shù)實(shí)力可謂更加全面,毫無(wú)疑問,英特爾在大數(shù)據(jù)時(shí)代將扮演更加重要的角色。

分享到

huanghui

相關(guān)推薦