朱金生提到雅虎的使命有三點:首先是怎么能夠讓檢查郵件、共享文件信息、照片或者是郵件等,怎么能夠讓大家的活動變得越來越有趣。第二,這些日常的習慣怎么能夠從基于網(wǎng)站轉(zhuǎn)換到基于移動設備。所以在雅虎上我們認為自己是全面的移動技術(shù)的供應商。另外,除了雅虎提供的資產(chǎn)還有內(nèi)容,我們?nèi)绾螢榭蛻籼峁└玫姆?,而且找到合適的方式提高用戶的體驗。第三,雅虎廣告業(yè)。雅虎怎么能提供計算廣告和數(shù)碼的合作伙伴,雅虎怎么能更好地服務。這一點是非常重要的。Hadoop是雅虎的核心所在,所以你每在門戶上點擊一下都會通過Hadoop知道,Hadoop的云端部署也是全球最大的。他想強調(diào)了雅虎在Hadoop社區(qū)的定位,完全開放地擁抱這個社區(qū),同時支持Hadoop的工作,除了站之外還包括核心。另外,雅虎也會最好地支持整個的社區(qū),更好地利用高性能計算。

就云端而言雅虎每個月有10億訪問量,7億的常規(guī)的用戶,但一定要需要建立一個架構(gòu),這個架構(gòu)處理數(shù)據(jù)一定要效率高,包括了線下的以及線上的搜索,這個規(guī)模是巨大的。怎么把這個核心拓展,這也是和計算相關(guān)的問題,雅虎也看到的確是存在問題,但雅虎也會提供解決方案,這樣的解決方案是我們可以遇到的,這樣的問題我們每天都會遇到。最后是怎么能找到一個最好的社區(qū)比如說我們不僅僅為Hadoop做貢獻,同時也有繼續(xù)在未來努力做進一步貢獻的項目。所以完全歡迎開源社區(qū),同時Hadoop會繼續(xù)作出承諾,而且在未來看到會有更多的可能性。

所以這些是比較有趣的數(shù)字,現(xiàn)在雅虎有42000個節(jié)點,在全球生產(chǎn)的最大的服務器就是Hadoop的部署。另外,我們也要推出一些新的版本看問題存在于哪兒,同時來增加數(shù)據(jù)的價值。在研究里面有各方面的創(chuàng)新,在各個階段集群中都會有一些研究,所以這個工作流是這樣的,開發(fā)者先進行研究之后進行數(shù)據(jù)分析找到一個模型,最后會做口袋測試之后進行完全的推出,這是整個的流程,現(xiàn)在我們的集群大概還是有4萬多個節(jié)點,接下來還希望再增加一萬個節(jié)點。這些都是用戶的數(shù)字每天有300多個增加,基本上是1000萬個jobs/h。所以大家在互聯(lián)網(wǎng)行業(yè)對此都比較熟悉,Hadoop能做什么。雅虎用Hadoop做搜索和行為分析。Hadoop在雅虎中是無處不在的,這是由于搜索的,雅虎有很多的E-mail用戶,Hadoop可以幫助雅虎更好地使用避免網(wǎng)絡釣魚和垃圾郵件。

雅虎怎么能提供更有效而且更個性化的體驗,不僅僅是內(nèi)容也包括了廣告無論是個人還是社會客戶的體驗來說都是非常相關(guān)的,比如說電視、網(wǎng)站或者說是平板電腦或者是在手機上都是如此。

這更多是關(guān)于Hadoop未來架構(gòu)的介紹了,有怎樣潛在的工作負載。今天談到的是HPC,朱金生用案例來比較一下Hadoop計算的差異。我們現(xiàn)在有這樣的趨勢,這樣的趨勢都知道存在海量的數(shù)據(jù),而且數(shù)據(jù)量在不斷地增加。所以,數(shù)據(jù)基本上是每18個月就以成倍的速度增加,我們怎么處理這些數(shù)據(jù)呢?尤其是很多的數(shù)據(jù)是通過各個設備來搜集起來的。所以Hadoop是有非常好的生態(tài)系統(tǒng)的,因為有很多的企業(yè)或者是公司都對Hadoop開始逐漸地產(chǎn)生了興趣。所以說,現(xiàn)在是非常好的生態(tài)環(huán)境。從雅虎的定位角度來說,我們也是希望能夠作出貢獻,而且我們也希望能夠投入之后有回報,所以這是一個互惠的投入和產(chǎn)出。另外我們也希望整個行業(yè)也是從中獲益,雅虎也可以從中獲益。

另外關(guān)于和線下批量的工作流或者是工作負荷相比而言,我們也看到越來越多的數(shù)學或者是戰(zhàn)略性的工作流和負荷越來越多了,因此我們可以做更為精確、更為數(shù)據(jù)分析型的用戶行為的分析,所以我也看到了在未來,會看到越來越多的計算密集型的負荷會出現(xiàn)。HPC的角度也是如此的,他們也完全擁抱在Hadoop的高性能計算。所以有的時候會存在困惑,采用拓展還是另外一種方式,所以這也是很多企業(yè)目前在面臨的問題,不管是基于網(wǎng)絡的企業(yè)還是說基于普通的企業(yè)都是如此。

對雅虎來說為了能夠更好地找到相關(guān)性強的而且是個性化的客戶體驗的話,我們都知道數(shù)據(jù)是要經(jīng)過周期的,所以怎么能夠利用這些數(shù)據(jù)來幫助客戶找到他們 想要的,這個變得越來越復雜,因為周邊的情況變得越來越復雜,我們看到有很多的、實時的流、納入到整個的行業(yè)和架構(gòu)中,實時的因素越來越強。

朱金生介紹三個思維范式的轉(zhuǎn)換,第一是關(guān)于技術(shù)方面的。第二是關(guān)于經(jīng)濟性和成本的,第三是關(guān)于行為上的范式的轉(zhuǎn)變。在未來處理器的變化越來越快。新 的業(yè)務模式成本也需要考慮,比如說獲取數(shù)據(jù)的成本在未來是希望能夠把它減少為0?,F(xiàn)在的數(shù)據(jù)越來越多了,成本怎么能降下去呢?如果有比較好的業(yè)務模式,數(shù) 據(jù)的獲取基本上是可以減少為0的。第三,用戶的傾向是愿意分享數(shù)據(jù),他們自己的數(shù)據(jù),把他們的數(shù)據(jù)從自己的PC、自己的手機推送到網(wǎng)絡。同時,他們也希望 能夠在任何時候都能夠訪問自己個人的數(shù)據(jù),所以這點變得越來越復雜,不單單對雅虎對整個行業(yè)來說都是如此。

這意味著什么?對我來說是三件事,首先從架構(gòu)的角度來說。對計算會產(chǎn)生一定的影響,對數(shù)據(jù)也會產(chǎn)生一定的影響,對滯后率也會產(chǎn)生影響。從計算的角度 上可以做四件事,如果是一個程序員有關(guān)鍵資源UI,在一個特定的情況下來運行自己的UI,所以說有一些東西在訪問的時候是排他性的,但對大多數(shù)人來說,有 HR的資源,也許是在節(jié)點,這就要看我們談論的是什么樣的范式了。所以有這樣的能力讓怎么能夠?qū)﹃P(guān)鍵的資源來說保護事實上也是非常重要的。比如說你不想做 UI的接口。另外,現(xiàn)在有越來越多的能力來處理更大的數(shù)據(jù)集。在所有的節(jié)點上即便是在同樣的節(jié)點上,也可以看到CPU也是以同樣的方式來運行。當然了,你 也可以做安排,也可以工作負荷的平衡。另外還有批處理?,F(xiàn)在來說怎么做批的處理呢?即便是在單個節(jié)點上或者是跨節(jié)點上CPU的利用率相對而言還是比較低 的。所以所有的額外的帶寬意味著什么?也許我們可以做其他的工作可以預測用戶下一步想要什么之后來使用。

接下來看數(shù)據(jù),數(shù)據(jù)是比較有趣的它會以周期的形式來運行,首先是數(shù)據(jù)搜集和采集之后,如果是原始數(shù)據(jù)的話可能要對它進行處理,之后再計算。之后可以 減少數(shù)據(jù)之后再集合這些數(shù)據(jù)。有的時候可以非常容易地來進行模擬,當然了有的時候有不同版本的數(shù)據(jù),尤其是在計算完之后有不同版本的數(shù)據(jù),這些都是和數(shù)據(jù) 相關(guān)的。

最后一塊是latency,它可以用最快的速度來訪問數(shù)據(jù),所以地點是非常重要的,你也希望不管數(shù)據(jù)在哪兒都可以做計算。另外不同的階段Latency也是非常重要的,你在部署的時候也是希望有戰(zhàn)略性的,這樣能夠得到最大的效果。所以這基本上是和分布相關(guān)的。

最后企業(yè)也許有不同的數(shù)據(jù)資源,你希望能夠利用這些數(shù)據(jù)做交易,同時在交易中保證它的完整性,這一點也變得非常地重要。這些是我們新的教學主張了。和數(shù)據(jù)密集型的工作負荷相比,可以看到越來越多的負荷處理變得越來越計算密集型了。

HPC有超性能計算,有幾個NPI相關(guān)的workload,也許數(shù)據(jù)并不是很多,但數(shù)據(jù)之間的計算是非常密集的。我們之間的互動越多結(jié)果就越好,所 以這基本上是對整個的計算的工作負荷來做計算。在HPC這邊會用NPI。所以Hadoop這方面是很相似的。那在Hadoop你可以用高級別的語言,數(shù)據(jù) 密集型等等。這些都是HPC的工作量和Hadoop的工作量的基本的區(qū)別。

看一下數(shù)據(jù), HPC在他們可以處理的合法數(shù)據(jù),可以數(shù)據(jù)的類別也會有區(qū)別,HPC部分特別是對企業(yè)客戶、結(jié)構(gòu)性數(shù)據(jù)、關(guān)系的數(shù)據(jù)庫Hadoop有很多都可以用,所以這 是一個非結(jié)構(gòu)性的。在架構(gòu)這方面HPC和Hadoop是很近似的,節(jié)點之間有很多的交互。這是有效率運行的很重要的一點。而在Hadoop方面是沒有這個 需要的。

如果建立一個模型可以慢慢地建,可以把它們用在一些小的數(shù)據(jù)庫上,所以這是一個很互動性的。那么Hadoop是不一樣的,它是時間很長的而且需要消 耗很長的東西,所以它能夠極大地補充HPC中的很多的功能。HPC是由企業(yè)來推動的,也是由科學來推動的,特別是企業(yè)。所以對華爾街來說經(jīng)常用到HPC的 集群來進行金融建模。我早上來到以后看到?jīng)]有進展可能就需要再做一次工作,它能夠解決這樣的問題。這是Hadoop目前做的。作為一個行業(yè)和社區(qū),我們確 實也在很多的地方用到了HA。當然如果你是一個企業(yè)就需要服務和集群需要進行升級和打安全補丁。因此我們有很多代碼的要求。Hadoop這方面確實可以做 很多的工作。但我確實認為有兩個不同的使用架構(gòu)和使用的情境,我確實看到HPC和Hadoop可以彼此學習,而且我確實認為這兩個是彼此重疊的,未來會有 很多共同運營的機會。

HPC能夠幫助減少工作量,而且也能夠訪問大云中的很多數(shù)據(jù),而且還可以有GPGPU的支持,Hadoop也是如此,可以加入fine screen的安排。HPC可以跟Hadoop結(jié)合,而且可以增加HGPGPU的支持。

在HPC的工作量方面朱金生認為這里有三個重要的趨勢,就是在數(shù)據(jù)類別,我們在這里談的是什么。這里的L顯示出采用云計算的可適用性方面使得我們越 來越尷尬,一開始我們有這樣的交易,這并不是一個數(shù)據(jù)平行化的很好的情況。在下面包括基因的匹配還有一些應用,特別是在PCA的領域里,這些都有很多的平 行數(shù)據(jù)可以進行,可以分別在不同的地方,最后再來取,這可以稱作是一個很高程度的數(shù)據(jù)的平行性。在右側(cè)Hadoop可能不會發(fā)揮作用,但如果看看其他的方 面就可以知道了可以運行Hadoop,操作HPC的一些工作,在這種修改之后。

放在一起可以分析HPC和Hadoop之間的區(qū)別。我們談到了三個重要的類別就是數(shù)據(jù),特別是在數(shù)據(jù)采購這方面,對互聯(lián)網(wǎng)企業(yè)來說特別市對一些企業(yè) 的情景等等,都會有很多的匹配工作需要來分析一下金融模型。在明天開盤之前需要把這些做好,那么潛在性談的是多少的用戶,是一個用戶或者是幾百萬的用戶都 在同時用,這里還可以增加一個架構(gòu)上需要考慮的問題。

但除此之外還有使用的情境,數(shù)據(jù)是有周期性的,有采集的形式和周期,其中包括了一些錯誤,我們必須要把它放在一個適當正確形式之中,可以告訴大家數(shù) 據(jù)是沒有問題的,一旦拿到了數(shù)據(jù)可以進行集群和不同組織的形式提供不同的組織和觀點,而且我們要把數(shù)據(jù)放在不同的地方,這樣才可以用到,比如說可以看到數(shù) 據(jù)的呈現(xiàn),還需要環(huán)境的呈現(xiàn),比如說實時的環(huán)境和流的環(huán)境,或者是實時的處理是比較好的一種方法。如果我們有全球的用戶在各個地方都有可能又要考慮到數(shù)據(jù) 的分布,如果說你做的是電子商務交易的完好性是沒有問題的,我們要確保這其中是沒有問題可以得到很好的執(zhí)行。一旦有商業(yè)執(zhí)行的話,這是非常重要的。

分享到

huanghui

相關(guān)推薦