Zdnet 發(fā)表于:14年03月04日 15:25 [轉(zhuǎn)載] DOIT.com.cn
Hadoop軟件供應(yīng)商Cloudera去年收購了一家總部位于倫敦的新興企業(yè)Myrrix——但在此之后無論是買家還是賣家在機(jī)器學(xué)習(xí)技術(shù)方面都開始?xì)w于沉寂。不過無論如何,Myrrix公司的技術(shù)方案加上其創(chuàng)始人Sean Owen可能已經(jīng)足以值回票價(jià)。
Owen目前的正式頭銜為數(shù)據(jù)科學(xué)部門主管,目前他正專注投身于名為Oryx的開源機(jī)器學(xué)習(xí)項(xiàng)目當(dāng)中。(Oryx意思是劍羚、屬于非洲羚羊的一類分 支,Cloudera在售的產(chǎn)品中則有一款名為Impala——即黑斑羚)。Oryx的開發(fā)意圖在于幫助Hadoop用戶構(gòu)建機(jī)器學(xué)習(xí)模式并將其加以部 署,這樣我們就能夠以實(shí)時(shí)方式查詢并獲取其結(jié)果——例如將其作為垃圾郵件過濾器或者推薦引擎的組成部分。在理想狀態(tài)下,Oryx能夠在接納輸入數(shù)據(jù)流的同 時(shí)對(duì)自身進(jìn)行更新。
Owen將此稱為Hadoop傳統(tǒng)探索性分析(即利用數(shù)據(jù)尋找可資利用的模式)與運(yùn)營性分析在最佳有效點(diǎn)方面的區(qū)別。“一旦弄清了網(wǎng)站運(yùn)作的既定模式,我可能會(huì)希望利用這部分資源實(shí)現(xiàn)其它訴求,”他解釋道。“……我們應(yīng)該在Hadoop當(dāng)中建立一系列規(guī)模化模式,同時(shí)也對(duì)這些模式進(jìn)行規(guī);瘜(shí)施。”
作為Hadoop當(dāng)中實(shí)現(xiàn)機(jī)器學(xué)習(xí)模式創(chuàng)建的傳統(tǒng)途徑,Apache Mahout“已經(jīng)走到了發(fā)展道路的盡頭,”Owen指出。它還停留在第一代MapReduce所采用的純批量處理時(shí)代,而且要求用戶承擔(dān)起大量工作以保 證工作系統(tǒng)能夠落實(shí)到位。“Myrrix(屬于Mahout的重新編寫成果)實(shí)現(xiàn)了我長久以來對(duì)Mahout的種種期望,”他表示,并補(bǔ)充稱如果 Mahout真的運(yùn)作良好、那么Cloudera可能根本不會(huì)決定收購Myrrix。Oryx項(xiàng)目當(dāng)中約有九成代碼取向Myrrix,當(dāng)然其中也包含一部 分在被Cloudera收購后才添加進(jìn)去的代碼。
開放而且簡便的推薦引擎
比起構(gòu)建一套體積龐大的機(jī)器學(xué)習(xí)算法庫,Owen將精力主要放在了四大要素身上——回歸、分類、聚類與協(xié)同過濾(又名推薦)。Owen表示最后一項(xiàng) 也是目前人氣最高的設(shè)計(jì)特性,而且他也與Cloudera的多位客戶展開合作、希望利用Oryx實(shí)現(xiàn)推薦系統(tǒng)。事實(shí)上,約有80%的Oryx用戶都希望借 此建立自己的推薦引擎。
將Oryx作為創(chuàng)建推薦系統(tǒng)的標(biāo)準(zhǔn)化工具為該項(xiàng)目帶來了極高人氣。當(dāng)然,在Netflix、Amazon以及幾乎其它任何一個(gè)知名網(wǎng)站上,推薦系統(tǒng)都屬于標(biāo)準(zhǔn)配置——不過目前標(biāo)準(zhǔn)類型的數(shù)量少得驚人,而開源工具的意義就在于彌合這種欠缺。
目前的狀況還稱不上是什么競賽,但確實(shí)已經(jīng)有多方參與到標(biāo)準(zhǔn)推薦機(jī)制的開發(fā)工作中來。舉例來說,云計(jì)算新興企業(yè)Mortar Data目前正在尋求合作伙伴、希望通過十五家企業(yè)聯(lián)手(免費(fèi))在多位知名數(shù)據(jù)科學(xué)家的幫助下建立起定制化推薦引擎。該公司的這一項(xiàng)目于去年正式啟動(dòng),他 們計(jì)劃借此找到足以改進(jìn)其開源推薦框架的最佳實(shí)踐方案。而Expect Labs等其它企業(yè)雖然沒有選擇開源道路,但也同樣在嘗試通過人工智能API實(shí)現(xiàn)自動(dòng)推薦效果。
還只是個(gè)項(xiàng)目而非產(chǎn)品
Owen認(rèn)為Cloudera的所有客戶(基本上都屬于Hadoop用戶)都希望能夠最終獲得運(yùn)營性機(jī)器學(xué)習(xí)方案——而非僅僅滿足于推薦引擎——Oryx則很可能成為幫助他們實(shí)現(xiàn)愿望的關(guān)鍵性工具。不過他同時(shí)強(qiáng)調(diào)稱,“在某種程度上,Oryx仍然屬于實(shí)驗(yàn)性項(xiàng)目。”
舉例來說,目前Owen正將大量時(shí)間投入到Apache Spark的代碼貢獻(xiàn)工作當(dāng)中,因?yàn)樗蛩阃ㄟ^重新編寫Oryx使Spark成為一套足以取代MapReduce的首選處理框架。“從機(jī)器學(xué)習(xí)的角度來 看,Spark擁有大量極具吸引力的特性,”他表示。“……我更愿意把自己的主要精力放在這里。”
他的決定其實(shí)代表了很多技術(shù)人員的心聲。正如我們之前所說,Spark正在逐步成為下一代大數(shù)據(jù)應(yīng)用程序當(dāng)中的代表性方案,而包括Cloudera 以及Hortonworks在內(nèi)的多家企業(yè)正積極將其打造為代表Hadoop未來的重要解決方案。Cloudera公司CEO Tom Reilly將聯(lián)同其它大數(shù)據(jù)企業(yè)CEO、數(shù)據(jù)科學(xué)家以及CIO共同參加今年三月的結(jié)構(gòu)數(shù)據(jù)大會(huì),探討Hadoop平臺(tái)的下一步發(fā)展方向以及Spark在 其中扮演的角色、外加足以轉(zhuǎn)變業(yè)務(wù)及社交模式的機(jī)器學(xué)習(xí)實(shí)際應(yīng)用。
不過雖然作出這么多承諾,Owen卻并不認(rèn)為Oryx能在短時(shí)間之內(nèi)在Cloudera的Hadoop改造版或者相關(guān)產(chǎn)品當(dāng)中發(fā)揮實(shí)際作用。“客戶 需要指導(dǎo)、服務(wù)以及培訓(xùn),而這些需求將以軟件形式予以交付,”他表示。不過就目前來看:“這些距離真正實(shí)現(xiàn)還有很長的路要走。”
“現(xiàn)在要讓龐大的Hadoop消費(fèi)市場接受數(shù)據(jù)科學(xué)都還為時(shí)過早,”他解釋道,“更不用說運(yùn)營性實(shí)時(shí)機(jī)器學(xué)習(xí)方案了。”
公司簡介 | 媒體優(yōu)勢 | 廣告服務(wù) | 客戶寄語 | DOIT歷程 | 誠聘英才 | 聯(lián)系我們 | 會(huì)員注冊 | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.