噜噜噜综合,又色又爽又高潮免费观看,综合无码一区二区三区四区五区,中文字幕无码人妻aaa片,四虎成人精品永久网站

Cloudera正通過Oryx為Hadoop重建機(jī)器學(xué)習(xí)機(jī)制

Zdnet 發(fā)表于:14年03月04日 15:25 [轉(zhuǎn)載] DOIT.com.cn

  • 分享:
[導(dǎo)讀]Hadoop軟件供應(yīng)商Cloudera去年收購了一家總部位于倫敦的新興企業(yè)Myrrix——但在此之后無論是買家還是賣家在機(jī)器學(xué)習(xí)技術(shù)方面都開始?xì)w于沉寂。不過無論如何,Myrrix公司的技術(shù)方案加上其創(chuàng)始人Sean Owen可能已經(jīng)足以值回票價(jià)。

Hadoop軟件供應(yīng)商Cloudera去年收購了一家總部位于倫敦的新興企業(yè)Myrrix——但在此之后無論是買家還是賣家在機(jī)器學(xué)習(xí)技術(shù)方面都開始?xì)w于沉寂。不過無論如何,Myrrix公司的技術(shù)方案加上其創(chuàng)始人Sean Owen可能已經(jīng)足以值回票價(jià)。

Owen目前的正式頭銜為數(shù)據(jù)科學(xué)部門主管,目前他正專注投身于名為Oryx的開源機(jī)器學(xué)習(xí)項(xiàng)目當(dāng)中。(Oryx意思是劍羚、屬于非洲羚羊的一類分 支,Cloudera在售的產(chǎn)品中則有一款名為Impala——即黑斑羚)。Oryx的開發(fā)意圖在于幫助Hadoop用戶構(gòu)建機(jī)器學(xué)習(xí)模式并將其加以部 署,這樣我們就能夠以實(shí)時(shí)方式查詢并獲取其結(jié)果——例如將其作為垃圾郵件過濾器或者推薦引擎的組成部分。在理想狀態(tài)下,Oryx能夠在接納輸入數(shù)據(jù)流的同 時(shí)對(duì)自身進(jìn)行更新。

Owen將此稱為Hadoop傳統(tǒng)探索性分析(即利用數(shù)據(jù)尋找可資利用的模式)與運(yùn)營性分析在最佳有效點(diǎn)方面的區(qū)別。“一旦弄清了網(wǎng)站運(yùn)作的既定模式,我可能會(huì)希望利用這部分資源實(shí)現(xiàn)其它訴求,”他解釋道。“……我們應(yīng)該在Hadoop當(dāng)中建立一系列規(guī)模化模式,同時(shí)也對(duì)這些模式進(jìn)行規(guī);瘜(shí)施。”

作為Hadoop當(dāng)中實(shí)現(xiàn)機(jī)器學(xué)習(xí)模式創(chuàng)建的傳統(tǒng)途徑,Apache Mahout“已經(jīng)走到了發(fā)展道路的盡頭,”Owen指出。它還停留在第一代MapReduce所采用的純批量處理時(shí)代,而且要求用戶承擔(dān)起大量工作以保 證工作系統(tǒng)能夠落實(shí)到位。“Myrrix(屬于Mahout的重新編寫成果)實(shí)現(xiàn)了我長久以來對(duì)Mahout的種種期望,”他表示,并補(bǔ)充稱如果 Mahout真的運(yùn)作良好、那么Cloudera可能根本不會(huì)決定收購Myrrix。Oryx項(xiàng)目當(dāng)中約有九成代碼取向Myrrix,當(dāng)然其中也包含一部 分在被Cloudera收購后才添加進(jìn)去的代碼。

開放而且簡便的推薦引擎

比起構(gòu)建一套體積龐大的機(jī)器學(xué)習(xí)算法庫,Owen將精力主要放在了四大要素身上——回歸、分類、聚類與協(xié)同過濾(又名推薦)。Owen表示最后一項(xiàng) 也是目前人氣最高的設(shè)計(jì)特性,而且他也與Cloudera的多位客戶展開合作、希望利用Oryx實(shí)現(xiàn)推薦系統(tǒng)。事實(shí)上,約有80%的Oryx用戶都希望借 此建立自己的推薦引擎。

將Oryx作為創(chuàng)建推薦系統(tǒng)的標(biāo)準(zhǔn)化工具為該項(xiàng)目帶來了極高人氣。當(dāng)然,在Netflix、Amazon以及幾乎其它任何一個(gè)知名網(wǎng)站上,推薦系統(tǒng)都屬于標(biāo)準(zhǔn)配置——不過目前標(biāo)準(zhǔn)類型的數(shù)量少得驚人,而開源工具的意義就在于彌合這種欠缺。

目前的狀況還稱不上是什么競賽,但確實(shí)已經(jīng)有多方參與到標(biāo)準(zhǔn)推薦機(jī)制的開發(fā)工作中來。舉例來說,云計(jì)算新興企業(yè)Mortar Data目前正在尋求合作伙伴、希望通過十五家企業(yè)聯(lián)手(免費(fèi))在多位知名數(shù)據(jù)科學(xué)家的幫助下建立起定制化推薦引擎。該公司的這一項(xiàng)目于去年正式啟動(dòng),他 們計(jì)劃借此找到足以改進(jìn)其開源推薦框架的最佳實(shí)踐方案。而Expect Labs等其它企業(yè)雖然沒有選擇開源道路,但也同樣在嘗試通過人工智能API實(shí)現(xiàn)自動(dòng)推薦效果。

還只是個(gè)項(xiàng)目而非產(chǎn)品

Owen認(rèn)為Cloudera的所有客戶(基本上都屬于Hadoop用戶)都希望能夠最終獲得運(yùn)營性機(jī)器學(xué)習(xí)方案——而非僅僅滿足于推薦引擎——Oryx則很可能成為幫助他們實(shí)現(xiàn)愿望的關(guān)鍵性工具。不過他同時(shí)強(qiáng)調(diào)稱,“在某種程度上,Oryx仍然屬于實(shí)驗(yàn)性項(xiàng)目。”

舉例來說,目前Owen正將大量時(shí)間投入到Apache Spark的代碼貢獻(xiàn)工作當(dāng)中,因?yàn)樗蛩阃ㄟ^重新編寫Oryx使Spark成為一套足以取代MapReduce的首選處理框架。“從機(jī)器學(xué)習(xí)的角度來 看,Spark擁有大量極具吸引力的特性,”他表示。“……我更愿意把自己的主要精力放在這里。”

他的決定其實(shí)代表了很多技術(shù)人員的心聲。正如我們之前所說,Spark正在逐步成為下一代大數(shù)據(jù)應(yīng)用程序當(dāng)中的代表性方案,而包括Cloudera 以及Hortonworks在內(nèi)的多家企業(yè)正積極將其打造為代表Hadoop未來的重要解決方案。Cloudera公司CEO Tom Reilly將聯(lián)同其它大數(shù)據(jù)企業(yè)CEO、數(shù)據(jù)科學(xué)家以及CIO共同參加今年三月的結(jié)構(gòu)數(shù)據(jù)大會(huì),探討Hadoop平臺(tái)的下一步發(fā)展方向以及Spark在 其中扮演的角色、外加足以轉(zhuǎn)變業(yè)務(wù)及社交模式的機(jī)器學(xué)習(xí)實(shí)際應(yīng)用。

不過雖然作出這么多承諾,Owen卻并不認(rèn)為Oryx能在短時(shí)間之內(nèi)在Cloudera的Hadoop改造版或者相關(guān)產(chǎn)品當(dāng)中發(fā)揮實(shí)際作用。“客戶 需要指導(dǎo)、服務(wù)以及培訓(xùn),而這些需求將以軟件形式予以交付,”他表示。不過就目前來看:“這些距離真正實(shí)現(xiàn)還有很長的路要走。”

“現(xiàn)在要讓龐大的Hadoop消費(fèi)市場接受數(shù)據(jù)科學(xué)都還為時(shí)過早,”他解釋道,“更不用說運(yùn)營性實(shí)時(shí)機(jī)器學(xué)習(xí)方案了。”

[責(zé)任編輯:朱朋博]
微軟繼上周四將SkyDrive更名為OneDrive之后,本周一微軟宣布將于4月1日推出商務(wù)版的OneDrive,以O(shè)neDrive為核心主打早獨(dú)立云存儲(chǔ)服務(wù),旨在拓寬用戶群體。
官方微信
weixin
精彩專題更多
存儲(chǔ)風(fēng)云榜”是由DOIT傳媒主辦的年度大型活動(dòng);仡2014年,存儲(chǔ)作為IT系統(tǒng)架構(gòu)中最基礎(chǔ)的元素,已經(jīng)成為了推動(dòng)信息產(chǎn)業(yè)發(fā)展的核心動(dòng)力,存儲(chǔ)產(chǎn)業(yè)的發(fā)展邁向成熟,數(shù)據(jù)經(jīng)濟(jì)的概念順勢而為的提出。
華為OceanStor V3系列存儲(chǔ)系統(tǒng)是面向企業(yè)級(jí)應(yīng)用的新一代統(tǒng)一存儲(chǔ)產(chǎn)品。在功能、性能、效率、可靠性和易用性上都達(dá)到業(yè)界領(lǐng)先水平,很好的滿足了大型數(shù)據(jù)庫OLTP/OLAP、文件共享、云計(jì)算等各種應(yīng)用下的數(shù)據(jù)存儲(chǔ)需求。
聯(lián)想攜ThinkServer+System+七大行業(yè)解決方案驚艷第十六屆高交會(huì)
 

公司簡介 | 媒體優(yōu)勢 | 廣告服務(wù) | 客戶寄語 | DOIT歷程 | 誠聘英才 | 聯(lián)系我們 | 會(huì)員注冊 | 訂閱中心

Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.