阿里云總裁王文彬
ODPS能輸出什么樣的“鮮榨果汁”?
選一款榨汁機,它能否滿足我們的胃口無疑是要考量的第一因素,所以首先要看ODPS能做什么樣的數(shù)據(jù)處理。
前文說過,ODPS開放的阿里自身的數(shù)據(jù)處理能力,阿里云產品經理湯子楠介紹,阿里巴巴內部業(yè)務分析的,主要是交易數(shù)據(jù)和用戶行為數(shù)據(jù),因此,隨著阿里巴巴內部業(yè)務成長的ODPS,更擅長處理結構化的數(shù)據(jù)(如電商交易記錄),比較擅長處理半結構的數(shù)據(jù)(如網站瀏覽日志),不能處理非結構的數(shù)據(jù)(如社交文本)。
如今,阿里集團大部分數(shù)據(jù)業(yè)務已經運行于ODPS上。阿里云曾在一封公開信中形象地描述ODPS對于阿里巴巴的作用:“阿里巴巴各項數(shù)據(jù)業(yè)務都在用ODPS‘榨果汁’,比如淘寶在算你最中意哪個淘女郎,天貓在算你什么時候想吃車厘子,菜鳥在算卡車走哪條路可能會被雷劈,支付寶在算你何時會從屌絲變成高富帥。”
事實上,包括阿里內部的阿里小貸、數(shù)據(jù)魔方、支付寶、淘寶指數(shù),外部華大基因的基因測序,都已經能夠借助ODPS實現(xiàn)低成本的海量數(shù)據(jù)處理。
阿里云產品經理湯子楠
換言之,ODPS的適用場景廣泛,不僅僅限于交互式BI分析。不過,ODPS目前只對外開放商用了SQL編程接口,主要用于數(shù)據(jù)倉庫和日志分析。更多接口例如Mapreduce、Graph等等,尚未公測。王文彬表示,后續(xù)還將基于用戶需求開放UDF和Map Reduce,支持用戶編程的離線計算;ODPS準實時,支持交互式BI分析;ODPS流處理,支持實時計算等。
在數(shù)據(jù)處理的規(guī)模上,阿里云稱,單集群ODPS可在6小時內處理100PB數(shù)據(jù),相當于1億部高清電影。以服務于超過36萬人的阿里小貸為例,每天要處理30PB數(shù)據(jù),運算100多個數(shù)據(jù)模型,阿里小貸以每筆貸款3毛錢的成本實現(xiàn)了3分鐘申請、1秒放款、0人工干預。
同時,對于用戶關心的數(shù)據(jù)安全的問題,湯子楠表示,ODPS通過了CSA-STAR和ISO27001兩項國際云安全認證,在各個環(huán)節(jié)都采納了國際上最先進的數(shù)據(jù)安全管理標準,如用多副本、沙箱技術、https加密及多維權限、多用戶協(xié)作機制來保證數(shù)據(jù)不丟失、不干擾、不泄露、不被竊取。這就是說,在ODPS平臺上,我的“果汁”不會被別人“偷喝”。
ODPS如何榨出“鮮榨果汁”?
ODPS之所以那么牛叉,是因為它有一個牛叉的“后臺”。
類似于選擇榨汁機需要考慮超大號加料管、強勁動力的馬達、多檔速度、更大的果汁杯和果渣收集器等因素,ODPS也擁有強大的海量數(shù)據(jù)存儲、大規(guī)模數(shù)據(jù)處理、高度的彈性和海量數(shù)據(jù)吞吐能力,這得益于阿里云在2009年開始開發(fā)的基于分布式架構的飛天平臺,這個平臺現(xiàn)在已經支持單集群調度5000臺服務器,并支持集群之間的協(xié)作,這為ODPS強大的計算和存儲能力提供了基礎。
據(jù)王文彬介紹,基于飛天系統(tǒng),ODPS在存儲、任務調度、任務優(yōu)化上都有獨特的技術,實現(xiàn)了Mapreduce(以及更高級的多階段DAG)、Graph、MPI等編程模型在同一個計算集群上統(tǒng)一調度。因此,除了 IO密集型的計算,ODPS還能支持計算密集型的迭代計算,例如隨機梯度下降。
此外,ODPS通過API提供服務,包括數(shù)據(jù)上傳、下載、計算,所有API請求都是經過認證的,所有API請求都可以走https加密,能夠消除用戶的安全性顧慮。湯子楠說,ODPS團隊對于平臺的優(yōu)先級定義是數(shù)據(jù)安全性大于可用性大于規(guī)模的。事實上,一些大企業(yè)和政府客戶,如一些銀行、飛利浦、美的、中國氣象局等,都已經放心地選擇了阿里云。
對于100PB規(guī)模的來由,湯子楠解釋說,這是按照一個集群5000臺服務器、單臺服務器處理20TB的數(shù)據(jù)來算,5000*20TB=100PB。這種計算方式,似乎有些“簡單粗暴”,因為不同的大數(shù)據(jù)任務消耗的資源和處理效率往往也不同,但以統(tǒng)一的容量算,差別就只在時間了,阿里云實測是6小時完成處理。更重要的是,很少有用戶有那樣大規(guī)模的數(shù)據(jù),阿里巴巴也沒有,而且阿里云也不只有一個集群用來提供ODPS服務。據(jù)王文彬介紹,阿里云在杭州、青島、北京、香港都有自己的數(shù)據(jù)中心,并且數(shù)據(jù)中心節(jié)點是整個區(qū)域性的。
據(jù)了解,阿里云在飛天和ODPS上的持續(xù)投資已經上億,研發(fā)的過程中走了不少的彎路,最終才錘煉成現(xiàn)在穩(wěn)定、易用的5K集群和ODPS。王文彬說,并不是每個企業(yè)都能實現(xiàn)5K集群,更不是每個企業(yè)都愿意將這樣的能力開放。所以,當阿里云把ODPS開放,大數(shù)據(jù)的計算環(huán)境、技術門檻、人才瓶頸得到了大幅的降低。
哪些人能夠受益于ODPS?
在這個數(shù)據(jù)成為基礎生產要素之一的時代,ODPS將是中小企業(yè)的福音。他們往往沒有資金和技術實力搭建內部的數(shù)據(jù)處理平臺,更不能忍受這個平臺為了滿足計算和存儲的峰值需求而平時閑置。
阿里云表示,希望通過ODPS,能夠讓更多的中小企業(yè)感受和利用大數(shù)據(jù)的價值,除了產品本身外,后續(xù)還會推出一系列的服務,比如幫助用戶設計數(shù)據(jù)模型,引導用戶更合理更低成本的使用ODPS,比如對用戶進行ODPS和大數(shù)據(jù)方面的培訓,比如提供基于ODPS的可視化BI分析工具等等。這些服務在初期會以免費或低價的方式提供給用戶,最大化的降低用戶使用大數(shù)據(jù)的成本和門檻。
ODPS的價值
當然,要想真正地從ODPS獲益,用戶還是需要具備一定的數(shù)據(jù)分析技能,如掌握SQL語言,或者至少能編寫Java程序和腳本,此外還得有對數(shù)據(jù)的敏感度和對業(yè)務的洞察力。也許,未來阿里云會推出更加易用的功能,但目前情況如此。
ODPS也可能是ISV的利好。湯子楠表示,基于ODPS,阿里云希望能夠建立有一個數(shù)據(jù)生產者、消費者、加工者和服務應用供應商組成整個的生態(tài)系統(tǒng)。ODPS作為最底層的數(shù)據(jù)平臺,上面應該有各種第三方工具,這樣才能吸引各類角色來參與,形成完善的生態(tài)系統(tǒng)。
一位業(yè)內人士認為,巨頭的平臺往往只提供通用基礎服務,開發(fā)、遷移、使用和維護還是有臺階。而且傳統(tǒng)行業(yè)很多企業(yè)也缺乏上云的人才和經驗。這就需要大量第三方ISV提供面向細分領域的解決方案。所以,ODPS會給很多數(shù)據(jù)分析公司、算法公司、行業(yè)數(shù)據(jù)公司帶來很好的機會。
ODPS的優(yōu)勢何在?
作為一款云服務,ODPS具有開箱即用、安全可靠、多用戶協(xié)作和按量付費等特色,讓企業(yè)用戶完全可以不必關心數(shù)據(jù)規(guī)模增長帶來的存儲困難、運算時間延長等煩惱,直接獲得大數(shù)據(jù)處理能力。相比之下,傳統(tǒng)的大數(shù)據(jù)項目,要自建Hadoop集群,成本、技術門檻很高。
需要注意,盡管ODPS是國內首款大數(shù)據(jù)存儲和計算開放服務,但國外仍有Google的BigQuery、Amazon的Redshift和EMR等于ODPS具較為類似的產品形態(tài),比如都支持海量數(shù)據(jù)的存儲和計算,都支持SQL語法,那么ODPS的真正優(yōu)勢何在?
談到這一點,除了底層技術的差異性,我們還需要了解阿里云構建云平臺的初衷,阿里云的整個產品線,以及ODPS的位置。
在阿里云看來,私有云是一個偽命題,從以前的王堅到現(xiàn)在的王文彬,都強調“私有云”只是將運行在一個虛擬化環(huán)境中的傳統(tǒng)軟硬件堆棧,交付的仍是硬件與軟件許可。王文彬說,云計算應當是一個改造現(xiàn)有IT體系的公共服務,是互聯(lián)網時代的基礎設施,云計算的資源必須共享的;而云服務沉淀的數(shù)據(jù)自然而然地帶來大數(shù)據(jù)的價值,大數(shù)據(jù)的處理也應當是平民化的服務。
阿里云體系架構全景圖
王文彬介紹,ODPS只是阿里云產品線的一部分。除了ODPS之外,阿里云還有SLS、OTS等一系列大數(shù)據(jù)服務,組成一個綜合的大數(shù)據(jù)解決方案,滿足用戶在大數(shù)據(jù)領域的多項需求。當然,更上層的行業(yè)解決方案,就是前面提到的ISV的機會了。這些解決方案的成熟,也將會反哺阿里云平臺。
王文彬還透露,阿里云寫了超過250萬的代碼,直接或者間接服務將近一百萬的客戶,支持雙十一1.88億的訂單沒有落單,這樣的規(guī)模,讓專注阿里云的ISV能夠更加有力可圖,且能夠讓阿里云提供更加成本優(yōu)勢的云服務。
ODPS的計費模式已經體現(xiàn)出成本優(yōu)勢。ODPS按照使用量付費的,存儲1GB的數(shù)據(jù),在ODPS大約是每月0.5元。當然,如果用戶還要使用第三方ISV基于ODPS開發(fā)的應用,還是要另外計費的??紤]到中國網絡基礎設施、分布式集群中的單臺機器故障概率等實際情況,阿里云人性化地承諾,不論阿里云自身還是客戶的原因,提交失敗的作業(yè)都不收費,只對最后一次成功提交的作業(yè)收費。所以說即便不算前述優(yōu)惠,ODPS仍然很實惠。
簡單地以存儲和計算來計費,而不考慮分析負載復雜度,也許并不是那么嚴謹,但這更易于計算更易于形成口碑,更符合互聯(lián)網思維——這一名詞現(xiàn)在幾乎可以等同于“最高指示”,譬如Pivotal公司大中國區(qū)總經理劉偉光近日宣稱,要用互聯(lián)網思維打造企業(yè)級基礎平臺。阿里云不說互聯(lián)網思維,但互聯(lián)網思維深入其骨髓,所以,相對一些看起來高大上的大數(shù)據(jù)產品,ODPS的推廣將更易于實現(xiàn)讓大數(shù)據(jù)平民化的效果。
阿里云目前的用戶,即使只有很小一部分轉化為ODPS用戶,也仍是可觀的,滾雪球之后的規(guī)模效應就會更加不俗。所以,ODPS在未來的市場競爭中會很牛叉,至少在交易型的結構化數(shù)據(jù),讓用戶無須懂得算法、建?;蛘叻治觯琌DPS大大降低了使用數(shù)據(jù)的門檻,在數(shù)據(jù)已經成為基本生產要素的今天,將會有很大的用武之地。
云服務商喜歡說云計算讓IT變得和水電一樣便利,但技術含量很高的IT服務并不是直接為自然資源搭建一個管道就了事,能把大數(shù)據(jù)變成親民的“鮮榨果汁”,阿里云還真是領先一步。
“如果大家也想‘榨果汁’,歡迎來試。ODPS的水龍頭就裝在阿里云官網aliyun.com上,一個月內免費。”阿里云說。