IBM近日推出了一款基于Apache Spark的新型z/OS平臺,旨在幫助企業(yè)使用IBM大型主機更簡單、快捷訪問和分析數(shù)據(jù),此舉對數(shù)據(jù)科學家和開發(fā)人員系統(tǒng)豐富地分析數(shù)據(jù)集也大有裨益。這款z/OS平臺將支持其在z/OS主機操作系統(tǒng)上實現(xiàn)本地運行,幫助數(shù)據(jù)科學家打通分析庫和底層文件系統(tǒng)之間的聯(lián)系,無需提取、轉(zhuǎn)換和加載(ETL)即可對數(shù)據(jù)實現(xiàn)就地分析。
現(xiàn)如今,IBM大型主機被全球各大銀行、保險公司、零售商和運輸公司廣泛用于關(guān)鍵數(shù)據(jù)處理和交易。它擁有業(yè)界最快的商用微處理器,以及內(nèi)置的交易分析功能,2毫秒內(nèi)即可為某項交易的預測模型評分。目前,企業(yè)可以利用這些功能,在無需從主機中下載數(shù)據(jù)(without moving data off the mainframe)的條件下通過Spark來進行高級內(nèi)存中分析,既節(jié)省時間和成本,又降低風險。
IBM專注于新興互聯(lián)網(wǎng)技術(shù)的院士Rod Smith表示,“各種規(guī)模的企業(yè)在向?qū)崟r數(shù)字化轉(zhuǎn)型時,都需要對自己所有的數(shù)據(jù)了解清楚,這個過程不應花費過多的時間,也不應有提取、轉(zhuǎn)換和加載(ETL)的風險。現(xiàn)在我們實現(xiàn)了在包括大型主機在內(nèi)的IBM平臺上本地(natively)運行Apache Spark,客戶可以并行執(zhí)行處理關(guān)鍵數(shù)據(jù)的交易處理系統(tǒng)和分析系統(tǒng),同時從其他數(shù)據(jù)源獲取關(guān)聯(lián)洞察,幫助他們與客戶進行實時互動,繼而產(chǎn)生效益?!?/p>
基于Apache Spark推出的IBM z/OS平臺具備Apache Spark core、Spark SQL、Spark Streaming、Machine Learning Library (MLlib)和Graphx等開源功能,可提供業(yè)內(nèi)唯一的主機常駐Spark數(shù)據(jù)提取解決方案。新平臺主要特點:
1.簡化開發(fā)——開發(fā)人員和數(shù)據(jù)科學家可利用他們已有的Scala、Python、R和SQL等編程經(jīng)驗來更快實現(xiàn)可用洞察的價值。
2.簡化數(shù)據(jù)訪問——經(jīng)過優(yōu)化的數(shù)據(jù)抽象化服務消除了復雜性,通過Apache Spark API使用熟悉的工具對IMS、VSAM、DB2 z/OS、PDSE或SMF等傳統(tǒng)格式實現(xiàn)企業(yè)數(shù)據(jù)的無縫訪問。
3.就地數(shù)據(jù)分析(In-place data analytics)——Apache Spark使用內(nèi)存計算來處理數(shù)據(jù),可以快速產(chǎn)生結(jié)果。
4.開源功能——新平臺提供了一個應用于Apache Spark、專門針對大數(shù)據(jù)設計的開源內(nèi)存計算引擎。
IBM也在和DataFactZ、Rocket Software和Zementis這三家公司進行合作,通過IBM z/OS平臺為Apache Spark開發(fā)定制解決方案:
1.DataFactZ是IBM新的合作伙伴,雙方正在合作開發(fā)基于Spark SQL和MLlib的Spark分析產(chǎn)品,以用于在大型機上處理的數(shù)據(jù)和交易。
2.Rocket Software已經(jīng)成為IBM的長期合作伙伴,兩家公司在z/OS Apache Spark領(lǐng)域也已展開合作。
3.Zementis正在開發(fā)支持Apache Spark的基于多個標準的執(zhí)行引擎。作為一款新的z/OS交易中預測分析(in-transaction predictive analytics)解決方案,它允許用戶在處理交易時部署和執(zhí)行高級預測模型,幫助用戶在影響最大的時候?qū)崟r地預測終端用戶需求、計算機風險或偵測欺詐。
基于Apache Spark推出的全新z/OS平臺以及合作伙伴相關(guān)解決方案,可以讓那些從不同來源采集數(shù)據(jù)的數(shù)據(jù)科學家和數(shù)據(jù)管理員用自己喜歡的格式和工具來收集和分析數(shù)據(jù)。
IBM去年發(fā)布了一項針對Spark的承諾——將投入3500名IBM研究和開發(fā)人員參與與Spark相關(guān)的項目。為了推進支持大型主機分析的開源技術(shù),大型主機還組成了一個新的GitHub組織以便開發(fā)人員協(xié)作建立針對Spark的z/OS工具。比如,Project Jupyter和任一NoSQL數(shù)據(jù)庫的組合都能提供靈活、可擴展的數(shù)據(jù)處理和分析解決方案。
這一方法可幫助件開發(fā)人員選擇他們的工具和語言,提供能夠在不同數(shù)據(jù)環(huán)境中監(jiān)控分析結(jié)果的新型視覺輔助工具,開發(fā)出新的數(shù)據(jù)處理技術(shù)和技巧,從而讓新的開源工具更易使用。