打上Microsoft烙印的Hadoop
Microsoft的Hadoop版本目前發(fā)展到“客戶技術(shù)預(yù)覽版”的階段。這意味著Microsoft在接受客戶群體的評價,預(yù)計正式版會在 2012年中期推出。Microsoft的Hadoop基于Windows Server平臺或Microsoft云平臺Azure之上。在將要推出的1.0版本之中,產(chǎn)品核心包括MapReduce、HDFS、以及Hadoop組件Pig和Hive。
Microsoft的目標是兼容所有的Hadoop組件。Hadoop生態(tài)系統(tǒng)中的Zookeeper、HBase、HCatalog和Mahout等組件也會被附加到Microsoft的Hadoop版本之中。
同時Microsoft推出的Hadoop還會與自身之前的商業(yè)智能分析產(chǎn)品做整合。
●Hadoop連接器將使Hadoop與SQL Server和SQL Server并行數(shù)據(jù)倉庫之間的通信變得簡單。
●Hive的ODBC驅(qū)動,允許任何Windows應(yīng)用程序訪問并對Hive數(shù)據(jù)倉庫進行查詢。
●Excel對Hive的訪問,使數(shù)據(jù)直接從Hive移動到Excel和PowerPivot。
在后端,Microsoft對Hadoop進行了其他的改善,Microsoft將整合Active Directory方便訪問控制。同時集成System Center用于管理人員管理。
Microsoft官方計劃在即將于6月舉行的TechED大會上公布有關(guān)WAAD(Windows Azure Active Directory)的更多細節(jié)。這與Microsoft在Windows Server系統(tǒng)上的Active Directory的概念如出一轍。未來使用ACS(Access Control Service)與現(xiàn)有的Active Directory部署時可保證良好的互操作性。
利用JavaScript API與C#進行Hadoop開發(fā)
對于Microsoft推出的Hadoop版本最具特色的特點之一是附加JavaScript API。Hadoop上的編程工作是乏味的,這就是為什么別的高級語言會出現(xiàn)(如Pig)。
Microsoft選擇在Hadoop環(huán)境中添加JavaScript層,開發(fā)人員可以使用它創(chuàng)建MapRedcue的工作,甚至在瀏覽器模式下與Pig和Hive進行數(shù)據(jù)交互。JavaScript層所帶來的真正優(yōu)勢是將自身集成到Hadoop商業(yè)環(huán)境中,這使得開發(fā)人員能夠輕松創(chuàng)建內(nèi)網(wǎng)分析環(huán)境以便于商業(yè)用戶訪問。
Microsoft通過Node.js將JavaScript引入服務(wù)器端的Windows Server以及Windows Azure平臺之上。同時Microsoft計劃將自身的JavaScript API貢獻給Apache Hadoop開源社區(qū)。這對于Hadoop社區(qū)也是一個利好的消息。
更重要的是Microsoft使得使用.NET平臺開發(fā)Hadoop應(yīng)用成為可能。Microsoft計劃直接利用現(xiàn)有Hadoop API使用.NET平臺創(chuàng)建MapReduce任務(wù)。更高級別的接口或許將出現(xiàn)在未來的版本中。隨著時間的推移,未來在Visual Studio中對Hadoop項目開發(fā)的支持將不斷提高。同時未來運行在Azure之上的Hadoop項目將允許使用.Net Framework框架之上基于Common Language Runtime (CLR)語言(如C#語言)進行編程。
流數(shù)據(jù)處理系統(tǒng)與NoSQL
對于大數(shù)據(jù)人談?wù)撟疃嗟臒o疑是Hadoop,但流數(shù)據(jù)處理以及NoSQL對于大數(shù)據(jù)同樣重要。對于Microsoft,他們自然會有所準備。 Microsoft推出了被稱之為StreamInsight的流數(shù)據(jù)解決方案。NoSQL方面,Microsoft也具備了Windows Azure平臺上被稱之為Azure Tables的NoSQL數(shù)據(jù)庫。
展望未來,Microsoft對Hadoop兼容性的承諾意味著,流數(shù)據(jù)解決方案StreamInsight以及Azure Tables會作為Hadoop環(huán)境的一部分與Microsoft分布式HBase作為核心產(chǎn)品推出。同時現(xiàn)今的流數(shù)據(jù)解決方案(如Yahoo S4)將會與Microsoft相兼容。
與現(xiàn)有工具集成
Microsoft正傾向與向大數(shù)據(jù)工具集成現(xiàn)有的主要組件,這是否意味著Microsoft打算為企業(yè)提供一個綜合數(shù)據(jù)科學平臺?Microsoft大數(shù)據(jù)資深產(chǎn)品規(guī)劃負責人Madhu Reddy給出了肯定的答案。Microsoft Hadoop開發(fā)工作的主要宗旨就是讓人們使用熟悉的工具,Microsoft專注于與現(xiàn)有工具的互操作性。Microsoft此舉涉及各個層面的使用人員,包括開發(fā)者、分析師、企業(yè)用戶等。Excel是一個無處不在的軟件,Excel與Hive的互聯(lián)就是一個很好的例子。不過其他的工具也同樣重要,如 MATLAB、SAS或R。
總結(jié)
Microsoft大數(shù)據(jù)戰(zhàn)略確保Windows平臺能夠在大數(shù)據(jù)時代繼續(xù)發(fā)揮自身的作用。并使得在數(shù)據(jù)中心業(yè)務(wù)中使自身的云服務(wù)具備更強的競爭力。Microsoft的另一個做法是將大數(shù)據(jù)與自身龐大和多樣化軟件無縫集成??梢钥闯鯩icrosoft的重點是進行大力整合。Microsoft 與Apache Hadoop社區(qū)的合作確保了新的工具和天才的開發(fā)人員向這個平臺遷移。