負責這一版本整體進度的Release Manager,是來自騰訊云產品部大數據及人工智能產品中心的專家研究員堵俊平,他同時也是Apache Hadoop社區(qū)PMC的成員。
Apache軟件基金會推崇PMC制度,每個開源項目都是一個PMC,即項目管理委員會,可以自行決定技術發(fā)展方向和社區(qū)運作模式,但需要公開信息,并定期向Apache的董事會匯報,以便董事會監(jiān)督。
成為PMC的成員可是非常不容易的事,必須要一步步“打怪升級”。要實現從一個普通的Developer到PMC Member的跨越,除了碼代碼以外,開源社區(qū)的組織能力也要強,是不是帥呆了?
堵 俊 平
騰訊T4大數據技術專家,曾任EMC,VMware資深研發(fā)工程師,Hortonworks美國YARN團隊負責人。深耕云計算,大數據方向10余年,在多個社區(qū)均享有極高知名度,包括Apache Hadoop社區(qū)Committer & PMC,并領導hadoop 2.6、2.8等應用非常廣泛的社區(qū)release。曾領導開發(fā)多個Hadoop在云平臺上優(yōu)化與拓展的項目與產品。目前在騰訊致力于領導騰訊云大數據及人工智能產品研發(fā)工作。
小編采訪了一下這位男神,接下來就讓他給大家講一下,這次新版本發(fā)布過程中的小細節(jié)吧。
Q很多人可能聽說過“開源”,但了解不多,您可以簡單介紹一下嗎?
A?開源可以理解為“向公眾開放源代碼”。近幾年來熱度不減的大數據,就是由開源的軟件來驅動整個產業(yè)生態(tài)的。這里就不得不提到一個里程碑式的開源產品——hadoop:從谷歌的三篇論文,到雅虎的hadoop,開啟了如今的大數據時代。
過去的系統(tǒng)軟件主要是由閉源軟件來驅動的。雖然像操作系統(tǒng)涌現出Linux這樣優(yōu)秀的軟件,但后面的數據庫和應用服務器,仍然幾乎都是從閉源產品去驅動的。
hadoop誕生后的這十年來,一直都是大數據生態(tài)的核心,它改變了以往的軟件形式,成為了最主流的開源項目之一?,F在基本上各家數據平臺團隊,都是在hadoop生態(tài)系統(tǒng)上小修小改,去支持大數據相關的業(yè)務系統(tǒng),可以認為它是開源的一個標準吧。
Q與傳統(tǒng)的閉源生態(tài)相比,開源有什么好處呢?
A?首先是避免“重復發(fā)明輪子”的問題,不同的個人和團體可以在公開的代碼平臺上集體創(chuàng)作,而不是封閉起來做重復的事情。其次是用戶不必被綁架在特定的軟件平臺上,隨時可以遷移應用和數據。最后是核心知識產權,比如以前的IOE,不只是沒有“中國芯”的問題,上面的應用軟件和系統(tǒng)軟件可能隨時面臨被人封鎖的危險,而開源就不會有這個問題,它完全公開透明。另外,開源也鼓勵公司規(guī)劃長線的技術投資,而不只是短線的利益操作。
Q騰訊這次主導阿帕奇社區(qū)hadoop新版本的發(fā)布,在國內算是首次嗎?
A?對,以前都是由微軟、Hortonworks和Cloudera等國外大數據廠家輪流坐莊,而這個版本是第一次完全由國內的公司來支持的。從技術號召力或者對整個開源社區(qū)的影響力來說,可以鼓勵國內的開發(fā)者和公司更積極地參與開源項目貢獻,勇于承擔更大的責任,更多地回饋開源社區(qū)。
Q給整個社會也帶來了哪些積極的影響呢?
A?首先,大數據軟件屬于基礎技術,這次平臺是由騰訊做技術主導的,在國內算是一個突破。其次,對于開發(fā)者社區(qū)來說,也是比較可靠的一個社區(qū)、最熱門的項目。
最后,對于普通人來說,也是可以從中受益的。因為基礎平臺能力的提高,也伴隨著數據處理能力的提高,可以讓大家的生活更方便。大數據時代到來之前,可能沒有那么多面向數據的業(yè)務,比如地圖業(yè)務、O2O業(yè)務、智能推薦系統(tǒng)等等。包括現在極具話題性的AI人工智能,如果沒有大數據平臺的進步,也是發(fā)展不起來的。
Q之前是有技術難關的限制嗎?
A?過去十年,中國的互聯網公司發(fā)展很快,大家都以追求業(yè)務為主,在技術或開源方面做得不夠,這是我們相較西方的短板。國內很多公司其實也嘗試過開源,但它只有開源的代碼,沒有開源的社區(qū),也就是自己覺得某個產品做得不錯,就把源代碼開放出來而已。
源代碼的開放和開源社區(qū)是兩回事,區(qū)別就是你這個開源的代碼,其它第三方(尤其是你的生態(tài)合作伙伴)有沒有能力來參與。
現在整個大數據的熱潮,其實就是被幾款開源的核心軟件所推動的。中國的這些大公司在具備了經濟實力之后,也開始以開源為手段想要構造一個更好的生態(tài)。這可能需要一個過程,但大家已經慢慢意識到這些基礎軟件跟開源結合的重要性了。