與此同時(shí),繁瑣和昂貴的專有企業(yè)搜索產(chǎn)品不能處理現(xiàn)有的結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ),并且不能以具有成本效益的方式來(lái)測(cè)量數(shù)據(jù)的規(guī)模和速度?,F(xiàn)在我們的目的是找到一種能夠?qū)λ袛?shù)據(jù)存儲(chǔ)進(jìn)行搜索、發(fā)現(xiàn)和分析(SDA)的解決方案,很多公司試圖尋求開(kāi)源方面的搜索功能應(yīng)用程序,例如Apache Solr,以及大數(shù)據(jù)解決方案,例如Apache Hadoop,能夠?yàn)樗麄兲峁┘皶r(shí)和具有成本效益的對(duì)不斷增長(zhǎng)的數(shù)據(jù)總體的訪問(wèn)能力和洞察力。

數(shù)據(jù)現(xiàn)狀

企業(yè)比以往任何時(shí)候都更加需要數(shù)據(jù)分析,但是數(shù)據(jù)的性質(zhì)已經(jīng)發(fā)生了變化。在不久前,企業(yè)需要分析的數(shù)據(jù)主要位于結(jié)構(gòu)化數(shù)據(jù)庫(kù)和電子表格中。但是,在 過(guò)去幾年中,一切都改變了。我們現(xiàn)在越來(lái)越多的(有時(shí)候是完全)依賴于數(shù)字形式的溝通。除了電子文件外,我們還有電子郵件、短信、博客及其評(píng)論、互動(dòng)式網(wǎng) 站 (包括wikis和其他協(xié)作網(wǎng)站以及資料庫(kù)等)。

再有就是機(jī)器生成的數(shù)據(jù)。你的汽車(chē)、手機(jī)、電度表都在產(chǎn)生數(shù)據(jù),很快你的冰箱和咖啡機(jī)也會(huì)開(kāi)始產(chǎn)生數(shù)據(jù)。事實(shí)上,人類和數(shù)字?jǐn)?shù)據(jù)間的每個(gè)互動(dòng)已經(jīng)成 熟到可以被捕捉和分析,這些信息并不整齊,但是這些信息是極其寶貴的。目前的企業(yè)搜索解決方案能夠提供對(duì)這種非結(jié)構(gòu)化數(shù)據(jù)的洞察力,但是它們并不能很好的 進(jìn)行測(cè)量,并且它們并不提供對(duì)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)必須的分析。

執(zhí)行和測(cè)量分析以及利用ad-hoc訪問(wèn)能力的需要頗為引人注目。企業(yè)想要保持靈活性和競(jìng)爭(zhēng)力,員工必須能夠執(zhí)行更快和更強(qiáng)大的搜索以提供對(duì)數(shù)據(jù)更好的洞察力,使他們能夠發(fā)現(xiàn)之前隱藏的或者無(wú)法訪問(wèn)的數(shù)據(jù)中的連接。

很多企業(yè)對(duì)于用戶和這片數(shù)據(jù)海洋(不只是原始數(shù)據(jù))之間的相互作用變得越來(lái)越感興趣,因?yàn)樗麄兿嘈艑?duì)這些互動(dòng)作用的分析能夠幫助他們更好地對(duì)客戶做出響應(yīng),更快地認(rèn)識(shí)業(yè)務(wù)和客戶趨勢(shì),并作出更好的業(yè)務(wù)決策。這通常也是在這個(gè)時(shí)候“大數(shù)據(jù)”一詞被大多數(shù)企業(yè)意識(shí)到。

在運(yùn)營(yíng)方面,企業(yè)需要確保他們能夠成功地駕馭日益復(fù)雜的法律、法規(guī)和合規(guī)環(huán)境。這需要企業(yè)識(shí)別、存儲(chǔ)、搜索和生成相關(guān)文件的能力。如果沒(méi)有能夠經(jīng)濟(jì)有效地分析內(nèi)容的搜索和發(fā)現(xiàn)工具,預(yù)算將不堪重負(fù),業(yè)務(wù)也將逐漸缺乏對(duì)員工和客戶對(duì)企業(yè)的意義的真正性質(zhì)失去洞察力。

實(shí)現(xiàn)SDA

那么,我們應(yīng)該如何對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)進(jìn)行及時(shí)的訪問(wèn)數(shù)據(jù)和執(zhí)行分析呢?我們應(yīng)該如何提問(wèn),以幫助我們找到所需要的具體信息,并從存在的隱藏的關(guān)系中獲得知識(shí)呢?

這需要從以搜索為基礎(chǔ)的應(yīng)用程序和(通過(guò)類似商業(yè)智能的報(bào)告的)洞察力開(kāi)始,基本上就是大數(shù)據(jù)和那些有疑問(wèn)的實(shí)際用戶發(fā)起的點(diǎn)到點(diǎn)實(shí)時(shí)數(shù)據(jù)訪問(wèn)的結(jié)合。關(guān)鍵字搜索加上發(fā)現(xiàn)功能(例如聚類、建議和分類)能夠幫助用戶更快地找到具體內(nèi)容。

在試過(guò)可行的搜索技術(shù)中,首當(dāng)其沖的就是對(duì)分析能力的需求,以滿足兩個(gè)領(lǐng)域。首先是客戶為導(dǎo)向的結(jié)合了原始內(nèi)容以及所有用戶交互的學(xué)習(xí)方法(客戶就 是上帝,對(duì)吧?)。這種良性循環(huán)也是目前領(lǐng)先的面向消費(fèi)者的網(wǎng)站(例如亞馬遜、谷歌和Facebook)成功運(yùn)作的原因,并且正在迅速成為一種必然,而不 是那些希望在市場(chǎng)獲得競(jìng)爭(zhēng)力的企業(yè)值得擁有的能力。

想象一家每天面對(duì)2000萬(wàn)頁(yè)面瀏覽量的大型電子商務(wù)公司,雖然其核心產(chǎn)品的搜索索引只有500萬(wàn)條目,當(dāng)你將這500萬(wàn)條目與頁(yè)面瀏覽量相乘時(shí), 你將面對(duì)一個(gè)非常驚人的大數(shù)據(jù)挑戰(zhàn)。但是因?yàn)槠洮F(xiàn)有技術(shù)的限制,該公司只能保持三個(gè)月數(shù)據(jù)的有效性。該公司可以通過(guò)訪問(wèn)其數(shù)據(jù)歸檔來(lái)對(duì)更長(zhǎng)時(shí)間進(jìn)行報(bào)告, 但是對(duì)于實(shí)時(shí)搜索和分析,該公司只能依賴于過(guò)去的三個(gè)月中的數(shù)據(jù)。

為了讓其更多的較舊的數(shù)據(jù)更容易訪問(wèn)和使用,該公司部署了一個(gè)大型Hadoop集群,位于其搜索引擎旁邊。隨后,他們使用 Mahout和Apache Pig等工具來(lái)快速和具有成本效益地分析幾個(gè)月的數(shù)據(jù)?,F(xiàn)在,該公司不僅能夠分析誰(shuí)點(diǎn)擊了什么頁(yè)面,而且還能夠分析點(diǎn)擊頁(yè)面的相關(guān)性等。而且他們還具有強(qiáng) 大的關(guān)鍵字搜索以及發(fā)現(xiàn)和導(dǎo)航能力(用于向上銷(xiāo)售和交叉銷(xiāo)售)。這些功能結(jié)合在一起為該公司提供了更深入的洞察力,并且他們還能夠?qū)⒎治鲂畔⒎答伝叵到y(tǒng)以 進(jìn)行不斷改善。

將這些分析信息反饋回業(yè)務(wù)同樣能夠讓企業(yè)通過(guò)利用關(guān)于員工是如何利用內(nèi)容的信息來(lái)改善運(yùn)營(yíng)方式。企業(yè)現(xiàn)在能夠確定特定主題的專家,看看誰(shuí)正在使用何 種類型的內(nèi)容來(lái)完成工作等。同樣地,這里也建立了一個(gè)良性循環(huán),使用系統(tǒng)來(lái)提高系統(tǒng)的整體有效性,企業(yè)能夠更好地進(jìn)行組織,因?yàn)樗麄儾粌H理解了他們的數(shù)據(jù) (他們從傳統(tǒng)商業(yè)智能和搜索中獲取的數(shù)據(jù))的價(jià)值,而且知道了其員工的價(jià)值。

開(kāi)源的角色

現(xiàn)在的商業(yè)智能和企業(yè)搜索的專有應(yīng)用程序都沒(méi)有“坐以待斃”。商業(yè)智能增加了更多類似搜索的功能,并且搜索肯定取代了很多商業(yè)智能功能。但是在幾年 前,專有解決方案似乎是最安全的方法,而開(kāi)源解決方案似乎更具風(fēng)險(xiǎn)。而現(xiàn)在,很多公司開(kāi)始看到,因?yàn)殚_(kāi)源項(xiàng)目獨(dú)立于企業(yè)財(cái)務(wù)決策,他們對(duì)于保護(hù)其長(zhǎng)期投資 更具后勁。此外,很多企業(yè)發(fā)現(xiàn)他們更容易獲得、培訓(xùn)和留住開(kāi)源人才,因?yàn)?,他們可以深入代碼。

在商業(yè)硬件上運(yùn)行的開(kāi)源應(yīng)用程序也是實(shí)現(xiàn)真正可擴(kuò)展解決方案的最佳途徑之一。擴(kuò)展專有解決方案總是會(huì)面對(duì)財(cái)務(wù)阻礙,并且隨著越來(lái)越多的數(shù)據(jù)需要匯入 這些系統(tǒng),這個(gè)問(wèn)題變得更大了。開(kāi)源進(jìn)行擴(kuò)展更具成本效益,因?yàn)槟悴恍枰嚓P(guān)的授權(quán)費(fèi)用。當(dāng)然,這并不是免費(fèi)的午餐,但是開(kāi)源每年都會(huì)降低成本,即時(shí)在某 些情況下,前期成本似乎更高。

例如,考慮一下,一家金融服務(wù)公司面臨著擴(kuò)展的嚴(yán)峻挑戰(zhàn):在交易方面有巨大的交易數(shù)量,同時(shí)需要保存、訪問(wèn)和搜索大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)(客戶端電子郵件、 M&A數(shù)據(jù)等)以滿足監(jiān)管目的。很多企業(yè)可能坐在數(shù)據(jù)的金礦中而他們卻全然不知,因?yàn)樗麄兏揪筒痪邆浠卮鸶鞣N問(wèn)題來(lái)發(fā)現(xiàn)這種信息的能力。相反的,對(duì)他們而言,這些數(shù)據(jù)就像是一個(gè)黑洞:信息進(jìn)入,但從來(lái)沒(méi)有出來(lái)過(guò)。

通過(guò)Hadoop集群來(lái)聚合信息,通過(guò)Lucene/Solr 來(lái)提出正確的問(wèn)題,突然間,這些公司能夠產(chǎn)生大量聚合信息以加強(qiáng)貿(mào)易和市場(chǎng)分析,并且通過(guò)粒度搜索和發(fā)現(xiàn)來(lái)實(shí)現(xiàn)更好的業(yè)務(wù)分析和合規(guī)以及電子發(fā)現(xiàn)。開(kāi)源解決方案使企業(yè)負(fù)擔(dān)得起這種系統(tǒng),并且能從長(zhǎng)遠(yuǎn)角度來(lái)進(jìn)行擴(kuò)展。

深入而廣泛的靈活性

通過(guò)主要的“大數(shù)據(jù)”工具(包括用于搜索的Lucene/Solr、用于聚類大規(guī)模數(shù)據(jù)的Hadoop、Hive和HBase以及用于大規(guī)模分析和 學(xué)習(xí)的Apache Mahout、Apache Pig等工具),具有搜索功能的開(kāi)源應(yīng)用程序能夠幫助企業(yè)對(duì)信息獲得更深入的的洞察力,這主要通過(guò)為企業(yè)開(kāi)發(fā)人員和他們服務(wù)的用戶提供具有檢索性的信息和 可訪問(wèn)的機(jī)器學(xué)習(xí)算法。這些工具不僅能夠允許我們都習(xí)慣使用的傳統(tǒng)關(guān)鍵字搜索,還為用戶提供了提出深刻和更困難問(wèn)題的能力。

通過(guò)消除耗時(shí)又限制利益的設(shè)置數(shù)據(jù)剛性結(jié)構(gòu)的過(guò)程,可以讓用戶提出他們需要提出的問(wèn)題,基于目前的業(yè)務(wù)現(xiàn)狀,而不是基于業(yè)務(wù)分析師或者數(shù)據(jù)庫(kù)設(shè)計(jì)者 幾個(gè)月或者幾年前的意見(jiàn)。這些應(yīng)用程序還能夠消除了數(shù)月的延誤時(shí)間,以及到IT來(lái)重組數(shù)據(jù)庫(kù)或者創(chuàng)建新的查詢的需要。此外,由于其擴(kuò)展能力,這些應(yīng)用程序 還能夠保留這些信息以用于未來(lái)使用,當(dāng)然在未來(lái),我們毫無(wú)疑問(wèn)會(huì)有不同的想法和處理技術(shù),從而延續(xù)了這些系統(tǒng)的價(jià)值。

開(kāi)源SDA解決方案提供了具有成本效益的對(duì)所有類型數(shù)據(jù)的搜索和分析,開(kāi)源解決方案的崛起是不可避免的。這是一個(gè)生存問(wèn)題,如果沒(méi)有開(kāi)源解決方案, 我們將被淹沒(méi)在數(shù)據(jù)海洋中。這也是一個(gè)成本問(wèn)題,我們發(fā)現(xiàn)如果沒(méi)有開(kāi)源解決方案,我們將很難擴(kuò)展搜索和分析。這還是一個(gè)競(jìng)爭(zhēng)力的問(wèn)題,如果沒(méi)有開(kāi)源解決方 案,企業(yè)將無(wú)法與客戶進(jìn)行互動(dòng),或者有效地發(fā)揮員工的價(jià)值。因此,你需要回答的問(wèn)題是,SDA是否符合你的信息戰(zhàn)略?

分享到

wangzhen

相關(guān)推薦