云上的非結(jié)構(gòu)化數(shù)據(jù)經(jīng)常出現(xiàn)不規(guī)整的現(xiàn)象。例如,有人可能在電子表格上將數(shù)字“0”錯誤地輸入成了字母“o”,或者在復制長串號碼時不慎遺漏了一部分。企業(yè)的合并和收購也可能產(chǎn)生重復或有沖突的數(shù)據(jù)集。此外,除了公司既有的海量歷史數(shù)據(jù)(這些數(shù)據(jù)在企業(yè)數(shù)字化之前就已經(jīng)存在),新數(shù)據(jù)還在以驚人的速度產(chǎn)生。
非結(jié)構(gòu)化數(shù)據(jù)可能會引起混淆并導致不準確的解讀。然而,這些歷史數(shù)據(jù)也必須被恰當?shù)毓芾?,否則,數(shù)據(jù)閑置在存儲設備中,既浪費了存儲空間也讓這些數(shù)據(jù)失去了應有的價值。企業(yè)可能會感覺自己陷入了一個兩難的境地,對所有數(shù)據(jù)的整理分類是一項十分艱巨的任務,并且需要耗費大量時間,但這又是一項必須著手推進的任務!
想要更好地識別數(shù)據(jù)并挖掘數(shù)據(jù)價值,一個以數(shù)據(jù)搜索和數(shù)據(jù)分類為基礎的解決方案便成為了關鍵。所有的后續(xù)工作都要從一個不起眼的步驟開始——提取為元數(shù)據(jù)(metadata)。
什么是元數(shù)據(jù)
簡而言之,元數(shù)據(jù)是所謂描述數(shù)據(jù)的數(shù)據(jù)。它為我們提供了一種結(jié)構(gòu)化的方法來識別數(shù)據(jù)所呈現(xiàn)的信息。
在內(nèi)容智能平臺對元數(shù)據(jù)進行提取和整合操作時,元數(shù)據(jù)在不到六分鐘的時間內(nèi)就能被充分分析并得出結(jié)論。(人工處理這一任務則需要幾天、幾周甚至幾年的時間。)這就意味著數(shù)據(jù)管理員能夠方便快速地進行操作并探索數(shù)據(jù),從而可以將更多時間投入到更高級別的工作中去。
例如,你的智能手機里可能有成千上萬張圖片,你將如何對它們進行分類?GPS坐標就是一種常見的、能從這些圖片數(shù)據(jù)中被讀取到的元數(shù)據(jù)。你從圖片本身看不到坐標,但在拍攝的瞬間它就已經(jīng)嵌入到圖片文件當中。利用這些信息,能夠識別元數(shù)據(jù)的應用程序就可以讀取該信息并提供附加功能,例如按照地理位置對照片進行分類。這使得對圖片數(shù)據(jù)進行邏輯分組變得非常簡單。
元數(shù)據(jù)有助于實現(xiàn)企業(yè)或組織的重要功能,使之能夠快速有效地開展數(shù)據(jù)的運營維護,更好地為客戶提供服務。如果沒有元數(shù)據(jù),在定位客戶所需的特定數(shù)據(jù)時,我們將面臨巨大的挑戰(zhàn)。
例如,一個醫(yī)學成像應用程序有超過10,000個大腦掃描圖像。如果想要根據(jù)地點或年齡對掃描數(shù)據(jù)進行分組,則必須手動查看每次掃描的原始地點,或者掃描的對象。元數(shù)據(jù)的識別意味著相關信息的搜索只需幾秒鐘時間,而手工處理這些數(shù)據(jù)則需要幾天或幾個月的時間。在醫(yī)療衛(wèi)生和醫(yī)學研究領域,處理數(shù)據(jù)用時的長短意味著生與死的差別。
為什么內(nèi)容智能平臺如此重要
元數(shù)據(jù)本身在被提取之前毫無價值,而提取元數(shù)據(jù)最快、最簡單的方法就是通過內(nèi)容智能平臺。這一平臺能夠快速并全面地檢測到元數(shù)據(jù),這也是整理非結(jié)構(gòu)化數(shù)據(jù)的第一步。
內(nèi)容智能平臺提供了一個引擎,使數(shù)據(jù)管理員能夠在一個集中化的平臺上對數(shù)據(jù)進行識別、索引分類,并采取進一步行動。我們也可以將內(nèi)容智能平臺視為非結(jié)構(gòu)化數(shù)據(jù)的搜索引擎。內(nèi)容智能是一個框架,可以將數(shù)據(jù)轉(zhuǎn)換為非常易于搜索的內(nèi)容,以便使用者檢索。內(nèi)容智能平臺的關鍵點也是元數(shù)據(jù)。元數(shù)據(jù)是找到所需數(shù)據(jù)的線索。它也是對非結(jié)構(gòu)化數(shù)據(jù)進行分類的關鍵。通過分類,非結(jié)構(gòu)化數(shù)據(jù)變得有意義,并能釋放價值。
內(nèi)容智能平臺不僅僅能對非結(jié)構(gòu)化數(shù)據(jù)進行分類,還可以充當數(shù)據(jù)管理員的得力助手,提供智能指導的數(shù)據(jù)探索、數(shù)據(jù)建議,以及通過開放跨越不同地點和數(shù)據(jù)類型的訪問權限提供所有數(shù)據(jù)的即時可視性。內(nèi)容智能平臺還可以實現(xiàn)數(shù)據(jù)個性化定制和安全防護,向正確的人員提供正確的數(shù)據(jù),以防數(shù)據(jù)落入錯誤的人員手中造成隱患。
Hitachi Vantara提供的智能的數(shù)據(jù)發(fā)現(xiàn)和轉(zhuǎn)化平臺Hitachi Content Intelligence(內(nèi)容智能平臺)可提供數(shù)據(jù)分析和存儲性能監(jiān)控,進而幫助企業(yè)及其他組織機構(gòu)提高員工生產(chǎn)力并提供可行的業(yè)務洞察,將數(shù)據(jù)轉(zhuǎn)變?yōu)橛袃r值的業(yè)務信息,滿足切實的業(yè)務與運營需求。
數(shù)據(jù)是這個時代不可或缺的資產(chǎn)。隨著各種類型的數(shù)據(jù)生產(chǎn)者越來越多,從數(shù)據(jù)中挖掘并發(fā)現(xiàn)有意義的事實信息充滿了挑戰(zhàn),企業(yè)則必須應對這些挑戰(zhàn)。內(nèi)容智能平臺能夠助力企業(yè)將這些挑戰(zhàn)轉(zhuǎn)化為機遇,以確保企業(yè)在激烈的競爭中保持活力并爭得上游。