我們從數(shù)據(jù)處理的六大步驟說明Informatica怎樣來釋放Hadoop的能力。第一步,是將數(shù)據(jù)攝入到Hadoop;第二步,發(fā)現(xiàn)Hadoop數(shù)據(jù)的異常、關系和域類型;第三步,在 Hadoop中解析和準備數(shù)據(jù),這對于Informatica來講是非常獨特和重要的,現(xiàn)在數(shù)據(jù)類型非常多,要對其進行分析,首先要解析,將其變成可以工作的結構型數(shù)據(jù);第四步,在Hadoop中轉換和清洗/標準化數(shù)據(jù),數(shù)據(jù)一旦格式化后就可以進行轉換、過濾、集成、分類等等;第五步,在Hadoop上調用自定義業(yè)務分析;第六步,從Hadoop上讀取數(shù)據(jù),目前一些大的報告工具,還不能夠直接在很多平臺上運行,因此需要把計算結果提取出來放到傳統(tǒng)數(shù)據(jù)庫中。當然,在一到六步的實現(xiàn)過程中,企業(yè)還需要管理整個過程,需要監(jiān)督、監(jiān)視系統(tǒng)發(fā)生情況。
Informatica 9.5已經(jīng)實現(xiàn)了上述提到的一、三、六步的功能,而二、四、五步功能則將在年底推出的Informatica 9.5.1中實現(xiàn)。下面主要介紹Informatica 9.5中已實現(xiàn)的功能。
Hadoop 的數(shù)據(jù)輸入和輸出
在大數(shù)據(jù)時代,每小時要移動數(shù)十TB的交易數(shù)據(jù)、交互數(shù)據(jù)和流數(shù)據(jù),我們希望能夠提供不同的方法來提取和裝載數(shù)據(jù)。Informatica PowerExchange for Hadoop可提供與HDFS和Hive適配器高性能連接,企業(yè)能夠向Hadoop輸送所有數(shù)據(jù)以便集成和處理大數(shù)據(jù),通過與包括大型機、數(shù)據(jù)庫及應用程序在內的所有數(shù)據(jù)(無論企業(yè)內部還是云中)的統(tǒng)一連接,可以輕松地以批量或實時方式在Hadoop系統(tǒng)中取送數(shù)據(jù)。
PowerExchange for Hadoop具備了易于使用和管理的開發(fā)環(huán)境,其元數(shù)據(jù)驅動方法為快速設計和開發(fā)提供了便利。該軟件與Informatica PowerCenter全面集成,能夠輕松地部署、排除故障和升級,圖形化設計環(huán)境則使之易于在預加載和后處理階段解析、轉換及清洗數(shù)據(jù)。此外,它還能對HDFS連接以及加載時間等操作統(tǒng)計數(shù)據(jù)進行管理和監(jiān)控。
在 Hadoop 上解析和準備數(shù)據(jù)
Informatica HParser是第一款Hadoop環(huán)境下的數(shù)據(jù)編譯轉換解決方案,能把任何非結構和半結構數(shù)據(jù)–諸如網(wǎng)絡記錄、社交媒體數(shù)據(jù)、通話詳細記錄以及其他數(shù)據(jù)格式–轉換為更具結構性的格式,可以得到更快速的使用和生效,從而驅動業(yè)務發(fā)展、提高運營效率。利用Informatica HParser這一覆蓋了大范圍數(shù)據(jù)格式、基于引擎的解決方案,用戶能大大簡化并加快數(shù)據(jù)分析過程,有效避免處理過程中的風險并削減定制編譯腳本的成本。
用于創(chuàng)建和維護轉換的HParser可視化集成開發(fā)環(huán)境(IDE)可以加速開發(fā)過程,并提高開發(fā)者生產力。HParser還將開發(fā)中的多層次及關系轉化為更為扁平、易于使用的格式,并允許業(yè)務規(guī)則進行確認。HParser支持靈活高效地處理Hadoop里面的任何文件格式,為Hadoop開發(fā)人員提供了即開即用的解析功能,以便處理復雜而多樣的數(shù)據(jù)源,包括日志、文檔、二進制數(shù)據(jù)或層次式數(shù)據(jù),以及眾多行業(yè)標準格式(如銀行業(yè)的NACHA、支付業(yè)的SWIFT、金融數(shù)據(jù)業(yè)的FIX和保險業(yè)的ACORD)。利用HParser,開發(fā)者可以創(chuàng)建MapReduce中的應用邏輯及數(shù)據(jù)源之間的抽象層,該特性允許應用邏輯一經(jīng)創(chuàng)建便可實施在多種不同數(shù)據(jù)源中,這樣可以允許項目便捷地延展。利用相同的集成開發(fā)環(huán)境,設計組件可以拓展到企業(yè)的其他部分,而不僅僅限于Hadoop項目。
作為全球領先的企業(yè)數(shù)據(jù)集成軟件提供商,Informatica一直以來都是各大廠商進軍大數(shù)據(jù)領域爭搶的對象,不只是因為全球近5000家企業(yè)依賴Informatica方案管理其在本地的、云中和社交網(wǎng)絡上的信息資產,還因為它在數(shù)據(jù)方面強大的技術能力。Informatica旨在提供一款單一平臺,借助統(tǒng)一的環(huán)境和方法,全面滿足數(shù)據(jù)管理和數(shù)據(jù)集成方面的要求。