大小廠商齊上陣,信息質(zhì)量最關(guān)鍵
如今數(shù)據(jù)科學(xué)家們需要把80%以上的工作時間用在過濾錯誤、解決一致性沖突以及處理兼容性問題方面,Pentaho公司指出。這家專攻Hadoop商務(wù)智能業(yè)務(wù)的廠商給出堅定承諾,表示能夠幫助客戶利用新型工具包上述老大難問題、從而大大簡化待分析數(shù)據(jù)的預(yù)先處理流程。
在這套名為Data Science Pack的產(chǎn)品中共包含三套實(shí)用工具集,它們的設(shè)計目的在于簡化用戶使用PentahoWeka開源數(shù)據(jù)挖掘項(xiàng)目以及R統(tǒng)計語言時需要處理的任務(wù)——這兩者也是目前業(yè)界使用范圍最廣的分析技術(shù)。其中一款工具屬于腳本執(zhí)行引擎,能夠?qū)⑺袛?shù)據(jù)轉(zhuǎn)換過程中產(chǎn)生的混亂細(xì)節(jié)剔除出去。該公司的另一款軟件則屬于評分引擎,能夠利根據(jù)精確度對數(shù)據(jù)集進(jìn)行打分。此外,另有一套自動化預(yù)測解決方案用于對即將輸入的信息作出預(yù)測。
Pentaho公司表示,這套軟件包不僅能夠幫助用戶更輕松地將信息塑造為易于分析的形式,同時也能消除由多數(shù)據(jù)源所引發(fā)的混亂與麻煩。值得一提的是,另一位挑戰(zhàn)廠商Talent也將業(yè)務(wù)著眼點(diǎn)放在了這里,他們打造的同名平臺剛剛迎來最新版本。新版本Talent能夠?qū)?shù)GB大小的文檔導(dǎo)入到Hadoop當(dāng)中,并提供一套用于集成不同流的可視化環(huán)境——其響應(yīng)時間在速度上比上代版本高出45%,該公司如是說。
消除中間人
盡管一部分供應(yīng)商致力于幫助數(shù)據(jù)科學(xué)家進(jìn)一步提高生產(chǎn)力,但也有不少企業(yè)希望消除技術(shù)方案對于特定類型人才的高度依賴。Actian公司明顯屬于后一種。他們將數(shù)十家廠商的產(chǎn)品進(jìn)行了排名并據(jù)此開發(fā)出結(jié)構(gòu)化查詢功能,繼而將其與專為自家旗艦分析平臺打造的全新SQL功能指令一道納入Hadoop當(dāng)中——此舉幫助該公司順利成為今日峰會上的焦點(diǎn)角色。其價值主張相信大家也不會陌生:該公司聲稱,企業(yè)用戶可以利用其軟件直接訪問保存在HDFS當(dāng)中的數(shù)據(jù),而不必再借助數(shù)據(jù)科學(xué)家之力。
Altoscale公司也已經(jīng)開始為其Hadoop云用戶提供類似的功能,其中包括對剛剛于今早發(fā)布的Apache Hive最新穩(wěn)定版本的支持能力。這套開源數(shù)據(jù)倉庫方案最初由Facebook公司開發(fā)完成,旨在幫助那些對MapReduce與復(fù)雜程度稍低但仍然難以應(yīng)對的Pig平臺不太熟悉的開發(fā)者找到可行性應(yīng)對辦法——直接利用常見的SQL語法取而代之。
希望能夠訪問并操作Hadoop當(dāng)中的數(shù)據(jù),同時又不必跟這套批處理框架先天具備的復(fù)雜性硬碰硬?沒錯,這一點(diǎn)對于希望能讓自身應(yīng)用程序?qū)崿F(xiàn)快速運(yùn)作的企業(yè)用戶來說至關(guān)重要,然而使用結(jié)構(gòu)化查詢工具根本無法實(shí)現(xiàn)這個目標(biāo)。由Sears集團(tuán)所有的分析企業(yè)MetaScale公司表示,他們最近剛剛啟動的“Ready-to-Go Reports”服務(wù)能夠?qū)崿F(xiàn)相同的執(zhí)行效果,但卻無需數(shù)據(jù)科學(xué)家的介入并幫助用戶省下購置昂貴內(nèi)部基礎(chǔ)設(shè)施的費(fèi)用。