三大關(guān)鍵趨勢都集中在如何推動(dòng)數(shù)據(jù)庫經(jīng)理人所面對的可升級性挑戰(zhàn),而且這些挑戰(zhàn)的難度還在不斷增長。首先需要解決的問題是大家眾所周知的:數(shù)據(jù)量的快速增長。根據(jù)WinterCorp咨詢公司的市場調(diào)研顯示,最大的數(shù)據(jù)庫每隔兩年就會(huì)翻上三倍。
由此可見LGR的數(shù)據(jù)庫增長的是如何的迅速。到2012年將接近3PB的容量。包括零售業(yè),衛(wèi)生保健和金融服務(wù)公司運(yùn)作的數(shù)百個(gè)其他類型的數(shù)據(jù)庫也將在接下來的幾年中達(dá)到PB的容量,上千家數(shù)據(jù)庫的容量將超過100TB。在很多情況下,競爭的壓力迫使企業(yè)收集和存儲(chǔ)更多的數(shù)據(jù),這樣他們就能更好的進(jìn)行分析,了解,爭取和保留最具價(jià)值的用戶。
數(shù)據(jù)庫對時(shí)限的要求也愈發(fā)敏感。LGR數(shù)據(jù)庫中數(shù)據(jù)的周轉(zhuǎn)速度就是佐證:每天進(jìn)出的數(shù)據(jù)記錄達(dá)到數(shù)十億條,幾分鐘之內(nèi)就能載入數(shù)據(jù)庫并且立刻就能發(fā)揮作用。如果移動(dòng)電話用戶由于使用問題來電咨詢:"我們需要查證到底發(fā)生了什么,涉及什么問題等等,此時(shí)用戶還在電話那端"van Rooyen這樣說道"同時(shí),你希望客服人員能知道用戶的使用記錄",只有這樣,問題才能很快得到解決,用戶能得到更好的服務(wù),企業(yè)也能更好的運(yùn)轉(zhuǎn)。
數(shù)據(jù)的高頻率使用也被稱為"運(yùn)營商業(yè)智能",這不是個(gè)新興的概念。Teradata公司早在幾年前就推出了被稱作"戰(zhàn)術(shù)數(shù)據(jù)庫"的產(chǎn)品。IBM公司的動(dòng)態(tài)數(shù)據(jù)庫也是采用即時(shí)數(shù)據(jù)的類似概念。但是企業(yè)所面臨的擴(kuò)容壓力還是在不斷增長。
戰(zhàn)術(shù)數(shù)據(jù)庫幫助員工必須立刻做出決定。這些決定中有許多都是比較類似和重復(fù)性的。我應(yīng)該向這名用戶提供什么服務(wù)?我該如何對待工廠發(fā)生的非預(yù)期性出貨?企業(yè)通過隨時(shí)更新的數(shù)據(jù)系統(tǒng)的做出決策,這樣就能得出更好的結(jié)論。
運(yùn)營商業(yè)智能的概念對數(shù)據(jù)庫擴(kuò)容影響深遠(yuǎn)。它帶來了更大規(guī)模的用戶群;更高頻率的數(shù)據(jù)使用;最新數(shù)據(jù)的需求以及不能容忍任何宕機(jī)的業(yè)務(wù)流程支持。
第三種趨勢就是數(shù)據(jù)的復(fù)雜性日益攀升,數(shù)據(jù)查詢,工作負(fù)載和分析都急需擴(kuò)容。當(dāng)數(shù)據(jù)庫只從事比如預(yù)告更新和直接報(bào)告等簡單工作,他們能在不產(chǎn)生新問題的情況下穩(wěn)步增長。但當(dāng)數(shù)據(jù)庫需要對復(fù)雜的非預(yù)期性查詢做出交互反應(yīng)時(shí),特別是要對上萬億條記錄執(zhí)行大規(guī)模的復(fù)雜連接,匯總,分類和計(jì)算時(shí),擴(kuò)容的需求就更加迫切。
多數(shù)現(xiàn)在的數(shù)據(jù)庫都要執(zhí)行復(fù)雜查詢,分析和報(bào)告。這些數(shù)據(jù)庫比過去實(shí)施的任務(wù)和計(jì)劃更加復(fù)雜多變,用戶要面對數(shù)千個(gè)表格,成百上千行還有數(shù)據(jù)之間交錯(cuò)復(fù)雜的相互關(guān)系。
增長元素的多維化
要闡述多維增長現(xiàn)象沒有比易趣更好的例子了。易趣公司體系架構(gòu)和運(yùn)營部門資深總監(jiān)奧利弗.瑞伯杰表示,易趣公司數(shù)據(jù)庫執(zhí)行的查詢中大約有85%都是試探性的。這些查詢多數(shù)都來自終端用戶,數(shù)據(jù)庫管理員幾乎沒有機(jī)會(huì)來應(yīng)用調(diào)整工具。瑞伯杰表示”這些查詢要用到搜索引擎,我們必須保證引擎的運(yùn)轉(zhuǎn)”。
易趣公司的數(shù)據(jù)庫中包含了將近5PB的磁盤存儲(chǔ)空間,分布在主要系統(tǒng)和二級系統(tǒng)中,這兩個(gè)系統(tǒng)都能運(yùn)行TB容量的數(shù)據(jù)。用于災(zāi)難恢復(fù)的二級系統(tǒng)離主要系統(tǒng)的所在地有1,000英里的距離。每個(gè)系統(tǒng)都有公司數(shù)據(jù)庫核心數(shù)據(jù)的完整副本。兩個(gè)副本都每隔15分鐘就更新一次,24小時(shí)晝夜不停保持運(yùn)轉(zhuǎn),可以連續(xù)進(jìn)行激活服務(wù)查詢。
每天都要超過5000名用戶進(jìn)行將近1000萬次的查詢。每天日常更新的記錄數(shù)量從100億條到150億條不等。會(huì)涉及到數(shù)千個(gè)表格,查詢從簡單的查找到持續(xù)數(shù)小時(shí)的復(fù)雜分析都有可能。系統(tǒng)面對每個(gè)不同級別的工作任務(wù)都要采用不同服務(wù)級別來持續(xù)管理混合的工作負(fù)載。
系統(tǒng)擴(kuò)容的增長速度也更加驚人:去年易趣的用戶數(shù)量增長了25%,查詢的數(shù)量翻倍。系統(tǒng)的規(guī)模在過去的四年中每年都至少翻了一番。
易趣的經(jīng)歷說明數(shù)據(jù)庫不僅是核心數(shù)據(jù)數(shù)量的增長。他們會(huì)立即向多維擴(kuò)展,包括數(shù)據(jù)量,用戶的數(shù)量,查詢量,數(shù)據(jù)延遲和數(shù)據(jù)查詢的復(fù)雜性。基礎(chǔ)架構(gòu)和支出的決策必須考慮到所有這些方面的增長因素。
規(guī)劃五步走
顯然不要向企業(yè)經(jīng)理人灌輸增長的多元化概念。他們將系統(tǒng)擴(kuò)容作為簡化購買系統(tǒng)和數(shù)據(jù)庫能力的方法,這樣就無需擔(dān)心多維增長的問題。他們期望數(shù)據(jù)庫的增長不會(huì)導(dǎo)致成本的激增,企業(yè)商業(yè)活動(dòng)的無理由中斷或者性能的巨大損失。
聽起來有些可怕是嗎?下面的五步走計(jì)劃能幫助大家應(yīng)對愈演愈烈的數(shù)據(jù)庫增長和滿足企業(yè)對系統(tǒng)擴(kuò)容的期望值:
1。開發(fā)量化需求。根據(jù)文件的量化需求來制定系統(tǒng)的,可測算的工業(yè)流程。這些需求應(yīng)該包括數(shù)據(jù)規(guī)模的運(yùn)轉(zhuǎn)評估,數(shù)據(jù)庫和工作負(fù)載的宏觀架構(gòu),服務(wù)級別的對象和運(yùn)作進(jìn)度表。這些關(guān)鍵性的輸入能為開發(fā)物理數(shù)據(jù)庫和評估可選對象提供大量的所需信息。
數(shù)據(jù)庫的宏觀架構(gòu)涵蓋了大型表格的結(jié)構(gòu)和可能的規(guī)模,最常用的相互關(guān)系的可能設(shè)置以及最具價(jià)值的數(shù)據(jù)的可能分布情況。工作負(fù)載的宏觀架構(gòu)包括了10到25個(gè)查詢或者主要性能挑戰(zhàn)和預(yù)期頻率中所占的處理類型。
在進(jìn)行評估時(shí),關(guān)鍵的一點(diǎn)是對這些數(shù)據(jù)進(jìn)行實(shí)踐,絕對的精確遠(yuǎn)不及擴(kuò)容要重要。正確的擴(kuò)容就好比你要明白你是要建造一輛客車還是一輛貨車。不用太快決定這些事情:包含一組數(shù)據(jù)的文件,和決策者商量評估內(nèi)容,然后將他們用于管理流程和體系架構(gòu)的決策當(dāng)中。
2.預(yù)測長期需求。只要幾年時(shí)間,你的數(shù)據(jù)庫可能就會(huì)比現(xiàn)在所用的擴(kuò)大幾倍。要對數(shù)據(jù)庫的長期需求做出正確的預(yù)測,將最新應(yīng)用軟件,擴(kuò)展的目標(biāo)領(lǐng)域,數(shù)據(jù)細(xì)節(jié)的額外標(biāo)準(zhǔn)以及新用戶,新工具,新數(shù)據(jù)源等各種因素考慮在內(nèi)。長期需求應(yīng)該定義出系統(tǒng)將如何與擴(kuò)容的每個(gè)方向一起成長。
不要妄自推斷現(xiàn)有的增長率,因?yàn)樗麄儫o法反映出技術(shù)和支持主要新機(jī)遇的實(shí)踐活動(dòng)的變化情況。在零售業(yè)領(lǐng)域,當(dāng)銷售報(bào)表出爐時(shí),數(shù)據(jù)擴(kuò)容就會(huì)出現(xiàn)爆炸性增長,當(dāng)網(wǎng)絡(luò)點(diǎn)擊數(shù)據(jù)也會(huì)增長數(shù)據(jù)庫容量。在供應(yīng)鏈領(lǐng)域,如果RFID全面配置后,系統(tǒng)擴(kuò)容的下一個(gè)大動(dòng)作就將來臨。根據(jù)過去的趨勢進(jìn)行推斷可能會(huì)讓未來趨勢的影響大打折扣。
3.關(guān)鍵風(fēng)險(xiǎn)確認(rèn)。文件需求的流程無論是與廠商,用戶,文獻(xiàn)公司還是咨詢顧問有關(guān),都應(yīng)該提高風(fēng)險(xiǎn)意識:”如果不能及時(shí)載入數(shù)據(jù)就會(huì)損失金錢”或者”如果我們在周末出現(xiàn)宕機(jī)或故障,我們就完蛋了”。
并非所有的需求都是同等重要;要把優(yōu)勢兵力集中在那么對于企業(yè)目標(biāo)至關(guān)重要的需求上。對于欺詐偵測應(yīng)用軟件來說,不管任何情況下都要在幾分鐘載入數(shù)據(jù)或者幾秒內(nèi)接收數(shù)據(jù)是很關(guān)鍵的。除了高峰時(shí)間要實(shí)現(xiàn)這個(gè)目標(biāo)是很簡單的,然而要定位欺詐的準(zhǔn)確時(shí)間才是最關(guān)鍵的,否則就會(huì)花費(fèi)很多的金錢。因此在高峰時(shí)段 快速提取數(shù)據(jù)成為關(guān)鍵因素。在其他領(lǐng)域,反應(yīng)時(shí)間可能很重要,比如面向用戶的查詢等。如果在進(jìn)行一個(gè)中等難度的查詢時(shí)用戶正和呼叫中心服務(wù)人員交談,那么可能要開一個(gè)兩秒鐘的窗口。這可能就成為一個(gè)風(fēng)險(xiǎn)。
當(dāng)數(shù)據(jù)量小和使用明確時(shí),需求就比較容易得到滿足,但是如果第二年數(shù)據(jù)量發(fā)生爆炸性增長會(huì)發(fā)生什么呢?竅門是關(guān)注流程的兩大特點(diǎn):忽略那些可能導(dǎo)致業(yè)務(wù)損失的目標(biāo),忽略沒有證據(jù)支持的目標(biāo),因?yàn)檫@些都有風(fēng)險(xiǎn)。
4.根據(jù)目標(biāo)決定解決方案。這一步很關(guān)鍵。根據(jù)需求可能面臨的主要風(fēng)險(xiǎn)去選擇解決方案,然后量體裁衣進(jìn)行開始開發(fā)。
對于這個(gè)步驟,擴(kuò)容和復(fù)雜性都是很現(xiàn)實(shí)的。不要忽略擴(kuò)容的多向性。根據(jù)真實(shí)的完整數(shù)據(jù)庫運(yùn)行工作負(fù)載的現(xiàn)實(shí)模擬,將未來三年內(nèi)可能涉及的應(yīng)用軟件的運(yùn)行情況都考慮在內(nèi)。
5.管理缺口。真實(shí)的分析和測試經(jīng)常能反映出數(shù)據(jù)庫無法滿足所有的需求。如果是這樣,在它成為問題之前就把現(xiàn)實(shí)情況傳達(dá)給決策者。通過對備選方案的評估,你可以使用備選方案進(jìn)行真實(shí)數(shù)據(jù)的討論。在目前可行的預(yù)算下,用戶能接受4秒的反應(yīng)時(shí)間嗎?或者他們將預(yù)算增加50%,反應(yīng)時(shí)間就能提高到2秒?我們應(yīng)該利用公司使用量不超過10TB數(shù)據(jù)的標(biāo)準(zhǔn)平臺或者花費(fèi)3個(gè)月時(shí)間來評估其他的備選方案,如今我們是否了解數(shù)據(jù)庫里的數(shù)據(jù)可能在一年半時(shí)間里會(huì)超過100TB?
一項(xiàng)系統(tǒng)的工程方法會(huì)讓一切都盡在掌控。隨著數(shù)據(jù)庫需求朝著六個(gè)不可思議的方向快速膨脹,我們要為已有的成果提供備選方案。那里面臨更高的風(fēng)險(xiǎn),你就要對那里的數(shù)據(jù)進(jìn)行分析,測算和建立可靠的風(fēng)險(xiǎn)規(guī)劃。決策者要及時(shí)調(diào)整和討論數(shù)據(jù)庫的更新?lián)Q代,為可能的損耗做好準(zhǔn)備。
實(shí)現(xiàn)擴(kuò)容
為應(yīng)對多元化數(shù)據(jù)庫增長而設(shè)計(jì)的新技術(shù)趨勢死面向高度并行體系架構(gòu)的。上個(gè)月甲骨文公司宣布的Exadata Storage Server就是針對保護(hù)數(shù)據(jù)流免受風(fēng)險(xiǎn)侵襲而設(shè)計(jì)的,它能提高輸入/輸出深度任務(wù)的執(zhí)行速率。微軟公司也透露說他們將在新一代SQL服務(wù)器中融入去年早期收購所得的DATAllegro技術(shù),從而改善服務(wù)器輸入/輸出帶寬和處理器并行處理能力。幾乎每家廠商都在積極開發(fā)低成本硬件設(shè)備。雖然大型的對稱多處理器服務(wù)器暫時(shí)不會(huì)從我們的視野中消失,但人們更加偏重和青睞可平面擴(kuò)容的體系架構(gòu)。
在二十世紀(jì)九十年代,常規(guī)的思維認(rèn)為大規(guī)模并行處理還只是小生境體系架構(gòu),主要用于特殊時(shí)期的極端需求。但是大規(guī)模并行處理逐漸變的更加可靠,易于管理和可用,一時(shí)間幾乎每家廠商都對可升級性充滿期待。因此無論你是稱它為大規(guī)模并行處理,集群或者其他什么,并行體系架構(gòu)都成為數(shù)據(jù)庫研發(fā)人員首選的方式,他們想通過并行體系架構(gòu)來實(shí)現(xiàn)數(shù)據(jù)庫擴(kuò)容和應(yīng)對快速發(fā)展的體系架構(gòu)。需要銘記的最重要的事情是企業(yè)的難題無法通過購買新的硬件設(shè)備或體系架構(gòu)來解決。他們必須通過解決方案的需求決策來解決,然后執(zhí)行滿足這些需求的系統(tǒng)。
為了實(shí)現(xiàn)數(shù)據(jù)庫擴(kuò)容,要遵循任何數(shù)據(jù)庫研發(fā)計(jì)劃的三個(gè)推薦:使用系統(tǒng)的管理流程來處理升級問題。避免升級管理中的七個(gè)想當(dāng)然。重視量化需求和對研發(fā)周期的每個(gè)步驟進(jìn)行測試和評估。有了系統(tǒng)的方法,你將實(shí)現(xiàn)企業(yè)的期望和擁有具備長期商業(yè)價(jià)值的可升級數(shù)據(jù)庫。