計算過程的中間數(shù)據(jù),這些數(shù)據(jù)在計算結束之后就會被丟棄,但是在計算過程中,訪問速度會影響到應用程序的運行性能,設計不合理的中間數(shù)據(jù)存儲方案會導致CPU處于等待狀態(tài),無法充分利用。
針對以上兩種類型的存取模式,反應在共享內存體系構架和分布式內存體系構架兩種構架上,又有不同的實現(xiàn)方式:
對于共享內存體系構架,可以通過直接連接高速的硬盤來解決中間數(shù)據(jù)的存取,通過連接SAN或IP SAN共享的、性價比較好的FC 磁盤柜,提供最終數(shù)據(jù)檔案的存放。
對于分布式體系構架的集群系統(tǒng),可以通過在每個節(jié)點上配置SAS硬盤來解決中間數(shù)據(jù)的存取,通過NFS網絡共享文件系統(tǒng)來為集群系統(tǒng)所有節(jié)點提供原始數(shù)據(jù)與最終數(shù)據(jù)的讀取與存放。
ParaStor200并行存儲系統(tǒng)采用了代表存儲技術、網絡通信技術以及數(shù)據(jù)管理技術發(fā)展方向的并行體系架構,是一款面向海量非結構化數(shù)據(jù)處理、擁有自主知識產權的高端存儲系統(tǒng)。
ParaStor200并行存儲系統(tǒng)匯集了曙光公司多年以來在并行計算和海量數(shù)據(jù)處理方面的豐富經驗,從架構上徹底消除了傳統(tǒng)存儲系統(tǒng)的瓶頸,能夠滿足高帶寬和高并發(fā)的海量文件存取的需求,為用戶帶來前所未有的存儲性能體驗。
Parastor系統(tǒng)主要由索引服務器集群和存儲服務器集群組成。不同的文件均勻地分散在不同的存儲服務器上,用戶訪問索引服務器得到文件位置信息后,直接訪問存儲服務器集群讀寫數(shù)據(jù)。這種控制路徑和數(shù)據(jù)路徑分離的方式,分散了索引服務器的負載,可獲得極高的聚合帶寬,也大大提高了系統(tǒng)的擴展性。
在索引數(shù)據(jù)讀操作比例很高的環(huán)境中,配置加速集群用作分擔讀負載。
可擴展性
索引數(shù)據(jù)服務器的擴展
當服務能力不足時,可成對的加入新的索引服務器,系統(tǒng)將優(yōu)先使用新增加的服務器。
用戶對文件信息的訪問可直接定位到某一臺索引服務器,因此增加索引服務器的同時也提高了系統(tǒng)索引數(shù)據(jù)的訪問性能。
數(shù)據(jù)服務器擴展
Parastor中的文件均勻地分散到各數(shù)據(jù)服務器上存儲。當空間不足時,增加新的數(shù)據(jù)服務器,即可將新創(chuàng)建的文件或文件的部分存儲到新存儲服務器上。系統(tǒng)自動平衡已存儲數(shù)據(jù)到新節(jié)點中,防止產生熱點。
Parastor的聚合帶寬取決于可用的數(shù)據(jù)通道。增加了數(shù)據(jù)服務器后,即增加了客戶端和Parastor系統(tǒng)的通道數(shù),因此聚合帶寬也能相應地提高。
高可用性
Parastor采用復制技術來提高數(shù)據(jù)的可用性。索引數(shù)據(jù)和文件數(shù)據(jù)均可配置成多個副本,其中文件數(shù)據(jù)可以針對具體文件設置副本數(shù)目。即使出現(xiàn)當一個副本損壞時,其它副本仍可訪問,因此不影響系統(tǒng)的可用性。
系統(tǒng)恢復
應用數(shù)據(jù)恢復
Parastor系統(tǒng)具有根據(jù)系統(tǒng)信息和操作結果自動發(fā)現(xiàn)部件失效的功能。出現(xiàn)介質損壞后,受損數(shù)據(jù)的副本數(shù)減少。系統(tǒng)自動利用現(xiàn)有副本生成新的副本數(shù)據(jù),從而使系統(tǒng)恢復至正常狀態(tài)?;謴瓦^程中,對受損數(shù)據(jù)的讀寫仍可進行。整臺存儲服務器損壞,受損數(shù)據(jù)也按上述方式自動恢復。
如果某個節(jié)點暫時失效,其它副本的操作仍正常進行,當該節(jié)點恢復后,增量更新受影響的數(shù)據(jù),從而恢復到正常狀態(tài)。
本系統(tǒng)采用并行恢復策略,以縮短恢復時間,如圖所示:
失效模式:在oStor0中,由于磁盤失效或系統(tǒng)失效,導致對象obj1和obj2同時失效。
恢復方式:在2副本系統(tǒng)中,若obj1和obj2的另外一個副本存儲于不同的oStor中,則obj1和obj2可并行恢復,并發(fā)進行數(shù)據(jù)復制,在圖7中,分別復制到到oStor3和oStor4。
索引數(shù)據(jù)恢復
索引數(shù)據(jù)日志。Parastor利用日志和副本技術提高索引數(shù)據(jù)的可用性,并保證索引數(shù)據(jù)之間的一致性。日志記錄了當索引服務器出現(xiàn)介質損壞時,可以利用其它節(jié)點的副本數(shù)據(jù)進行恢復。如果索引服務器死機,重起后,使用本地日志可以恢復數(shù)據(jù)的一致性。同時利用其它節(jié)點生成的日志,保證副本之間的一致性。
可管理性
Parastor具有良好的可管理性。內置的自動管理機制盡量的簡化了管理員的操作;多樣的報警機制可以及時可靠的將故障通知管理員。
與曙光集群管理軟件Gridview集成后,管理員可以通過簡單的瀏覽WEB形式的網頁,輕松地完成系統(tǒng)的監(jiān)控與管理工作。Parastor管理界面同樣具有良好的擴展性,這使得管理員的工作量并不會隨著數(shù)據(jù)容量的成倍增加而增加很多。