•整合和虛擬化的目的
•主要挑戰(zhàn)
•設(shè)置和配置程序
•P2V 遷移
•轉(zhuǎn)型的現(xiàn)狀
•未來(lái)計(jì)劃
整合和虛擬化
服務(wù)器和存儲(chǔ)整合通過(guò)提高運(yùn)行效率和有效性可以降低成本,虛擬化則通過(guò)提高自動(dòng)化、可擴(kuò)展性以及從一個(gè)單一平臺(tái)提供多種功能或服務(wù)使服務(wù)器和存儲(chǔ)技術(shù)的價(jià)值達(dá)到最大化。我們新的數(shù)據(jù)中心正在向虛擬化的模式邁進(jìn),該模式將使我們能夠利用更加強(qiáng)大的技術(shù)滿足不斷變化的工程應(yīng)用需求,滿足業(yè)務(wù)增長(zhǎng)或者降低的要求。虛擬化技術(shù)為我們的數(shù)據(jù)中心增加了價(jià)值,提高了靈活性、可擴(kuò)展性、易管理性以及響應(yīng)能力。
虛擬化使 IT 能夠在更加經(jīng)濟(jì)的規(guī)模下運(yùn)行,最大化利用現(xiàn)有資源,就算基礎(chǔ)設(shè)施的增長(zhǎng)速度非??欤材軌蛴行У乇还芾?。我們?cè)跊Q定選用 VMware 配合 NetApp® 存儲(chǔ)之前評(píng)估了多個(gè)虛擬化解決方案。最后我們選擇 VMware,原因是它支持的客戶運(yùn)行系統(tǒng)的范圍很廣,這對(duì)我們這個(gè)項(xiàng)目非常關(guān)鍵。
最初的挑戰(zhàn)
在起始階段,要推進(jìn)項(xiàng)目我們必須解決眾多結(jié)構(gòu)和技術(shù)方面的挑戰(zhàn)。
有限的預(yù)算。首先,由于我們的預(yù)算是有限的,這個(gè)虛擬化項(xiàng)目必須以最少的設(shè)備開(kāi)始。項(xiàng)目最初是以兩臺(tái)租用的服務(wù)器(已安裝有 VMware ESX 服務(wù)器)和一個(gè)獨(dú)立 NetApp FAS3050 存儲(chǔ)系統(tǒng)開(kāi)始。這使我們有足夠的設(shè)備做一個(gè)概念驗(yàn)證(proof of concept,即POC)。這些租用的服務(wù)器通過(guò)加大的內(nèi)存進(jìn)行了升級(jí),所以可以處理更多的虛擬機(jī)。
工程師們的擔(dān)心。工程師們?cè)陂_(kāi)始的時(shí)候持懷疑態(tài)度。他們不相信一個(gè)虛擬的機(jī)器能夠處理他們?cè)瓉?lái)習(xí)慣使用的物理服務(wù)器所處理的工作。而且每個(gè)工程項(xiàng)目的需求都是獨(dú)特的,所以更增加了這個(gè)問(wèn)題的復(fù)雜性。然而,使用僅僅兩臺(tái)最初的虛擬服務(wù)器,我們成功地說(shuō)服了大部分工程師,使項(xiàng)目得以進(jìn)行下去。
網(wǎng)絡(luò)集成。掃除了這個(gè)障礙后,我們開(kāi)始商量如何在現(xiàn)有環(huán)境中集成一個(gè)虛擬服務(wù)器。工程應(yīng)用實(shí)驗(yàn)室網(wǎng)絡(luò)的設(shè)計(jì)旨在最小化第 2 層廣播。接入層交換機(jī)配置了多重 VLAN,向上連接至使用第3層的核心骨干交換機(jī)。(這個(gè)網(wǎng)絡(luò)架構(gòu)相當(dāng)于一個(gè)校園網(wǎng),每個(gè)功能/院系使用一個(gè)單獨(dú)的 VLAN。)
我們有兩個(gè)選擇:在每個(gè) VLAN 上提供一個(gè)單獨(dú)的 ESX 服務(wù)器,或修改網(wǎng)絡(luò)布局。如果是前一種情況,資源將無(wú)法完全利用。我們會(huì)需要更多的 ESX 授權(quán),而且管理也會(huì)更加困難。但是,第二種方案更加復(fù)雜,而且需要很長(zhǎng)的宕機(jī)時(shí)間來(lái)完成。
在與我們的網(wǎng)絡(luò)合作伙伴和工程客戶進(jìn)行大量的討論后,我們最后決定采用包含有一個(gè)整合虛擬服務(wù)器群的解決方案,可以放置我們所有的 ESX 服務(wù)器、存儲(chǔ)系統(tǒng)和網(wǎng)絡(luò)閘,而且可連接至每個(gè)項(xiàng)目的 VLAN。
圖1)虛擬服務(wù)器群和網(wǎng)絡(luò)設(shè)置
虛擬服務(wù)器群設(shè)置和配置
在設(shè)計(jì)這個(gè)設(shè)置的時(shí)候,我們遵從 TR-3428:NetApp 和 VMware 虛擬基礎(chǔ)架構(gòu) 3:存儲(chǔ)最佳實(shí)踐。我們的虛擬基礎(chǔ)架構(gòu)已經(jīng)擁有一個(gè)由8 個(gè)服務(wù)器組成的群和一個(gè) NetApp FAS3050 集群,擁有 436 臺(tái)虛擬機(jī),支持 17 個(gè)工程團(tuán)隊(duì)。至今我們已經(jīng)完成了 150 個(gè)物理至虛擬(P2V)轉(zhuǎn)換和 100 個(gè) GSX 至 ESX 遷移。以前我們?cè)谝恍╉?xiàng)目上采用 VMware GSX 很有限、分散地進(jìn)行過(guò)虛擬化?;旧衔覀兪敲總€(gè)物理服務(wù)器擁有 4-5 個(gè)虛擬機(jī)。
資源池通過(guò) VMware Virtual Center 設(shè)置,以聚合和管理多組以組為單位的虛擬機(jī)。每個(gè)組的網(wǎng)絡(luò)連接由 2 個(gè) 1GB 的網(wǎng)絡(luò)端口提供,兩個(gè)端口組合在一起以進(jìn)行負(fù)載平衡和冗余。
我們的集群 FAS3050 配備有 4 個(gè)磁盤架,采用 300GB FC 驅(qū)動(dòng)和多路徑,以應(yīng)對(duì)存儲(chǔ)故障。該存儲(chǔ)系統(tǒng)的網(wǎng)絡(luò)端口采用 NetApp VIF,以處理冗余和進(jìn)行負(fù)載均衡。
所有 ESX 數(shù)據(jù)存儲(chǔ)都采用 NFS 在該存儲(chǔ)系統(tǒng)中進(jìn)行。我們選擇 NFS 因?yàn)樗詢r(jià)比高,而且很容易配置和管理。光纖通道數(shù)據(jù)存儲(chǔ)可能需要額外的硬件,如 FC 交換機(jī)、HBA、線纜,而我們由于預(yù)算有限所以可能無(wú)法滿足。此外,采用 NFS 數(shù)據(jù)存儲(chǔ)的性能與 FC 的性能是具有可比性的。
新的虛擬機(jī)配置有 NetApp rapid cloning utility version 1。該過(guò)程利用了NetApp FlexClone®,因此類似的虛擬機(jī)可以分享同一個(gè)存儲(chǔ),而無(wú)須浪費(fèi)很多的空間重存儲(chǔ)同一個(gè)操作系統(tǒng)的文件。你可以在最近的一篇 Tech OnTap 文章中了解更多該過(guò)程,該文章介紹了同樣的過(guò)程,只不過(guò)針對(duì)的是 VMware 虛擬桌面。
從物理機(jī)遷移至虛擬機(jī)
由于工程應(yīng)用團(tuán)隊(duì)要求現(xiàn)有服務(wù)器配置保持不變,當(dāng)我們?cè)趯⒎?wù)器從物理機(jī)遷移至虛擬機(jī)的過(guò)程中,我們面臨保持主機(jī)命名、IP 地址、操作系統(tǒng)配置不變的挑戰(zhàn)。
為了完成這些遷移,我們首先將每個(gè)組的數(shù)據(jù)網(wǎng)絡(luò)擴(kuò)展至虛擬服務(wù)器群。P2V 轉(zhuǎn)換通過(guò)使用 VMware Virtual Center 實(shí)現(xiàn)。大部分遷移在周末或節(jié)假日進(jìn)行,以降低宕機(jī)時(shí)間。定期檢測(cè)新的虛擬機(jī),確保性能。我們還與團(tuán)隊(duì)密切合作,以防止出現(xiàn)性能問(wèn)題,并在需要的情況下分配更多的資源給虛擬機(jī)。
現(xiàn)狀
我們定期監(jiān)測(cè)虛擬機(jī)的增長(zhǎng)和物理服務(wù)器的逐漸退役數(shù)量,并且用圖表標(biāo)注出來(lái)。我們計(jì)劃在未來(lái) 6 至 9 個(gè)月內(nèi)把物理服務(wù)器的數(shù)目降低至 500 臺(tái)。同期虛擬機(jī)數(shù)量預(yù)計(jì)將增至 1,500。我們預(yù)計(jì)將所有 1,500 臺(tái)虛擬機(jī)放置至 20 臺(tái) VMware ESX 服務(wù)器。我們現(xiàn)在 8 臺(tái)服務(wù)器支持 450 個(gè)虛擬機(jī),平均的 CPU 和內(nèi)存使用率約為 30%,因此有很多余量支持更多的虛擬機(jī)。
圖 2)轉(zhuǎn)型進(jìn)程
未來(lái)計(jì)劃
我們對(duì)目前所取得的進(jìn)展感到非常高興,而且已經(jīng)能夠看到因?yàn)樘摂M環(huán)境所帶來(lái)的額外的機(jī)會(huì):
•多平臺(tái)支持。我們目前的環(huán)境僅僅包括基于 Intel® 的服務(wù)器。我們也希望能夠支持采用 IBM 邏輯分區(qū)(LPAR)的PowerPC 平臺(tái)和 AIX 操作環(huán)境虛擬,以及采用 Solaris™ container 的 SPARC。
•單一儀表板。我們目前的管理環(huán)境主要依賴 Virtual Center 檢測(cè)和管理 VMware 服務(wù)器/虛擬機(jī),以及 NetApp Operations Manager 檢測(cè)和管理存儲(chǔ)。現(xiàn)在我們正在積極采用 NetApp SANscreen,以使我們能夠在單一的儀表板上既能看到服務(wù)器也能看到存儲(chǔ)。
•業(yè)務(wù)連續(xù)性。在物理服務(wù)器環(huán)境中進(jìn)行恢復(fù)是很難的。新的虛擬環(huán)境使我們能夠提供更高水平的業(yè)務(wù)連續(xù)性。我們希望采用 SnapMirror 將所有虛擬機(jī)數(shù)據(jù)鏡像至一個(gè)單一的 NetApp NearStore® 系統(tǒng)。這樣一來(lái),我們將能夠迅速地從任何服務(wù)器或存儲(chǔ)硬件錯(cuò)誤中進(jìn)行恢復(fù),提供數(shù)據(jù)的異地副本進(jìn)行站點(diǎn)恢復(fù)。
•按需分配服務(wù)器與存儲(chǔ)。我們的最終夢(mèng)想是創(chuàng)造一個(gè)自主服務(wù)的環(huán)境,實(shí)現(xiàn)工程師能夠在線詢問(wèn)服務(wù)器和存儲(chǔ)資源,而且資源無(wú)需管理員的參與即可被自動(dòng)配置。
結(jié)論
雖然我們的轉(zhuǎn)型只進(jìn)行了一半,但我們已經(jīng)看到虛擬環(huán)境所帶來(lái)了大量好處:
•更快的配置。由于我們快速的增長(zhǎng),以前要走在需求前面或者滿足預(yù)料之外的要求很困難。如果一個(gè)工程項(xiàng)目需要多個(gè)附加的服務(wù)器進(jìn)行測(cè)試,可能需要長(zhǎng)達(dá) 4 個(gè)星期去準(zhǔn)備和配置所需要的硬件?,F(xiàn)在我們幾分鐘就可以配置新的虛擬服務(wù)器。
•負(fù)載平衡。與配置相似,如果一臺(tái)物理服務(wù)器負(fù)載過(guò)重,通常會(huì)是一個(gè)痛苦而且很長(zhǎng)的重新配置過(guò)程。現(xiàn)在,我們定時(shí)檢測(cè) VM,查看性能,如果需要就盡快采用 VMware 工具迅速增補(bǔ)資源。如果某一個(gè) VMware 服務(wù)器負(fù)載過(guò)高,我們可以使用 VMotion® 移動(dòng)虛擬機(jī),在最小的間斷內(nèi)重新平衡負(fù)載。
•彈性提高。我們現(xiàn)在可以更快地從服務(wù)器/操作系統(tǒng)錯(cuò)誤中恢復(fù)。如果一個(gè)物理服務(wù)器有了硬件錯(cuò)誤,這顯然會(huì)很費(fèi)時(shí)間。如果在 VM 上出現(xiàn)一個(gè)錯(cuò)誤,我們可以很快地重啟。如果一個(gè)虛擬服務(wù)器要出現(xiàn)錯(cuò)誤,我們可以采用 VM 移植快速地在其它虛擬服務(wù)器上重啟它的負(fù)載。
•減少宕機(jī)時(shí)間。VMware 和 NetApp 存儲(chǔ)的維護(hù)特點(diǎn)使我們的維護(hù)幾乎沒(méi)有宕機(jī)時(shí)間,減少了對(duì)工程師的影響。
這些改進(jìn)最直接的結(jié)果就是一個(gè)更加靈活、有彈性的開(kāi)發(fā)和測(cè)試環(huán)境,最終可以提高工程師的生產(chǎn)力,縮短上市時(shí)間。認(rèn)識(shí)到這個(gè)方法的優(yōu)勢(shì)后,其它 NetApp 工程應(yīng)用實(shí)驗(yàn)室也正在采取相似的辦法。
本文作者希望特別感謝整個(gè) NetApp 班加羅爾工程應(yīng)用支持團(tuán)隊(duì)的成員,是他們不知?jiǎng)诶鄣墓ぷ鞑攀惯@個(gè)項(xiàng)目獲得成功。工程支持 Jim Harrigan和 NFS 產(chǎn)品經(jīng)理 Sunita Rao 提供了非常有價(jià)值的指導(dǎo)。
John Cherian 現(xiàn)場(chǎng)經(jīng)理,工程支持 |
Suresh Kumar NetApp 班加羅爾 |
George Stephen NetApp 班加羅爾 George(左)在 NetApp 擔(dān)任 Windows 管理員已有 3 年,近兩年專注于虛擬技術(shù)。 |