IT邵年 發(fā)表于:14年06月17日 15:22 [原創(chuàng)] DOIT.com.cn
隨著IT技術(shù)的大規(guī)模應(yīng)用,海量數(shù)據(jù)的存儲(chǔ)和處理在多媒體行業(yè)中應(yīng)用越來越廣泛,在影視動(dòng)畫領(lǐng)域更是如此。但是,傳統(tǒng)的存儲(chǔ)設(shè)備與架構(gòu)對那些初創(chuàng)的設(shè)計(jì)公司來說,實(shí)在是價(jià)格昂貴,所以他們試圖用最近出現(xiàn)的云存儲(chǔ)技術(shù)來解決自己的實(shí)際問題。下面這個(gè)例子就是利用云存儲(chǔ)技術(shù)在動(dòng)畫公司渲染流程中的一個(gè)應(yīng)用典型。
背景介紹
贊奇科技是國內(nèi)一家專業(yè)從事三維圖形云渲染服務(wù)的公司。他們把圖形高密度計(jì)算通過云計(jì)算手段面向CG行業(yè)(電腦圖形/數(shù)碼圖形行業(yè))提供在線實(shí)時(shí)渲染服務(wù)。渲染是三維動(dòng)畫片制作流程中的必要工序,即在CG的原始模型文件中設(shè)置物理的光影和材質(zhì)信息來生成一組連續(xù)幀的圖像的過程,這需要大量計(jì)算資源的計(jì)算。2001年,夢工廠、皮克斯等國外公司首先提出了數(shù)字化的影視技術(shù)的概念,掀起了三維動(dòng)畫技術(shù)的革命,通過這些年的發(fā)展,渲染計(jì)算的規(guī)模隨著電影技術(shù)的發(fā)展而逐年增長,渲染產(chǎn)業(yè)也逐漸成為CG數(shù)字影視的重要支撐。
贊奇科技圍繞圖形渲染核心業(yè)務(wù)圈發(fā)展,專注兩個(gè)核心產(chǎn)品及服務(wù)的研發(fā)與應(yīng)用推廣:渲云平臺(tái)和Elara渲染器。“渲云”通過云計(jì)算的模式為CG行業(yè)提供專業(yè)便捷的一體化云渲染服務(wù),他們的云渲染數(shù)據(jù)中心坐落于江蘇常州,而服務(wù)的客戶卻遍布全國,這得益于云計(jì)算模式在渲染計(jì)算中的應(yīng)用:小文件更多是通過插件和客戶端由客戶在線自助操作完成,大客戶則是通過專屬的數(shù)據(jù)通道,由專業(yè)的渲染工程師一對一提供遠(yuǎn)程服務(wù)。而贊奇科技另一個(gè)重要的產(chǎn)品——Elara渲染器則是一款具有自主產(chǎn)權(quán)的電影級高端渲染計(jì)算引擎,它采用更加精簡的內(nèi)核設(shè)計(jì)和操作流程,渲染效果堪比國際頂級動(dòng)畫大片。公司通過將這兩者進(jìn)行軟硬件的完美整合,為CG行業(yè)提供全方位的渲染技術(shù)解決方案。
主要挑戰(zhàn)
渲染平臺(tái)在建設(shè)過程中面臨的主要挑戰(zhàn)是什么? 集群渲云平臺(tái)是典型的I/O密集型高性能計(jì)算應(yīng)用,任務(wù)提交到集群調(diào)度系統(tǒng)后,Head Node 為任務(wù)指派空閑的Computing Nodes或進(jìn)行隊(duì)列編制,Computing Nodes接到調(diào)度指令后立即到存儲(chǔ)路徑下讀取待處理的數(shù)據(jù),該過程是多節(jié)點(diǎn)并發(fā)的,存儲(chǔ)系統(tǒng)并發(fā)I/O吞吐壓力與集群規(guī)模成正比,在渲染任務(wù)處理過程中,所有渲染節(jié)點(diǎn)仍然會(huì)有和存儲(chǔ)節(jié)點(diǎn)的頻繁數(shù)據(jù)交互過程,直到每個(gè)節(jié)點(diǎn)分別完成各自分配的渲染任務(wù)并將結(jié)果回存至存儲(chǔ)目錄下。存儲(chǔ)系統(tǒng)的I/O吞吐壓力在渲染作業(yè)執(zhí)行過程中持續(xù)存在且在任務(wù)分發(fā)階段最為明顯,存儲(chǔ)系統(tǒng)的性能偏低會(huì)導(dǎo)致Compute Nodes遲遲不能從存儲(chǔ)節(jié)點(diǎn)拷貝到數(shù)據(jù),進(jìn)而影響渲染作業(yè)的啟動(dòng)。
如何給出合理的框架和有效的設(shè)計(jì)方法,來建立高性能、高可伸縮、高可用的文件存儲(chǔ)服務(wù),是擺在系統(tǒng)設(shè)計(jì)者面前極富挑戰(zhàn)性的任務(wù)。
贊奇科技發(fā)展有限公司總經(jīng)理?xiàng)铌考蚬P者介紹說:“由于計(jì)算機(jī)物理的I/O瓶頸制約,我們在構(gòu)建存儲(chǔ)系統(tǒng)的時(shí)候受限于單個(gè)存儲(chǔ)硬件設(shè)備的性能特點(diǎn),很難提高存儲(chǔ)性能。隨著機(jī)器規(guī)模的增加,存儲(chǔ)系統(tǒng)的訪問量會(huì)呈指數(shù)增長,一旦到達(dá)極限值,機(jī)器的規(guī)模便沒有辦法擴(kuò)展。然而要渲染《瘋狂原始人》這樣的電影,幾百臺(tái)機(jī)器的規(guī)模是沒有辦法承擔(dān)這樣的業(yè)務(wù)需求的,夢工廠的影片渲染也基本上要一千臺(tái)、兩千臺(tái)的規(guī)模。但是我們前期建設(shè)的數(shù)據(jù)中心,100個(gè)計(jì)算節(jié)點(diǎn)同時(shí)計(jì)算的時(shí)候,存儲(chǔ)性能就已經(jīng)達(dá)到極限,在往上擴(kuò)展的時(shí)候,渲染性能就會(huì)整體下降,這個(gè)問題曾經(jīng)是我們業(yè)務(wù)發(fā)展的最大的阻礙”
Intel與集運(yùn)提供的分布式云存儲(chǔ)方案
贊奇科技發(fā)展有限公司總經(jīng)理?xiàng)铌考蚬P者介紹說:“我們公司是去年下半年的時(shí)候和集云合作共同搭建了現(xiàn)在的渲染數(shù)據(jù)中心,這個(gè)機(jī)房采用的是英特爾具備多種創(chuàng)新設(shè)計(jì)的至強(qiáng)E5-CPU,幫助我們搭建起更加高效、靈活、開放和低成本的全面解決方案。第一期以500個(gè)計(jì)算節(jié)點(diǎn)的規(guī)模進(jìn)行實(shí)施。目前基于集云的IDC技術(shù),我們未來可以擴(kuò)展到1500-2000個(gè)計(jì)算節(jié)點(diǎn),渲云平臺(tái)的規(guī)模及性能目前在國內(nèi)也處于領(lǐng)先地位。”
因?yàn)榇饲安捎玫氖谴疟P陣列的方式,最終計(jì)算性能就受限在存儲(chǔ)讀取設(shè)備上。而此次我們做了分載,通過分布式系統(tǒng)進(jìn)行存儲(chǔ),采用了集云的一體化的系統(tǒng),實(shí)現(xiàn)穩(wěn)健的快速存儲(chǔ)、訪問及安全規(guī)范。
江蘇集云信息科技有限公司CEO陳寶輝對這個(gè)項(xiàng)目有清晰的認(rèn)識(shí):云存儲(chǔ)就是擺脫單存儲(chǔ)節(jié)點(diǎn)的瓶頸,往橫向擴(kuò)展(scale-out),橫向擴(kuò)展存儲(chǔ)是這個(gè)項(xiàng)目的關(guān)鍵,用低成本的存儲(chǔ)服務(wù)器能夠橫向擴(kuò)展達(dá)到高性能的要求。這就是通常說的云分布存儲(chǔ)方案在贊奇實(shí)現(xiàn)的一個(gè)關(guān)鍵。
江蘇集云信息科技有限公司CEO陳寶輝總結(jié)道:其實(shí)云渲染主要用了兩個(gè)能力:計(jì)算能力、存儲(chǔ)的讀寫能力。因?yàn)槭遣⑿袖秩镜模?00個(gè)節(jié)點(diǎn)接到渲染任務(wù),500個(gè)節(jié)點(diǎn)同時(shí)渲染。同時(shí)渲染的時(shí)候,等最后一個(gè)節(jié)點(diǎn)完成才能并行往下處理第二步,所以某個(gè)單節(jié)點(diǎn)如果很慢就會(huì)產(chǎn)生一些問題。這些問題,大部分瓶頸不在計(jì)算上,而是在存儲(chǔ)上。普通存儲(chǔ)應(yīng)對并發(fā)訪問的時(shí)候往往成為瓶頸,導(dǎo)致系統(tǒng)處理速度就變慢,這個(gè)挑戰(zhàn)就是我們和英特爾合作的契機(jī)。英特爾有一個(gè)橫向擴(kuò)展存儲(chǔ)參考設(shè)計(jì),我們參照它的參考設(shè)計(jì),設(shè)計(jì)了一體化的存儲(chǔ)產(chǎn)品,包括服務(wù)器、網(wǎng)絡(luò)、存儲(chǔ)系統(tǒng)全部集成,然后跟客戶一起調(diào)優(yōu)。贊奇項(xiàng)目是我們第一個(gè)在云渲染存儲(chǔ)的應(yīng)用。在項(xiàng)目測試中,我們的存儲(chǔ)達(dá)到了設(shè)計(jì)峰值,它的能力都用上了。
整個(gè)系統(tǒng)真正做到了分布式的,核心就是橫向擴(kuò)展(scale-out),如果將來它的存儲(chǔ)能力不夠,那么通過不斷增加存儲(chǔ)節(jié)點(diǎn),系統(tǒng)存儲(chǔ)能力和I/O并行能力可以隨時(shí)無縫升級,這是傳統(tǒng)存儲(chǔ)做不到的。而且我們的產(chǎn)品不僅滿足性能的要求,同時(shí)為用戶實(shí)現(xiàn)了較低的成本。比如我們使用的硬盤,就不是價(jià)格昂貴的光纖盤,而用的是廉價(jià)的SATA盤。通過對每次讀寫速度的測量、調(diào)優(yōu),到達(dá)性能和成本兼顧。云渲染中對存儲(chǔ)有獨(dú)特的訪問模式,通過大量調(diào)優(yōu)我們的橫向擴(kuò)展的存儲(chǔ)技術(shù)來達(dá)到并發(fā)渲染高性能的要求。從效果來看,大概成本是原來存儲(chǔ)設(shè)備的三分之一到五分之一,但速度高幾倍。
同時(shí)橫向擴(kuò)展存儲(chǔ)的管理性也很重要,比如有防硬件故障、防鎖,集云是英特爾的服務(wù)器方案合作伙伴,很多技術(shù)都通過與英特爾的合作實(shí)現(xiàn)。我們下面將和英特爾在另一個(gè)橫向擴(kuò)展技術(shù)Luster存儲(chǔ)方案上合作,實(shí)現(xiàn)有更多商業(yè)支持的解決方案。
設(shè)備定制化讓性價(jià)比更好
除了整個(gè)系統(tǒng)架構(gòu)的改變,出于性價(jià)比的考慮,各種設(shè)備也采用了定制化。剛剛大家已經(jīng)看到了存儲(chǔ)采用的是SATA硬盤,其實(shí)服務(wù)器也是定制的。在這個(gè)項(xiàng)目中,我們開發(fā)了中國第一個(gè)托盤式的服務(wù)器產(chǎn)品。
托盤式服務(wù)器在Facebook是用到過的,它為Facebook三年節(jié)省了20億美金。而這個(gè)項(xiàng)目中,同樣采用了這種設(shè)計(jì),從而讓用戶的成本也降低20%,性能則提高20%,所以整體就有40%的性價(jià)比的提升。談到整個(gè)項(xiàng)目Intel公司提供的幫助,江蘇集云信息科技有限公司CEO陳寶輝說,跟英特爾的合作在很多上面都是方案定制服務(wù)。,因?yàn)楝F(xiàn)在的市場競爭已經(jīng)不是在某個(gè)局部技術(shù)上的競爭,而更多是一種方案的競爭。我們的方案是根據(jù)用戶的需求定制的,在服務(wù)器設(shè)計(jì)時(shí)把CPU設(shè)計(jì)在哪個(gè)位置更節(jié)能,機(jī)構(gòu)如何設(shè)計(jì)更有利散熱并降低成本等,,這些都是根據(jù)特定的用戶需求定制的優(yōu)化實(shí)現(xiàn)方案,這樣形成了集云獨(dú)特的競爭力。云存儲(chǔ)也是這樣,我們能用SATA盤達(dá)到光纖盤的速度,有巨大競爭優(yōu)勢的創(chuàng)新,同時(shí)成本也降低了很多。
依托與Intel的合作,整個(gè)的架構(gòu)其實(shí)我們沒有在基礎(chǔ)設(shè)計(jì)上投入太多,。我們的投入更多地是在Intel的基礎(chǔ)技術(shù)上為用戶進(jìn)行量身定制方案設(shè)計(jì)和服務(wù)這是很好的一個(gè)合作共贏模式。
整體性能提高三倍
贊奇科技發(fā)展有限公司總經(jīng)理?xiàng)铌考鳛橛脩魧@套系統(tǒng)還是非常滿意的,他說:“采用這套系統(tǒng)之后我們整個(gè)訪問效率大大提升。第一,存儲(chǔ)設(shè)備的網(wǎng)絡(luò)占用率明顯下降,比原有占用率下降三分之二。第二,整體系統(tǒng)存儲(chǔ)和訪問速率提升三倍多。使得整個(gè)系統(tǒng)規(guī)模目前已經(jīng)可以突破到500臺(tái)。我們系統(tǒng)的負(fù)載有一個(gè)自動(dòng)調(diào)配的過程。通過英特爾至強(qiáng)服務(wù)器,充分降低了我們TCO的指數(shù)。目前渲云數(shù)據(jù)中心已為上千家客戶提供服務(wù),如蘇州米粒、常州的恐龍園動(dòng)漫、卡龍、炮炮兵,蘇州天潤安鼎等。”
總體來說,這一套新的計(jì)算架構(gòu)存儲(chǔ)效率確實(shí)比以前讀取穩(wěn)定性更高。當(dāng)然,新系統(tǒng)還有一些挑戰(zhàn),楊總也希望和集云陳總和英特爾繼續(xù)探討超大規(guī)模的并發(fā)訪問。贊奇目前是500臺(tái),但是遠(yuǎn)期的目標(biāo)是要做到2000甚至5000臺(tái),因?yàn)橹挥羞@樣才可以面向好萊塢的影片提供高性能的渲染服務(wù)。
公司簡介 | 媒體優(yōu)勢 | 廣告服務(wù) | 客戶寄語 | DOIT歷程 | 誠聘英才 | 聯(lián)系我們 | 會(huì)員注冊 | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.