為了解決散熱問題,風扇的轉(zhuǎn)速和風量也需大幅提升。風扇作為一個經(jīng)典的旋轉(zhuǎn)機械,它的振動加速度值與轉(zhuǎn)速呈2次方的比例關(guān)系,而它的扇葉旋轉(zhuǎn)帶來的氣動噪聲與轉(zhuǎn)速呈6次方的比例關(guān)系。
這就引發(fā)一個新問題:硬盤將受到風扇振動、噪聲的干擾,這干擾達到一定量級之后,硬盤就不能正常讀取和寫入了。而且,硬盤的單盤容量五年之間就翻倍了,方法之一就是讓磁單元變小、讓磁道寬度變小,因此對磁頭的定位精度要求更高。拿16TB的硬盤來說,磁道的寬度大約是50nm,而磁頭的位置偏差需要控制在10nm以內(nèi)。也就是說,需要把硬盤工作環(huán)境內(nèi)的振動控制到極低的程度,才能保證硬盤的正常讀寫。
我們在近幾年的服務(wù)器設(shè)計中,不管是浪潮最新一代的服務(wù)器產(chǎn)品中,還是Facebook 的OCP存儲架構(gòu)中,都看到了在風扇附近出現(xiàn)了吸音泡棉和蜂窩波導網(wǎng),能緩解風扇的高頻噪音對硬盤的影響。在企業(yè)中都會有專門的測試項目來驗證這個問題,不同的公司測試方法的稱呼不同,如RV(Rotational Vibration),RVI(Rotational Vibration Interference),PLV(Performance Loss Verification),ISP(In System Performance)等。
有一個比喻特別形象,就是地震的時候人在黑板上寫字,肯定寫得歪歪扭扭,別人再去讀的時候,也一定讀不準確,這塊黑板就面目全非、錯誤連篇了。這個過程發(fā)生在硬盤的磁盤上,就會產(chǎn)生壞扇區(qū),壞扇區(qū)積累得多了,硬盤會報錯,甚至會被系統(tǒng)標記為壞盤。
為了控制磁頭的振動,硬盤內(nèi)部有一套主動控制的機制,來識別并修正位置偏差(PES),簡單來說就是盡量讓磁頭寫入磁道中心,如果偏離得遠了,作動器就會施加動態(tài)的反向作用力把磁頭糾正回來。糾正不回來的,就不允許寫入,而是要等碟片再轉(zhuǎn)1圈或者N圈,直到磁頭能夠準確定位到目標位置再執(zhí)行寫入的動作,這個過程我們叫它Retry(重試),Retry的圈數(shù)越多,硬盤的寫入性能就損失得越多。這就是硬盤受振動干擾而性能下降的原理。
如果大家使用機械硬盤的筆記本,可能遇到過這種場景,用它播放一首歌曲如《青藏高原》,本來硬盤正在有條不紊地向聲卡輸送數(shù)據(jù),音樂播放很流暢,突然歌聲變得高亢起來,喇叭釋放出巨大的能量,硬盤內(nèi)部發(fā)生共振,不能正常輸出數(shù)據(jù)了,音樂就會開始卡頓,再過一會兒,筆記本就藍屏了。
現(xiàn)在我們筆記本里用機械硬盤比較少了,但是類似事故可能會發(fā)生在數(shù)據(jù)中心。比如火警報警器、滅火器噴氣的聲音,還有和硬盤同氣連枝的風扇的噪聲,都會影響到硬盤。
第一次聽說風扇的噪聲能影響到硬盤內(nèi)部工作的人,往往會覺得不可思議。其實這也并不神奇,因為聲音就是空氣的振動,我們能聽到聲音也是因為空氣的振動傳遞到耳道內(nèi)引起骨膜等一系列骨骼的振動。風扇的噪聲也一樣能引起它附近的硬盤內(nèi)部零部件的振動。經(jīng)過調(diào)查,硬盤的磁頭尺寸竟然和耳蝸的尺寸差不多(1mm左右)。磁頭等尺度精密的零部件因為高頻噪聲激勵而發(fā)生共振,也屬正常。而且風扇的轉(zhuǎn)速越高,它的高頻成分就越多,能量越大,因此高轉(zhuǎn)速風扇會對硬盤造成明顯的的影響。
二、如何改善硬盤與機箱振動的兼容性?
作為服務(wù)器系統(tǒng)的研發(fā),首先我們應(yīng)該了解到機械硬盤的這種物理上的局限性,其次應(yīng)想方設(shè)法地提高硬盤和我們機箱和風扇的兼容性。
OCP這個平臺是全球第一次把這么多公司的振動、噪聲專業(yè)領(lǐng)域的研發(fā)人員聚集在一起,有Facebook, Microsoft, Dell,浪潮,希捷,西部數(shù)據(jù),還有類似BOYD的散熱風扇、散熱器供應(yīng)商,大家的關(guān)系是友商、是供應(yīng)商與客戶、或是產(chǎn)業(yè)鏈的上下游的合作伙伴。
在OCP發(fā)起Storage Vibration(也即存儲設(shè)備振動)項目之前,各個公司在相對隔離的條件下,研發(fā)著各自的產(chǎn)品和技術(shù)。由于每個公司對存儲、服務(wù)器發(fā)展的目標有差異,花了兩年時間迭代出來的產(chǎn)品,如硬盤、主板、風扇、機箱等,組裝起來時出現(xiàn)兼容性的問題。麻煩的是,這個兼容性問題不是簡單的結(jié)構(gòu)裝配或者通訊協(xié)議匹配這些可以提前形成規(guī)范的東西,而是必須要硬盤、風扇、機箱都有了樣品,組裝在一起才能試驗出問題來;然而,一旦出現(xiàn)了問題就很難補救,除非重新設(shè)計。
因此各個公司不約而同的開始思考,如何把振動、噪聲、硬盤的性能這些看不著、說不清的抽象概念也形成規(guī)范設(shè)計?從2020年4月起,OCP Storage – Vibration項目組聚集了行業(yè)內(nèi)的一線研發(fā)人員,共同商討對策,統(tǒng)一測量標準,開放設(shè)計經(jīng)驗,以期在硬盤容量、散熱風扇并肩發(fā)展的趨勢中找到新的平衡點。
三、統(tǒng)一的測量系統(tǒng)
OCP Storage – Vibration的目標是:Common Language and Tool。翻譯過來就是形成一套在各個公司之間都適用的溝通流程和技術(shù)術(shù)語,以及定義一個統(tǒng)一的測量系統(tǒng)。
在此之前,各個公司都以不同的方式測量機箱里的振動和噪聲,然后再去分析和解決問題。為了能讓麥克風安裝在硬盤槽位內(nèi),一般都是設(shè)計一個HDD Acoustic Surrogate(采集噪聲的硬盤假體),它的外形與硬盤相同,可以代替硬盤插入機箱內(nèi)部,由嵌入其中的高精度麥克風采集噪聲信號,配合前端數(shù)采組成一套測量系統(tǒng)。但是這里面涉及很多細節(jié),每個細節(jié)的差異都會導致相同一個機箱的測量結(jié)果不同。大家知道,測量系統(tǒng)不統(tǒng)一,數(shù)據(jù)是沒辦法進行比較的,更別提在不同的公司制定統(tǒng)一的標準。所以O(shè)CP Storage小組里的各個公司把自己正在使用的方法和工具分享出來,然后共同測量一個機箱的噪聲信號,進行信號的相關(guān)性分析,并進行優(yōu)劣勢的比較和細節(jié)整合,最后定義了一個Acoustic Surrogate的設(shè)計。
在OCP Storage – Vibration項目中,測量系統(tǒng)按照如下7個方面分別進行討論:
1、麥克風的選型和安裝位置
根據(jù)工藝,市面上麥克風可以分為MEMS、ECM和ICP。MEMS和ECM麥克風因其小巧的身材和低廉的成本,常用在手機、助聽器、耳機等消費級產(chǎn)品中,但其動態(tài)范圍一般較窄,頻響曲線漂移較大,不能覆蓋服務(wù)器機箱內(nèi)的測量需求,而且經(jīng)實驗驗證,其測量誤差在某些頻段高達60dB以上。因此高精度的ICP麥克風成為Acoustic Surrogate中的首推之選。另外,機箱內(nèi)的空間緊湊,對麥克風的尺寸限制非常嚴苛,最終選取了Grass 47BX,一顆1/4英寸的平頭安裝式(flush mount)麥克風。
2、麥克風的數(shù)量和方位
在各自設(shè)計的Acoustic Surrogate中,有的公司把麥克風放在硬盤SAS/SATA接口的位置(靠近背板);有的把多顆麥克風以陣列的形式布置在硬盤的上表面;有的公司把麥克風安裝在硬盤的上表面和下表面。根據(jù)不同方位采集到的噪聲信號與PES的相關(guān)性分析(correlation analysis),最終發(fā)現(xiàn):將麥克風放置在上、下表面對應(yīng)碟片轉(zhuǎn)軸的位置,采集到的噪聲信號與PES的頻域相關(guān)性最好,也據(jù)此定義了麥克風的數(shù)量和方位。
備注:Position Error Signal,磁頭置位誤差,與硬盤性能損失直接相關(guān)。
3、Acoustic Surrogate的材料
不同材料的聲阻抗不同,對聲音信號的測量結(jié)果是有影響的。一般來說,聲阻抗應(yīng)不低于10,只要不是過軟的或者吸音的材料就可以使用。OCP推薦的材料是鋁合金。
4、數(shù)據(jù)采集硬件
數(shù)據(jù)采集硬件的選擇很多,只要能滿足2個通道的ICP信號采集,并且支持24位精度,以及40kHz采樣率,就可配合前文提到的麥克風進行服務(wù)器內(nèi)的噪聲采集。
5、數(shù)據(jù)采集參數(shù)
為了得到足夠的數(shù)據(jù)可以做有效的分析,在風扇轉(zhuǎn)速平穩(wěn)后應(yīng)采集不少于10s的噪聲信號,采樣率不能低于40kHz。
6、測量信號的統(tǒng)計和分析方法
有的公司習慣于分布很多麥克風然后求其平均值,有的公司則不做平均;有的公司對振動和噪聲信號做倍頻程分析或者1/3倍頻程分析,有的公司則習慣于用窄帶FFT來分析。OCP-Storage小組內(nèi)討論的結(jié)果是,同一個Acoustic Surrogate的2顆麥克風的信號應(yīng)不計平均,單獨進行無計權(quán)1/3倍頻程分析,并繪制風險識別彩圖,作為公司之間技術(shù)交流的依據(jù)。以下為一個噪聲數(shù)據(jù)的范例。
風險識別彩圖的劃分方式尚無統(tǒng)一定義,由各個公司分別定義,以上只是OCP給出的一個范例。在劃分風險區(qū)域時,應(yīng)使得大多數(shù)機箱都落在黃色(中風險)區(qū)域。
目前介紹Acoustic Surrogate的規(guī)格書已經(jīng)發(fā)布到OCP官網(wǎng)上,可以直接點擊鏈接https://www.opencompute.org/documents/spec-pdf下載,或者在OCP官網(wǎng)進入contribution頁面搜索【HDD dynamics】。OCP官網(wǎng)上也同步公開了3D圖,供各個公司自由獲取并制作、使用。OCP-Storage小組內(nèi)的公司也基本上都已經(jīng)按照這個規(guī)格加工出一些Acoustic Surrogate,在研發(fā)早期階段就可以開始采集機箱硬盤槽內(nèi)的噪聲,然后與硬盤廠、風扇廠聯(lián)合進行服務(wù)器、存儲機箱內(nèi)的聲學設(shè)計。下一步OCP Storage項目組將對硬盤安裝環(huán)境的振動測量工具、方法進行討論和定義。最終可能會發(fā)布一個全新的工具,集噪聲、振動采集的功能于一體。
四、浪潮的實踐
浪潮始終活躍在OCP等開放計算的社區(qū)中,貢獻我們的設(shè)計經(jīng)驗和數(shù)據(jù),也堅持第一時間把OCP最先進的方法帶到公司內(nèi)應(yīng)用和實踐。目前浪潮已經(jīng)開始使用OCP Acoustic Surrogate,是中國第一家掌握這項技術(shù)并按照OCP規(guī)范加工自己的Acoustic Surrogate的公司。我們不僅擁有OCP定義的3.5”HDD Acoustic Surrogate,而且自主設(shè)計了2.5”HDD Acoustic Surrogate,在HDD Vibration Surrogate(采集振動的硬盤假體)的應(yīng)用中也積累了一些經(jīng)驗,可以進行各種服務(wù)器、存儲機箱的噪聲和振動信號分析,結(jié)合硬盤的敏感度曲線可以在研發(fā)早期進行有效的風險評估,并輔助機箱和風扇的聲學優(yōu)化和結(jié)構(gòu)動力學設(shè)計。
下面是一個短視頻,介紹浪潮在OCP Acoustic Surrogate的實踐。
OCP China Day 2021 – 分論壇3 – OCP服務(wù)器存儲模塊振動(Vibration)項目-實驗
感謝我的同事葉毓睿、王嵩凱對本篇文章、視頻的貢獻。
擴展閱讀:
1、OCP Storage項目組 Vibration規(guī)范
https://www.opencompute.org/documents/spec-pdf
2、OCP China Day 2021 – 分論壇3 – OCP存儲設(shè)備振動項目【視頻】
https://mudu.tv/live/watch/general?id=lj8bke2m&key=9ef192aaae74fbc41b5b6bdcd807f436&type=assign