磁頭、磁盤和空氣軸承共同構(gòu)成了硬盤頭盤界面( Head Disk Interface, HDI),作為硬盤執(zhí)行讀寫數(shù)據(jù)的工作環(huán)境,其實時狀態(tài)的好壞決定了硬盤能否正常為用戶提供服務(wù)。頭盤空間和飛行高度不僅影響信號的強度和分辨率,而且與硬盤的磁存儲密度有著密切關(guān)系,隨著磁存儲密度的提高,頭盤空間和飛行高度也相應(yīng)地減小, 如今通過TFC(Thermal Fly-height Control Technology, 熱飛高控制技術(shù))已經(jīng)能將頭盤空間控制在1nm 左右,在極小空間,磁頭磁盤難免會發(fā)生碰撞接觸。
機械硬盤由于具有結(jié)構(gòu)精密、復雜性高、耦合性強及抗沖擊能力弱等特點,擁有多種潛在故障模式與機理,研究硬盤故障模式、原因、機理與可靠性試驗已成為提高機械硬盤可靠性、保障存儲系統(tǒng)穩(wěn)定、數(shù)據(jù)安全的重要基礎(chǔ)。
經(jīng)過近十年的研究,硬盤頭盤界面相關(guān)研究逐漸成為硬盤故障機理研究的熱點方向,各硬盤廠商和國內(nèi)外學者在硬盤故障機理方面進行了大量理論與試驗研究。三星公司研究結(jié)果表明頭盤界面故障是影響硬盤可靠性的主要因素,60%以上的故障與頭盤界面有關(guān);香港城市大學對硬盤的故障模式和機理進行分級排序,確定了硬盤的主要故障模式和機理為頭盤間磨損、過應(yīng)力和磁頭臂組件的共振。
實際上,產(chǎn)品故障或失效一般可以分為漸變失效和突變失效兩類,其中漸變失效在產(chǎn)品失效中占 70%~80%,是產(chǎn)品失效的主要形式。盡管機械硬盤擁有多種故障模式和機理,但統(tǒng)計發(fā)現(xiàn)超過 60%的故障是由機械故障導致的,而且機械故障是緩慢退化的過程,這對開展硬盤加速退化試驗、故障預(yù)警和剩余壽命預(yù)測具有重要參考意義。
從用戶層面上來看,無法找到數(shù)據(jù)或數(shù)據(jù)已損壞是硬盤完全失效前表現(xiàn)出來的主要故障形式,而這一問題一般就被歸結(jié)為硬盤頭盤界面問題。在硬盤故障機理研究領(lǐng)域,硬盤頭盤間的磨損、過應(yīng)力和磁頭臂組件的共振這三種潛在故障機理風險最高,與之對應(yīng)的頭盤界面和磁頭臂組件成了硬盤主要的故障源。
事實上,據(jù)三星公司統(tǒng)計,從硬盤加速壽命試驗、可靠性驗證試驗以及現(xiàn)場反饋數(shù)據(jù)中反映出,頭盤界面相關(guān)失效形式分別占到了各自總體失效的 64%、 77%和 64.6%,可以看出頭盤界面是影響硬盤可靠性的主要因素,而頭盤界面相關(guān)失效主要由頭盤接觸引起。
從介質(zhì)和存儲系統(tǒng)多層次保障數(shù)據(jù)可靠與可用
隨著信息技術(shù)的快速發(fā)展,數(shù)據(jù)中心的數(shù)據(jù)越來越多,給存儲系統(tǒng)可靠性和可用性的巨大挑戰(zhàn)。為了構(gòu)建高可靠、高可用的存儲系統(tǒng),系統(tǒng)設(shè)計者以及存儲領(lǐng)域研究者越來越關(guān)注存儲系統(tǒng)可靠性預(yù)測研究。
尤其存儲系統(tǒng)的架構(gòu)演變,存儲組織和冗余布局也從設(shè)備(硬盤)視角變?yōu)閿?shù)據(jù)(文件、對象)視角。但現(xiàn)有硬盤故障預(yù)測方法只是一種設(shè)備視角的可靠性動態(tài)評價,即孤立地給出硬盤個體的健康或潛在故障的評級,并未考慮它對系統(tǒng)(數(shù)據(jù))可靠性的影響,如對于一個預(yù)警硬盤,如果它所屬的某些校驗組已經(jīng)處于降級模式,只要再發(fā)生一個故障就會出現(xiàn)數(shù)據(jù)丟失,那么該預(yù)警硬盤的健康狀況對系統(tǒng)可靠性的影響非常大;相反,如果它所屬的校驗組都處于完全健康的模式,可以容忍一個故障發(fā)生而不丟失數(shù)據(jù),那么該預(yù)警盤的健康狀況對系統(tǒng)可靠性的影響較小。因此,有效保障存儲數(shù)據(jù)安全的故障預(yù)測,不僅要基于硬盤個體的實時健康度評價,更要結(jié)合硬盤在系統(tǒng)冗余布局中的角色,從存儲介質(zhì)和存儲系統(tǒng)不同預(yù)測對象角度,綜合評價硬盤潛在故障對系統(tǒng)可靠性的影響,這就相當于給存儲系統(tǒng)帶了“健康手環(huán)”,為數(shù)據(jù)可靠性預(yù)警處理提供量化依據(jù)。
由于硬盤的TPI越來越高,飛高越來越低,軌道間距越來越窄,硬盤針對particle/contamination(顆粒/污染物)的敏感度越來越高。浪潮存儲在和硬盤廠商在產(chǎn)線引入特有的測試方法,通過改變HDA內(nèi)部的空氣流動,將HDA腔體中散落在角落的particle/contamination攪動至磁碟表面,再通過磁臂的大幅擺動將盡可能多的污染顆粒吹至呼吸過濾器,減少頭碟接觸的風險;另外這種測試的引入也會盡可能在早期暴露因為游離顆粒產(chǎn)生的頭碟接觸風險,將因機械硬盤失效帶來的數(shù)據(jù)丟失隱患降到更低。
為了保證硬盤生命周期內(nèi)的可靠應(yīng)用,浪潮存儲通過上百次實驗摸排存儲系統(tǒng)的RV benchmark(旋轉(zhuǎn)振動基準)去確認外界振動對機械硬盤和系統(tǒng)性能的影響,通過優(yōu)化系統(tǒng)結(jié)構(gòu)剛度,增加阻尼材料,吸震材料減少風扇振動對系統(tǒng)剛度的影響;同時從硬盤本體系統(tǒng)振型角度著手,通過檢測系統(tǒng)功率譜識別設(shè)計結(jié)構(gòu)中比較脆弱的頻率段,通過和硬盤廠商技術(shù)合作,在伺服系統(tǒng)里增加前置反饋,notch filter(陷波濾波器)降低因為系統(tǒng)本身比較脆弱的抗沖擊能力,增加整個系統(tǒng)的魯棒性,改善硬盤的抗震性能,使硬盤在系統(tǒng)100%風扇轉(zhuǎn)速,測試4種不同讀寫模式的IOPS吞吐量均可以維持在97%以上,有效保障數(shù)據(jù)的可靠、可用。
浪潮存儲秉承“云存智用 運籌新數(shù)據(jù)”的存儲理念,和合作伙伴一起合作進行技術(shù)創(chuàng)新,從介質(zhì)、系統(tǒng)、應(yīng)用全面的保障數(shù)據(jù)生命周期內(nèi)的可靠、可用;未來浪潮存儲從場景出發(fā),持續(xù)打造“安全、可靠、經(jīng)濟、高效”的存儲平臺,加速企業(yè)數(shù)字化轉(zhuǎn)型。