數(shù)據(jù)存儲(chǔ)無處不在:CD, DVD, DAT, DCC, HDD, MiniDisc, SSD, SD, Sim, 軟盤,超級(jí)磁盤,磁條,條形碼
二進(jìn)制的媒介并不在乎所呈現(xiàn)的數(shù)據(jù)是什么。一旦我們可以放心記錄二進(jìn)制數(shù)據(jù),我們就會(huì)把音頻,視頻,圖片,文本,CAD文件和電腦程序放到相同的媒介上,然后完整復(fù)制。
這些數(shù)據(jù)類型之間的唯一差別是其中的一些數(shù)據(jù)需要在一個(gè)特定時(shí)間內(nèi)重復(fù)生成。
時(shí)機(jī),可靠性,持續(xù)時(shí)長及成本
不同的存儲(chǔ)媒介有不同的特點(diǎn),沒有哪種介質(zhì)盡善盡美。硬盤在讀取密集型應(yīng)用上存儲(chǔ)性能最佳,但是硬盤不能從驅(qū)動(dòng)中移除。盡管硬盤的數(shù)據(jù)記錄密度一直比光盤的大,但是你花個(gè)幾秒鐘就可以置換出光盤。而且,光盤的貼標(biāo)成本也很低,所以適合大規(guī)模發(fā)行。
閃存可提供快速訪問,而且體積很小,不過它的可持續(xù)寫入周期存在局限。盡管閃存替代了以前的軟磁盤,但是軟磁盤技術(shù)并沒消失。它還存在于航空公司,火車票,信用卡和酒店門房鑰匙的磁條中。條形碼就是個(gè)很好的例子。
在閃存中,存儲(chǔ)密度是由單個(gè)電荷井的精細(xì)構(gòu)造程度來決定。但是光盤技術(shù)的發(fā)展不僅可以保存越來越多的信息,而且可解析的數(shù)據(jù)也越來越小。
U盤中的芯片:沒有活動(dòng)部件,可直接使用
在旋轉(zhuǎn)內(nèi)存中,無論是磁盤還是光盤的,都存在兩個(gè)問題:我們要盡可能收集多一點(diǎn)軌道,同時(shí)要盡可能多地把數(shù)據(jù)放到軌道中。
這些軌道極其狹窄,需要主動(dòng)跟蹤伺服系統(tǒng)使磁頭可以持續(xù)被記錄下來,而不受耐受力和溫度改變的影響。為了減少磨損,用于收集的磁頭和磁盤之間是不接觸的。
光盤會(huì)盯著軌道,雖然是從微觀角度,但卻是由磁力驅(qū)動(dòng),磁頭掠過磁盤上方幾納米處的氣膜。自相矛盾的是,它是閃存,沒有會(huì)帶來磨損的活動(dòng)部件。
編碼
磁盤會(huì)掃描自己的軌道,然后按順序收集數(shù)據(jù)。我們不能只是在磁盤軌道上寫入原始數(shù)據(jù),因?yàn)槿绻@些數(shù)據(jù)包含了相同的比特,那么就無法區(qū)分這些比特,讀取器的同一性也會(huì)丟失。相反,數(shù)據(jù)是通過一個(gè)名為信道編碼的進(jìn)程來修改。信道編碼的功能之一就是保障信號(hào)中的時(shí)鐘內(nèi)容,而不考慮真正的數(shù)據(jù)樣式。
在光盤中,追蹤和聚焦是過濾數(shù)據(jù)后,通過收集光圈查看數(shù)據(jù)追蹤的對(duì)稱性來執(zhí)行。信道編碼的第二個(gè)功能是去除數(shù)據(jù)追蹤的DC和低頻內(nèi)容,使過濾更有效。圓形光點(diǎn)很難分辨軌道上距離太近的數(shù)據(jù)。
大眾媒體
第一款量產(chǎn)的糾錯(cuò)應(yīng)用存在于壓縮盤中,1982年上市,這是在Reed和Solomon的論文發(fā)表22年之后。CD的光學(xué)技術(shù)是早期的鐳射影碟,那么它的不足在哪里呢?
首先,數(shù)字音頻光盤要實(shí)時(shí)播放。播放器不會(huì)把錯(cuò)誤視為電腦本身的功能,所以必須得將其糾正。再者,如果CD使用的系統(tǒng)比Reed-Solomon編碼更簡單,那么這個(gè)系統(tǒng)將會(huì)更大–因此,將影響到便攜式和汽車播放器市場。第三,Reed-Solomon糾錯(cuò)系統(tǒng)是復(fù)雜的,在LSI芯片上部署比較經(jīng)濟(jì)。
早在十年前,用于制作壓縮光碟的所有技術(shù)早已出現(xiàn),但是直到LSI Logic 公司的芯片性能跨過某個(gè)特定門檻,其性能才突然變得經(jīng)濟(jì)實(shí)用。
同理,之后也是在LSI技術(shù)可以用消費(fèi)者可接受的價(jià)格執(zhí)行實(shí)時(shí)MPEG解碼時(shí),我們才看到了DVD的流行。
綜合
所有光盤用來客服這些問題的技術(shù)都被稱為分組編碼。比如,如果所有可能的14比特的結(jié)合體都被排序,且以波形描繪出來,就可以選擇出最容易記錄的。
分組編碼如何限制記錄的頻率呢?在a) 表示的最高頻率點(diǎn),轉(zhuǎn)換間隔了三個(gè)信道位。這樣信道位的記錄密度就成了三倍。注意h)是無效編碼。最長的信道位運(yùn)行于g),而i) 無效編碼。
上圖顯示出,我們排除了改變太緊密的模式,因此記錄的最高頻率被減少了三分之一。
我們還排除了1和0之間存在較大差異的模式,因?yàn)槟菢訋淼氖俏覀儾幌胍闹绷髌啤?67保留了我們許可的模式,比起要記錄八個(gè)比特的256模式要好,剩下可同時(shí)使用的模式少之又少。
EFM
Kees Immink的數(shù)據(jù)編碼技巧使用14個(gè)信道位的模式來記錄八比特–因此,其名稱就是EFM(eight to fourteen modulation)。三種合并的比特被放在各組之間,防止邊界出現(xiàn)混亂,所以17信道位被用于每個(gè)數(shù)據(jù)的記錄。這樣是違背直覺的,直到你意識(shí)到編碼規(guī)則將信道位的記錄密度提升三倍。所以,我們以3 x 8/17勝出,密度比率為1.41。
是信道編碼機(jī)制本身增加了41%的播放時(shí)間。筆者認(rèn)為在30年前能做到如此是非常不錯(cuò)的。
壓縮光碟和MiniDisc使用的EFM技術(shù)借助了波長為780納米的激光。DVD使用的是其變體,EFM+,激光波長減為了650納米。
藍(lán)光格式也使用分組編碼,但不是EFM。而是信道模擬,稱為信道調(diào)制,也稱1.7PP調(diào)制。它的密度比率要稍遜一些,但由于使用了波長為405納米的激光,所以存儲(chǔ)密度有所增加。這種激光其實(shí)并不是藍(lán)色的。
磁帶記錄器的磁頭有兩極,就好像微型馬蹄鐵,當(dāng)磁頭掃描軌道時(shí),兩極之間的有限距離會(huì)產(chǎn)生孔徑效應(yīng)。
下圖顯示出頻率響應(yīng)就像一個(gè)梳子狀的過濾器,帶有周期性的暗碼。傳統(tǒng)的磁帶記錄被限制在下面第一個(gè)暗碼的波段部分,但是在第一和第二個(gè)暗碼之間,則由部分響應(yīng)技術(shù)來掌控,這樣就把數(shù)據(jù)容量翻了一番。
所有磁性記錄器都存在磁頭間隙導(dǎo)致的回放信號(hào)a) 的暗碼問題。在b) 顯示的部分響應(yīng)中,磁頭感知不到奇數(shù)位的數(shù)據(jù),于是會(huì)回放偶數(shù)位的數(shù)據(jù)。一個(gè)比特之后,兩個(gè)偶數(shù)位數(shù)據(jù)就會(huì)被恢復(fù)。
如果數(shù)據(jù)太小,以至于其中一個(gè)數(shù)據(jù)(奇數(shù)位置)其實(shí)就在磁頭間隙處,那么磁頭的兩極卻只能識(shí)別兩邊偶數(shù)位置的數(shù)據(jù),然后輸出。這兩種數(shù)據(jù)相加就成了第三級(jí)信號(hào)。磁頭會(huì)交替重復(fù)生成交叉存取的奇數(shù)和偶數(shù)數(shù)據(jù)流。
使用兩股數(shù)據(jù)流的合適信道編碼,那么給定數(shù)據(jù)流的外部層級(jí)就可以輪流使用,這樣就更具可預(yù)測性,而讀取器也可以掌握這種預(yù)見性使數(shù)據(jù)更為可靠。這就是現(xiàn)如今讓硬盤容量超乎想象之大的PRML編碼。
糾錯(cuò)
在真實(shí)世界中,熱活力或無線電干擾都是影響我們記錄的因素。顯然,用二進(jìn)制記錄是最難被干擾的。如果有一比特的數(shù)據(jù)被干擾,那么會(huì)引起整個(gè)數(shù)據(jù)的改變,因?yàn)?會(huì)變成0或者0會(huì)變成1。如此明顯的改變會(huì)被糾錯(cuò)系統(tǒng)檢測出來。在二進(jìn)制中,如果有一個(gè)比特是錯(cuò)誤的,那么只需把它設(shè)置為相反的那個(gè)數(shù)就可以了。因此,二進(jìn)制的糾錯(cuò)是比較容易的,真正的難點(diǎn)在于找出有錯(cuò)的那個(gè)比特。
使用二進(jìn)制以及具備有效糾錯(cuò)/數(shù)據(jù)整合系統(tǒng)的存儲(chǔ)設(shè)備可以再次生成所記錄的相同數(shù)據(jù)。換言之,數(shù)據(jù)的質(zhì)量從本質(zhì)上是透明的,因?yàn)閺拿浇橘|(zhì)量那里,它就已經(jīng)實(shí)現(xiàn)了去耦。
有了糾錯(cuò)系統(tǒng),我們還能在任意類型的介質(zhì)上做記錄,包括沒有經(jīng)過優(yōu)化的介質(zhì),如火車票。以條形碼為例,只有當(dāng)印有條形碼的產(chǎn)品靠近讀取器時(shí),糾錯(cuò)系統(tǒng)才會(huì)執(zhí)行任務(wù):要確認(rèn)已經(jīng)發(fā)現(xiàn)條形碼。
市場存在減少數(shù)據(jù)存儲(chǔ)成本的壓力,這就意味著要把更多數(shù)據(jù)放入給定空間內(nèi)。
沒有哪種介質(zhì)是完美的,所有介質(zhì)都存在物理缺陷。由于數(shù)據(jù)越來越小,這些缺陷就顯得越來越大,所以缺陷導(dǎo)致數(shù)據(jù)出錯(cuò)的幾率也在增加。
糾錯(cuò)需要在真實(shí)數(shù)據(jù)中加入檢測數(shù)據(jù),所以讓人感覺記錄效率會(huì)被降低,因?yàn)閳?zhí)行這些檢測也要占用空間。事實(shí)上,少數(shù)額外的檢測任務(wù)會(huì)讓記錄密度翻倍,所以這是存儲(chǔ)容量的凈增加。
一旦了解到這一點(diǎn),就會(huì)明白糾錯(cuò)是很重要的一項(xiàng)技術(shù)。
第一個(gè)實(shí)用型的糾錯(cuò)代碼是Richard Hamming 1950年開發(fā)的。Reed-Solomon編碼則是1960年發(fā)布。糾錯(cuò)代碼的發(fā)展史其實(shí)只有十年。
糾錯(cuò)要向真實(shí)信息添加檢測數(shù)據(jù),要優(yōu)先于記錄,從這些信息中進(jìn)行計(jì)算。這些信息和檢測數(shù)據(jù)一起形成了一種代碼字,這表示它具備了一些可測試的特性,如通過特定的數(shù)學(xué)表達(dá)式來區(qū)分。播放器會(huì)對(duì)這些特性進(jìn)行測試,如果發(fā)現(xiàn)數(shù)據(jù)有錯(cuò),就不能獲取可測試的特性。余數(shù)不會(huì)是零,而是被稱為綜合癥的一種模式。通過分析這種綜合癥可以糾錯(cuò)。
在特定有限域上的Reed-Solomon 多項(xiàng)式代碼
在Reed-Solomon代碼中,有若干對(duì)不同的數(shù)學(xué)表達(dá)式,它們被用來計(jì)算校驗(yàn)符。一個(gè)錯(cuò)誤會(huì)導(dǎo)致兩種綜合癥。解出兩個(gè)方程,就可能發(fā)現(xiàn)錯(cuò)誤的位置以及導(dǎo)致綜合癥出現(xiàn)的錯(cuò)誤模式。
錯(cuò)誤被呈現(xiàn)并被糾正
如果沒有可靠性和存儲(chǔ)密度,那么我們現(xiàn)在所使用的這一切將不復(fù)存在。我們的數(shù)碼照相機(jī)所拍的照片會(huì)被光點(diǎn)破壞,那樣我們會(huì)更喜歡使用傳統(tǒng)膠卷。
如果沒有Reed-Solomon糾錯(cuò)系統(tǒng),那么壓縮光盤怎么會(huì)出現(xiàn)呢?
借助糾錯(cuò)系統(tǒng),記錄密度會(huì)持續(xù)增長,直到極限。每個(gè)比特使用一個(gè)電子的閃存;一個(gè)磁化分子代表一個(gè)比特的磁盤;使用超短波長的光盤?;蛟S它會(huì)被冠以別的什么名稱。在達(dá)到極值前,存儲(chǔ)容量會(huì)呈平穩(wěn)態(tài)勢。
力臻完美
最先由Claude Shannon依照科學(xué)原理總結(jié)出的信息理論決定了糾錯(cuò)系統(tǒng)的理論局限性,就好像熱動(dòng)力學(xué)原理對(duì)熱引擎效率的局限一樣。
但,在真實(shí)世界里,沒有機(jī)器會(huì)達(dá)到理論效率極值。Reed-Solomon糾錯(cuò)代碼就是以信息理論設(shè)定的理論極值來操作。所以不會(huì)再有更強(qiáng)大的代碼了。
糾錯(cuò)系統(tǒng)的糾錯(cuò)能力是顯而易見的。筆者之所以對(duì)此表示懷疑,是因?yàn)榧m錯(cuò)理論專業(yè)且神秘,以至于不懂的人根本不敢涉足,因而只能留給懂這些東西的人來處理。
盡管,糾錯(cuò)系統(tǒng)編碼的局限性已經(jīng)出現(xiàn),但并不意味著不會(huì)再有新突破。糾錯(cuò)和信道編碼都需要對(duì)信息進(jìn)行編碼和解碼,而這就遵循摩爾定律。
因此,編碼系統(tǒng)的成本和規(guī)模都會(huì)隨著時(shí)間的發(fā)展而減小,或者其復(fù)雜性會(huì)增加,使得新應(yīng)用成為可能。盡管如此,如果未來出現(xiàn)新的二進(jìn)制數(shù)據(jù)存儲(chǔ)設(shè)備,使用的是我們聞所未聞的介質(zhì),糾錯(cuò)系統(tǒng)將仍然是基于Reed-Solomon編碼。