然而,就在巨頭們忙于通過并購來鞏固城池的時候,新的顛覆者已然崛起。它不來自于傳統(tǒng)的存儲陣列戰(zhàn)場,而是從云端、從數(shù)據(jù)架構以及存儲介質上發(fā)起了挑戰(zhàn)。這些挑戰(zhàn)不僅重塑了數(shù)據(jù)存儲市場,也為即將到來的AI時代鋪平了道路。
今天,我們就來探討正在重塑存儲格局的三大技術浪潮,并展望在AI時代,數(shù)據(jù)存儲產業(yè)的新形態(tài)。
第一,以Amazon S3為代表的云上對象存儲
2006年,亞馬遜云科技(AWS)推出了Amazon S3(簡單存儲服務),這不僅是一款新產品,也代表了全新的存儲商業(yè)模式。它將對象存儲作為一種按需付費的公共服務,從而徹底消除了企業(yè)需要買硬件,還要做復雜容量規(guī)劃的麻煩。
S3提供了幾乎無限的可擴展性,還有高達11個9的數(shù)據(jù)持久性,這些特性是任何本地存儲都難以企及的。更重要的是,其每GB的存儲價格還會持續(xù)下降,給傳統(tǒng)硬件廠商的利潤率帶來了巨大的壓力。
伴隨著互聯(lián)網(wǎng)技術和社交媒體的發(fā)展,需要存儲大量圖片和視頻數(shù)據(jù),對象存儲得到了廣泛應用。而S3的API迅速成為對象存儲領域事實上的行業(yè)標準,無數(shù)的應用程序和第三方云服務商都構建了與S3兼容的服務,形成了一個強大的生態(tài)效應。
面對來自云端的挑戰(zhàn),傳統(tǒng)廠商的反應不一。
EMC(現(xiàn)已被戴爾收購)通過打造本地對象存儲(如Atmos和后來的ECS)來與亞馬遜云科技競爭。雖然也支持S3 API,但它缺少公有云的彈性伸縮和按需付費的特點,還需要大規(guī)模的前期采購,好處是可以部署在企業(yè)本地。
NetApp(國內常見于聯(lián)想凌拓)在2010年收購了Bycast公司,然后開發(fā)出了StorageGRID產品線。NetApp沒有與公有云直接對抗,而是將StorageGRID定位為一個混合云的“數(shù)據(jù)編織”組件,幫助企業(yè)在本地和云之間管理數(shù)據(jù)。
S3的崛起讓人注意到了“數(shù)據(jù)引力”這件事。一旦數(shù)據(jù)被存儲在亞馬遜云科技上,使用它的EC2計算、RDS數(shù)據(jù)庫以及分析服務就變得更加方便。這在事實上形成了一種強大的供應商鎖定,傳統(tǒng)硬件廠商不具備類似的能力。
所以,自此以后,競爭的焦點不再是誰能制造出最好的存儲陣列,而是誰能提供最完整、功能集成度更高的云數(shù)據(jù)平臺。
第二,以Snowflake為代表的云數(shù)據(jù)平臺
當競爭焦點轉向云數(shù)據(jù)平臺時,新的問題出現(xiàn)了。傳統(tǒng)的本地數(shù)據(jù)倉庫以及早期云數(shù)據(jù)倉庫,其架構存在存儲和計算資源緊耦合的問題,導致擴展性差、成本高且缺乏彈性。一家叫Snowflake因為解決這一問題而獲得成功。
Snowflake的技術創(chuàng)新在于其徹底的“存算分離”架構。它把可以無限擴展的云對象存儲(如Amazon S3)作為其統(tǒng)一的、被動的數(shù)據(jù)基石。在此之上,它構建了一個獨立的、可彈性伸縮的計算層,由多個被稱為“虛擬倉庫”的計算集群組成。
“存算分離”架構的優(yōu)勢在于,存儲和計算可以根據(jù)實際需求獨立擴展。企業(yè)可以先存儲海量數(shù)據(jù)而只支付極低的存儲費用,只有在需要分析時才啟動計算資源,按照需求啟用資源,按照使用的資源量付費。
Snowflake還實行了工作負載隔離。不同的業(yè)務部門或應用可以使用獨立的虛擬倉庫(一個或多個計算節(jié)點的集合),確保關鍵任務的性能不會受到其他并發(fā)任務的影響。數(shù)據(jù)科學團隊進行大規(guī)模模型訓練時,不會拖慢財務部門的實時報表查詢。
Snowflake將數(shù)據(jù)平臺變成了一種按用量付費的模式,徹底摒棄了傳統(tǒng)數(shù)據(jù)倉庫的硬件采購和軟件許可,將巨大的資本支出轉變?yōu)殪`活的運營支出,企業(yè)用戶再也不用為容量規(guī)劃而撓頭了。
Snowflake推動了數(shù)據(jù)分析基礎設施的發(fā)展,迫使整個行業(yè)重新思考數(shù)據(jù)倉庫的構建方式,包括亞馬遜云科技(AWS Redshift RA3)、谷歌(BigQuery)等巨頭在內,都將存算分離作為現(xiàn)代數(shù)據(jù)平臺的標準架構。
第三,以Pure Storage全閃存儲為代表的全閃存存儲
2009年,當John Colgrove和John Hayes創(chuàng)立Pure Storage時,企業(yè)存儲市場仍由HDD機械硬盤主導。他們敏銳地意識到,消費級MLC閃存技術的進步,開始讓SSD有了在企業(yè)環(huán)境下用的可能。
當時閃存面臨的最大問題是耐久性。2009年的閃存只能承受約1萬次寫入,遠遠不能滿足企業(yè)級需求。Pure Storage設計了一套專為閃存介質優(yōu)化的塊存儲軟件,通過寫入管理、垃圾回收和數(shù)據(jù)縮減算法,既延長了MLC閃存的壽命,也保證了性能。
除了技術創(chuàng)新,Pure Storage還顛覆了原有的商業(yè)模式。他們推出了名為“Evergreen Storage”的計劃,摒棄了傳統(tǒng)廠商沿用已久的,每3到5年需要更換硬件進行一次的叉車式升級的模式。
現(xiàn)在,客戶只需支付維護費用,就能獲得持續(xù)的、無中斷的硬件和軟件升級,確保其存儲系統(tǒng)永不過時。這種簡潔的,而且對客戶體驗友好的服務,與傳統(tǒng)存儲廠商復雜的產品服務,昂貴的升級成本形成了鮮明對比。
Pure Storage作為全閃存領域的代表企業(yè),發(fā)展速度非???,2015年成功上市,在競爭激烈的存儲市場立足。它的成功迫使整個行業(yè)轉向全閃存架構,也帶動競爭企業(yè),包括戴爾和HPE也推出了類似的升級服務。
結束語
Amazon S3 改變了存儲的交付與消費模式,從購買資產變?yōu)橛嗛喎?;Snowflake改變了數(shù)據(jù)的處理與分析架構,通過“存算分離”釋放了數(shù)據(jù)價值;Pure Storage改變了性能存儲的底層介質與存儲系統(tǒng)服務模式,讓存儲可以持續(xù)的現(xiàn)代化。
這三股力量共同為AI時代的到來奠定了基礎。
大模型動輒需要PB級的非結構化數(shù)據(jù)做訓練,這離不開S3那樣可無限擴展的對象存儲數(shù)據(jù)湖。AI訓推都需要海量計算資源,這又與Snowflake“存算分離、彈性計算”的理念不謀而合。而在數(shù)據(jù)預處理、模型加載和實時推理等環(huán)節(jié),對I/O性能的極致要求,則必須依賴Pure Storage所代表的高性能全閃存存儲。
那么,在AI時代,新的“Data Domain”和“3PAR”將出現(xiàn)在哪兒?傳統(tǒng)的存儲巨頭又將如何應對挑戰(zhàn),續(xù)寫輝煌?
為了共同探討AI時代的數(shù)據(jù)基礎設施演進、存儲技術創(chuàng)新、智能應用實踐及未來發(fā)展趨勢,2025年11月18日,以“釋放數(shù)據(jù)潛能,加速智能涌現(xiàn)”為主題的2025中國數(shù)據(jù)與存儲峰會將于北京舉行,希望能與業(yè)界同仁一起,找到開啟又一個存儲時代的鑰匙。