華為數(shù)據(jù)存儲品牌與戰(zhàn)略營銷總監(jiān) 王振
大會主論壇上,華為數(shù)據(jù)存儲品牌與戰(zhàn)略營銷總監(jiān)王振發(fā)表了題目為《構(gòu)筑先進數(shù)據(jù)存力,做AI時代領(lǐng)航者》的演講,他提到,AI在2022年之前主要用于規(guī)則和算法驅(qū)動的決策輔助,如決策樹和文字識別。但2022年之后,AI的應(yīng)用變得更加創(chuàng)新,尤其是生成式AI在推動行業(yè)變革和提高人類生產(chǎn)力方面發(fā)揮了重要作用。
然而,隨著生成式AI引領(lǐng)我們進入智能世界,大模型發(fā)展的瓶頸也逐漸顯現(xiàn),其中模型優(yōu)化和數(shù)據(jù)問題成為關(guān)鍵制約因素。隨著大模型從單模態(tài)向多模態(tài)發(fā)展,數(shù)據(jù)質(zhì)量成為決定AI生成效果的關(guān)鍵,數(shù)據(jù)存儲成為關(guān)鍵要素。以算力和存力為中心的大模型時代已經(jīng)來臨。
在AI的整個流程中,從數(shù)據(jù)獲取、歸集到預處理,再到模型訓練和推理,每個階段都對IT基礎(chǔ)設(shè)施提出了更高的要求。
例如,數(shù)據(jù)歸集過程漫長,占據(jù)了大約35%的大模型訓練時間,而數(shù)據(jù)預處理階段更是對計算和存儲能力提出了更高的挑戰(zhàn)。
在模型訓練過程中,系統(tǒng)對于海量小文件處理的性能要求極高,更高的存儲性能有助于提高GPU的使用率,避免數(shù)據(jù)導入的等待時間造成的資源浪費。
此外,有統(tǒng)計數(shù)據(jù)顯示,大型訓練集群系統(tǒng)的平均故障恢復時間大約長達2.8天,為了能快速利用Checkpoint檢查點進行恢復,也對存儲系統(tǒng)的性能提出了更高要求。
AI的三駕馬車中,雖然算力和算法在逐步收斂,但數(shù)據(jù)量和類型的增長提高了數(shù)據(jù)存儲在AI大模型時代的重要性。先進數(shù)據(jù)存力的構(gòu)建成為實現(xiàn)AI大模型時代持續(xù)發(fā)展的基礎(chǔ)。
王振表示,華為視角下先進數(shù)據(jù)存力的構(gòu)建包含了新型數(shù)據(jù)范式、先進介質(zhì)應(yīng)用、數(shù)據(jù)安全可靠性,以及綠色節(jié)能等方面。
最后
2022年,華為提出了“先進數(shù)據(jù)存力”的概念,經(jīng)過一年的發(fā)展,存力的概念也得到了業(yè)界的更多響應(yīng)和認可,在《中國存力白皮書(2023年)》中,更是將存力確立為關(guān)鍵指標之一。
中國存儲市場在快速發(fā)展當中。根據(jù)分析機構(gòu)數(shù)據(jù)顯示,中國數(shù)據(jù)總量(23.88 ZB)已經(jīng)趨近于北美的數(shù)據(jù)總量(28.05 ZB),中國的數(shù)據(jù)增長率達到26.3%,在全球排名首位。
中國的數(shù)據(jù)存儲產(chǎn)業(yè)也越來越完善,從存儲芯片介質(zhì)到整機制造,再到應(yīng)用層面均有顯著進步。如倪光南院士所說,中國的數(shù)據(jù)存儲產(chǎn)業(yè)將成為繼5G之后的第二張科技名片,展現(xiàn)中國企業(yè)在全球數(shù)據(jù)存儲和AI技術(shù)方面的領(lǐng)先地位和發(fā)展前景。