在生成式AI的工作流中,數(shù)據(jù)首先要被切割為“詞元”,這些詞元是承載語(yǔ)義的最小單位。例如,在自然語(yǔ)言處理中,詞元可能是一個(gè)單詞、短語(yǔ)或字母。這些詞元為AI模型的訓(xùn)練和推理提供了基礎(chǔ)。
當(dāng)數(shù)據(jù)管道不再只是單純的傳輸,而是轉(zhuǎn)向智能化處理時(shí),存儲(chǔ)系統(tǒng)的價(jià)值點(diǎn)發(fā)生了變化,不再僅是存儲(chǔ)大量數(shù)據(jù),而是通過(guò)“詞元化”技術(shù)提取數(shù)據(jù)的深層價(jià)值。
由于生成式人工智能的影響,WEKA的市場(chǎng)正從傳統(tǒng)的高性能計(jì)算(HPC)和企業(yè)分析領(lǐng)域發(fā)生轉(zhuǎn)變。茲維貝爾表示,生成式AI和企業(yè)AI市場(chǎng)持續(xù)爆發(fā)式增長(zhǎng)。AI行業(yè)的創(chuàng)新速度驚人,為企業(yè),、政府和研究機(jī)構(gòu)帶來(lái)了機(jī)遇。
如今,為生成式AI模型訓(xùn)練和推理提供數(shù)據(jù)及數(shù)據(jù)管道的競(jìng)爭(zhēng)異常激烈。比如DOIT將在3月27日召開(kāi)人工智能基礎(chǔ)設(shè)施峰會(huì),DDN將在3月17日英偉達(dá)的GTC25大會(huì)上舉辦人工智能數(shù)據(jù)論壇,VAST Data推出專(zhuān)為人工智能設(shè)計(jì)的數(shù)據(jù)基礎(chǔ)設(shè)施,所有主流存儲(chǔ)供應(yīng)商紛紛涌入這個(gè)市場(chǎng),同時(shí)Cloudian、MinIO和Scality等對(duì)象存儲(chǔ)供應(yīng)商也蜂擁而至。此外,還有數(shù)據(jù)管理和編排企業(yè),如Arcitecta、Hammerspace、Komprise等正在構(gòu)建以人工智能為核心的數(shù)據(jù)管道。在整個(gè)存儲(chǔ)行業(yè),生成式AI推動(dòng)了以AI為核心的發(fā)展。
詞元經(jīng)濟(jì)正在重塑價(jià)值分配法則——存儲(chǔ)系統(tǒng)的價(jià)值不再僅僅取決于裝載了多少數(shù)據(jù),而在于能提煉出多少可用詞元。這種轉(zhuǎn)變類(lèi)似于從原油貿(mào)易進(jìn)階到精細(xì)化工產(chǎn)業(yè),可能會(huì)催生出新的職業(yè),如存儲(chǔ)咨詢(xún)師、詞元精算師、AI存儲(chǔ)合規(guī)專(zhuān)家等。