在服務(wù)企業(yè)客戶的時(shí)候,楊磊注意到,有很多企業(yè)投入了大量資金買最先進(jìn)的GPU,但最終發(fā)現(xiàn)效果并不如預(yù)期。深入排查后會發(fā)現(xiàn),問題大多并不出在算力,而是出在存儲:IOPS不足、延遲高、帶寬不夠,經(jīng)常會拖慢整套系統(tǒng)。

AI大模型技術(shù)在企業(yè)落地的過程中,需要對接企業(yè)自己的專有數(shù)據(jù),這些數(shù)據(jù)的管理、處理、調(diào)用都需要存儲系統(tǒng)的支持,對存儲系統(tǒng)提出了更高要求。然而,AI工作流的不同階段對存儲的性能、容量等方面的要求都有不同的側(cè)重點(diǎn)。

比如,在數(shù)據(jù)存儲與預(yù)處理階段。需要對用來做訓(xùn)練的數(shù)據(jù)進(jìn)行反復(fù)清洗、預(yù)處理。這個(gè)過程對存儲系統(tǒng)的多協(xié)議支持、高吞吐量、大容量都有很高要求。一旦數(shù)據(jù)處理速度慢了,就會拖慢整個(gè)集群的效率。

都知道模型訓(xùn)練階段對GPU的消耗極大,而GPU想要火力全開,還需要有高帶寬、低延遲的存儲系統(tǒng)做配合。這一階段對IOPS、吞吐、延遲控制要求都非常高,存儲性能一旦跟不上,就會浪費(fèi)寶貴的GPU資源。

在模型落地應(yīng)用的階段,也就是模型推理階段,整體對于存儲的要求相對低了一點(diǎn),但不同行業(yè)之間也有一些區(qū)別。比如,金融風(fēng)控領(lǐng)域?qū)ρ舆t要求極高,醫(yī)療影像場景則需要快速加載數(shù)據(jù)。

為了解決模型落地部署過程中存在的問題,融科聯(lián)創(chuàng)推出了DeepSeek一體機(jī)。它解決了傳統(tǒng)服務(wù)器廠商不懂AI模型、不懂應(yīng)用,而AI模型開發(fā)者、應(yīng)用開發(fā)者不懂硬件的問題,將一系列硬件和軟件全部集成,以一體化的形式支持用戶“一鍵式部署”。

融科聯(lián)創(chuàng)的DeepSeek場景提供兩個(gè)版本,一種是在同一個(gè)服務(wù)器里集成了存儲和算力。第二種是分離式的方案,針對人數(shù)2000人以上的大型機(jī)構(gòu),會用上滿血版671B DeepSeek模型,對集群并發(fā)和性能要求都很高。

融科聯(lián)創(chuàng)與Solidigm的緊密合作

融科聯(lián)創(chuàng)是一家服務(wù)器廠商,但在超融合以及存儲等領(lǐng)域也都有布局,還有自主研發(fā)的分布式存儲方案??梢宰⒁獾剑诳坡?lián)創(chuàng)的很多技術(shù)方案中都選擇了Solidigm的固態(tài)盤。從楊磊的介紹中了解到,融科聯(lián)創(chuàng)和融科聯(lián)創(chuàng)的很多客戶都非常認(rèn)可Solidigm的固態(tài)盤,目前每年出庫的數(shù)千個(gè)節(jié)點(diǎn)當(dāng)中大部分都采用了Solidigm的固態(tài)盤。下圖是一個(gè)2U 24盤位的NVMe全閃存儲方案,支持Solidigm D7-PS1010(Gen 5.0)、D7-P5510和P5530等硬盤。

融科聯(lián)創(chuàng)將SSD分為兩大類。一類是高性能SSD,這些場景中對存儲空間需求不大,但對IOPS和帶寬要求高。另一類是大容量型 SSD(比如QLC的P5430),用于數(shù)據(jù)量大的場景,這類應(yīng)用對容量需求高,但對性能沒有特別要求,更注重性價(jià)比。

融科聯(lián)創(chuàng)在兩大類場景中都用了Solidigm的方案。楊磊介紹稱,選擇Solidigm的一個(gè)核心原因就是看中了它的兼容性和硬盤的整體穩(wěn)定性。一些硬盤可能會不支持某項(xiàng)功能,比如不支持帶外管理,而使用Solidigm的過程中從沒有出現(xiàn)此類問題。

與原本筆者想象中企業(yè)用戶只關(guān)心存儲系統(tǒng)不同,很多企業(yè)客戶也都關(guān)注具體使用的固態(tài)盤。

楊磊表示,融科聯(lián)創(chuàng)的一位客戶最初習(xí)慣于使用某品牌的硬盤,與融科接觸早期間也堅(jiān)持沿用這一品牌,并要求融科提供同樣配置的三臺2U 24盤全閃產(chǎn)品。

然而,不久后卻出現(xiàn)了狀況。首先是帶外管理識別問題,讓融科不得不臨時(shí)將硬盤更換為Solidigm的產(chǎn)品,更換后帶外管理的問題迎刃而解。但故事并未就此結(jié)束,隨后又出現(xiàn)了硬盤頻繁掉線的新挑戰(zhàn),頻率一度達(dá)到“一個(gè)月掉一塊”的程度。

面對這一棘手情況,融科聯(lián)創(chuàng)與Solidigm的工程師們迅速展開了聯(lián)合排查。經(jīng)過深入分析,最終排除了硬盤的問題并找到了問題的根源。Solidigm團(tuán)隊(duì)在此過程中展現(xiàn)出的強(qiáng)大技術(shù)支持和協(xié)同解決問題的能力,給楊磊留下了深刻印象。

融科聯(lián)創(chuàng)與Solidigm的合作由來已久。Solidigm的前身是英特爾的SSD業(yè)務(wù)部門,當(dāng)時(shí)融科聯(lián)創(chuàng)的服務(wù)器和存儲系統(tǒng)中就用上了很多英特爾的SSD。Solidigm成立后雙方保持了原有的合作關(guān)系。

從英特爾到Solidigm的轉(zhuǎn)型過程中,Solidigm團(tuán)隊(duì)提供了大量支持,從借樣品、測試驗(yàn)證,到與客戶溝通和售后服務(wù),全流程協(xié)同緊密,推動(dòng)多個(gè)大型項(xiàng)目成功落地。楊磊提到,“Solidigm解決了我們很多實(shí)際問題,Solidigm的盤是我們最常用、最信賴的產(chǎn)品?!?/p>

分享到

zhupb

相關(guān)推薦