(圖:北京并行科技股份有限公司董事長陳健博士)

訓(xùn)練大模型燒錢,租用算力更現(xiàn)實

企業(yè)要做自己的大模型,首先要解決的就是大模型訓(xùn)練的基礎(chǔ)設(shè)施問題——算力。企業(yè)自建算力好,還是租用算力好?陳健建議:“大模型對算力的需求極大,動輒十幾億,光電費就要幾百萬,企業(yè)采用租用算力是風(fēng)險最小、資金利用最優(yōu)的方式?!?/p>

“據(jù)我們觀察,在超算領(lǐng)域有90%是自建的,但大模型出來后自建的比例在明顯降低。一半以上都在租用?!?/p>

做大模型訓(xùn)練不僅關(guān)系到企業(yè)計算算力成本的問題,還關(guān)系到企業(yè)業(yè)務(wù)方向和企業(yè)資金周轉(zhuǎn)效率的問題。從企業(yè)經(jīng)營風(fēng)險上看,陳健認(rèn)為:“如果企業(yè)訓(xùn)練的模型是面向ToC領(lǐng)域,產(chǎn)品風(fēng)險相對就比較大。如果是做面向ToB的大模型,一般能拿到用戶端在算力方面的費用,這樣風(fēng)險會相對較小。如給銀行做客服大模型,這種應(yīng)用場景比較確定,風(fēng)險也就比較小。”

算力的利用效率也就是資金的利用效率。陳健表示:“超算領(lǐng)域大家拼的就是算力的利用率。如果企業(yè)大概確定自建算力的利用率能夠連續(xù)5年達(dá)到或超過60%,那自建就沒太大風(fēng)險。在超算云領(lǐng)域,租用的利用率總體上能達(dá)到60%,是國內(nèi)自建超算算力平均利用率的2倍?!?/p>

從企業(yè)經(jīng)營策略上看,“服務(wù)器的生命周期大概就是5年。如果采用購買服務(wù)器的方式自建,等于將5年的錢投入一次性支付。這種情況對企業(yè)尤其是初創(chuàng)企業(yè)的現(xiàn)金流是極大的考驗。如果過早地將現(xiàn)金都套在高折舊的資產(chǎn)上,這對公司的經(jīng)營會帶來較大的影響,不劃算。從另一個角度來看,初創(chuàng)企業(yè)的融資是一輪一輪進(jìn)行的,越在早期,同樣數(shù)量的融資額所占的股份比例就越大,股權(quán)融資成本高。這筆錢如果用來一次性支付5年的計算資源,這種做法并不明智。企業(yè)應(yīng)把未來的錢花在今天的經(jīng)營、業(yè)務(wù)增長上。”陳健這樣分析道。

“以并行科技為例,我們是一家提供超算的服務(wù)商,要滿足大模型訓(xùn)練,在GPU或計算卡上的投入就是幾個億。我們測算了一下,購買1000張H800,按市場價,就要投入3億資金。如此大額的投資我們也不能貿(mào)然投入。而是采用算力網(wǎng)絡(luò)模式,和三大運營商合作,由運營商出錢購買算力,我們做總包運營,大家合作分成,來解決重資產(chǎn)這個難題。”

“因此,買不如租,大部分企業(yè)會選擇租用的模式。企業(yè)在算力規(guī)劃上還是要根據(jù)自身的發(fā)展情況。通用大模型發(fā)展非??欤懔X的速度也非???,都是以億元為計。企業(yè)如果在沒有融到足夠的資金,還是不要采用自建算力的模式?!?/p>

加速落地,超算更適合大模型訓(xùn)練

市面上可選的算力租用方式無非就三種:云計算模式,采用公有云的方式;裸金屬模式,也就是傳統(tǒng)的服務(wù)器托管,以物理機的形式交付;還有就是超算模式,用海量的GPU卡,通過業(yè)務(wù)調(diào)度的方式變成一個大的計算池,用戶用的時候從中選擇自己所需要的GPU卡,用完再釋放掉這張卡資源,以便別人調(diào)用。

“我們認(rèn)為,采用GPU集群的超算模式更適合大模型的訓(xùn)練?!标惤〗忉尩溃骸按竽P偷挠?xùn)練本質(zhì)上就是一個超大的訓(xùn)練任務(wù),比如在1000張(或更多)GPU卡上跑兩三個月,就是一個典型的超算應(yīng)用場景。”

“云計算或者說云主機模式,就是一個GPU服務(wù)器分給很多用戶共享,是海量的單臺、單節(jié)點的共享,并且還是單節(jié)點內(nèi)部的GPU卡資源的共享??上攵?,這個共享級別不足以支撐大模型訓(xùn)練需要成百上千張卡成功跑一兩個月這樣的應(yīng)用場景?!?/p>

“采用GPU集群的超算模式是大模型訓(xùn)練較具成本優(yōu)勢的方式。用戶只需對自己真實使用的GPU算力進(jìn)行付費。而不是租了一年,調(diào)試要三個月,這三個月的調(diào)試期也要付費?!彼詿o論從算力對大模型訓(xùn)練場景的支撐能力,還是實際租用帶來的使用體驗,尤其是成本消耗上,超算都可謂是大模型訓(xùn)練的上乘之選。

堅持“三(數(shù)據(jù)、應(yīng)用、模型)不碰”原則,超算中立且安全

“提供超算的企業(yè)自己并不做模型,也就是不跟自己的客戶進(jìn)行競爭?!标惤≌J(rèn)為這是對那些依靠訓(xùn)練大模型創(chuàng)業(yè)和提升企業(yè)競爭力的企業(yè)一種極大的保護(hù)。他表示:“像一些算力服務(wù)商,他們既提供算力又提供模型,也就會發(fā)生和自己的客戶相競爭的局面?!?/p>

“并行科技在商業(yè)邏輯上嚴(yán)格限制自己的行為范圍,我們只做算力或者通過算力網(wǎng)絡(luò)整合算力,做好平臺,做好與應(yīng)用的適配,做好應(yīng)用執(zhí)行時的值守,確保應(yīng)用的穩(wěn)定、正常運行,讓整個訓(xùn)練過程順利完成?!?/p>

“此外,我們更重要的是要做好優(yōu)化,讓程序跑得快。例如,我們有個客戶用500張GPU卡訓(xùn)練,通過計算優(yōu)化,我們幫他提升了40% 的性能?!?/p>

“我們主要通過技術(shù)服務(wù)、應(yīng)用服務(wù)以及性能優(yōu)化,幫助客戶提升訓(xùn)練效率。我們最主要的優(yōu)勢體現(xiàn)在:一、確保用戶有GPU卡可以用;二、通過技術(shù)服務(wù)讓客戶感到好用;三、通過算力優(yōu)化降低用戶用GPU卡的成本并提升效率?!?/p>

大模型爆發(fā)式增長,在需求強勁和相關(guān)產(chǎn)業(yè)政策催化的雙輪驅(qū)動下,將迎來智能算力基礎(chǔ)設(shè)施建設(shè)的大擴容時代。企業(yè)在看到市場前景的同時,也要考慮到產(chǎn)業(yè)風(fēng)險和經(jīng)營效率,做好頂層規(guī)劃與技術(shù)積累,才能在機遇到來時既不錯過,也不踏空?!咀髡撸黑w曉勤 來源:并行科技】

分享到

xiesc

相關(guān)推薦