▲ 并行科技董事長、總經(jīng)理陳健博士

一、大模型訓(xùn)練底層為超級計算機,超算算力熟練上車

為獲得AI大模型算力的“及時雨”,人們竭力榨干了GPU的每一滴算力,事實上,超級計算機也可以用于支持大模型訓(xùn)練。本(4)月初,微軟和OpenAI的“Stargate(星際之門)”秘密計劃被The Information曝光,雙方準(zhǔn)備花費1000億美金建設(shè)超級計算機,在陳健博士看來,這一舉動是在向全世界宣布:大模型訓(xùn)練的底層是超級計算機。

▲The Information曝光微軟和OpenAI的“Stargate(星際之門)”計劃

誠然,大模型從訓(xùn)練到推理的技術(shù)鏈條都依賴于云計算中心,國內(nèi)外不少科技巨頭都橫跨了云基礎(chǔ)設(shè)施與大模型,盡可能地騰挪手中算力資源以滿足大模型訓(xùn)練剛需。在陳健博士看來,超大規(guī)模的訓(xùn)練必須使用超級計算機他還指出一個現(xiàn)象,云計算及其服務(wù)商正在積極學(xué)習(xí)超級計算機的邏輯、超算業(yè)務(wù)的運營方式,對計算中心在進(jìn)行改造。

“大模型訓(xùn)練需要的是一個明確的超級計算機,它的調(diào)度也是有利于推理的。”陳健博士說道。具體來說,超級計算的服務(wù)器之間的計算帶寬配比更大,是云計算的計算網(wǎng)絡(luò)帶寬的數(shù)十倍,數(shù)據(jù)傳輸效率要求更高。在應(yīng)對計算挑戰(zhàn)方面,超算架構(gòu)通過高速互聯(lián)網(wǎng)絡(luò)把GPU服務(wù)器緊耦合在一起,以并行計算技術(shù)實現(xiàn)單一大模型訓(xùn)練應(yīng)用的高性能計算(HPC);而云計算架構(gòu)主要對海量并發(fā)任務(wù)實現(xiàn)高通量計算(HTC),并不適合處理單一大規(guī)模計算任務(wù)。

伴隨著我國超算的穩(wěn)健發(fā)展,并行科技深耕超算算力服務(wù)十余年,并在大模型到來的這一刻交互出新的弧光。并行科技從2015年開始從事超級計算機大集群調(diào)度,從超算算力開始展開算力服務(wù)的版圖,目前旗下超算云已成為中國科研用戶首選的計算資源平臺。根據(jù)弗若斯特沙利文,從收入規(guī)模角度,2021年并行科技通用超算云收入約1.3億元,對應(yīng)市場份額為20.3%,行業(yè)排名第一。

▲超算云競爭格局分析;資料來源:沙利文

算力服務(wù)是一種經(jīng)營,陳健博士談道,算力服務(wù)即將算力資源整包下來再尋找用戶進(jìn)行匹配。他透露,公司算力服務(wù)當(dāng)前在總業(yè)務(wù)所占比例越來越大,去年公司收入接近5億。

以“算力網(wǎng)絡(luò)”為依托,以利用率為核心,并行科技的主要服務(wù)包括并行通用超算云、并行行業(yè)云、并行AI云以及設(shè)計仿真云等。根據(jù)用戶需求,并行科技如今業(yè)務(wù)主要朝兩個方向著力,一是聚集已采購的算力資源來服務(wù)用戶,據(jù)了解,并行科技現(xiàn)已與廣州、無錫、長沙、濟南和深圳等地的各類超算中心建立穩(wěn)定合作關(guān)系;二是在當(dāng)前國產(chǎn)智算算力陸續(xù)上線的背景下,服務(wù)國產(chǎn)GPU所需的智算算力。

▲2023年,并行科技先后與寧夏聯(lián)通、廣東聯(lián)通、上海聯(lián)通等達(dá)成算力合作

目前,并行科技擁有約65萬個超算云計算核心,具備成熟且強大的技術(shù)服務(wù)能力,與阿里云、華為云等頭部企業(yè)處在同一梯隊。陳健博士強調(diào),此處提到的“云計算”指得是超算/智算的算力云服務(wù),其底層架構(gòu)是超級計算機,而不是傳統(tǒng)認(rèn)識中的云計算虛擬機。

二、大模型帶飛AI云業(yè)務(wù)增260%,智算中心項目有序推進(jìn)

大模型的加速迭代與應(yīng)用落地,推動了智能算力需求的激增,大模型的鏈?zhǔn)椒磻?yīng)也傳導(dǎo)到智算中心。

▲AI訓(xùn)練量的增長趨勢和中國智算算力市場預(yù)估

對于智算中心,計算能力是大模型對其的基本要求,運行穩(wěn)定和高性能是核心需求。陳健博士分析說,超算算力和智算算力的基礎(chǔ)架構(gòu)一致,涉及的超級計算只需從使用CPU轉(zhuǎn)變成使用GPU。無論是計算架構(gòu)的相似性,還是大模型對于計算過程的性能要求,都契合了并行科技于2020年左右開啟的AI云業(yè)務(wù)。

陳健博士提到“性能(Performance)是一切的根源”,這一主旨貫穿著并行科技的發(fā)展歷程。并行科技起家于性能優(yōu)化業(yè)務(wù),在2012年推出應(yīng)用運行特征分析軟件,解決超級計算機跑大型程序時的核心性能問題。彼時,并行科技在行業(yè)里的形象總是和“技術(shù)高端、“大規(guī)模的超級計算機”等詞條關(guān)聯(lián)著。而對于更廣大的普通用戶,并行科技推出在線運維業(yè)務(wù),幫助他們完成了全自動性能分析程序故障。

目光看向業(yè)界,2024年以來,一批大型智算中心項目建成運營,如此快的建設(shè)速度不禁讓人擔(dān)憂“智算中心想好怎么賺錢了嗎”?陳健博士認(rèn)為,“好用”的智算算力平臺才能給智算中心帶來實際價值,而關(guān)鍵不僅在產(chǎn)品端,也在用戶端。具體來說,市場上專注于算力基礎(chǔ)設(shè)施建設(shè)的主要為IDC數(shù)據(jù)中心供應(yīng)商和云服務(wù)供應(yīng)商,他們對維護(hù)軟硬件工具和數(shù)據(jù)、優(yōu)化國產(chǎn)GPU芯片等工作相對陌生,對于并行科技來說,完成這些任務(wù)僅需將原有的業(yè)務(wù)平移。

陳健博士透露,大模型市場給并行科技的響應(yīng)非常好,去年公司的AI云業(yè)務(wù)增長2.6倍,在成本被原有CPU業(yè)務(wù)覆蓋的情況下,公司提供給用戶更有性價比的產(chǎn)品。以國內(nèi)某知名大模型企業(yè)為例,該企業(yè)在2023年因英偉達(dá)GPU嚴(yán)重缺貨, 使用500余張英偉達(dá)A100 SXM版GPU卡 ,但在跑程序時故障率很高。并行科技通過兩步,一是自動化運維程序,二是使訓(xùn)練任務(wù)提升40%,保證了并行程序長期穩(wěn)定且高性能地運行,幫助用戶解決了問題。

值得提醒的是,根據(jù)云計算行業(yè)發(fā)展的經(jīng)驗,智算中心是一個投入巨大,回報周期長的基礎(chǔ)設(shè)施類項目,期待看到公司在智算市場的發(fā)展。

三、超算中心利用率偏低,密鑰是用戶需求

近年來,算力建設(shè)如火如荼地在中國大地上進(jìn)行著,新建設(shè)施將隨著全國算力網(wǎng)絡(luò)體系的完善而融入算力網(wǎng)絡(luò),為全國產(chǎn)業(yè)提供算力調(diào)度及服務(wù)。陳健博士分析說,“算力網(wǎng)絡(luò)”的概念參考了電網(wǎng),但算力的“力”以芯片的形式表現(xiàn),無法像電一樣被調(diào)度,能調(diào)度數(shù)據(jù)和算力需求,因此算力網(wǎng)絡(luò)調(diào)度最核心的一環(huán)是將海量用戶的需求理清楚。

算力建設(shè)“局中人”在狀態(tài)高亢的同時更需要一份冷靜。“沒有用戶需要算力,用戶需要的是解決自己的問題?!标惤〔┦刻寡?。用戶希望將應(yīng)用軟件的問題解決好,但他們不知道哪里有好用的算力。陳健博士擔(dān)憂說,當(dāng)前新建的算力中心并不研究客源、用戶需求和應(yīng)用運行。“國家投10個億下去,一棟棟樓起來了,用戶在哪里?很多用戶起初提出需要多少卡,但建好后他表示‘真不好意思,我沒錢了’,這種情況很普遍。”陳健博士認(rèn)為,降低算力使用者的投入算力資源的成本和門檻,才能提振算力服務(wù)市場需求。

通過多年來在運維服務(wù)與運維軟件方面的拓展,并行科技積累了大量超算中心合作伙伴、應(yīng)用軟件開發(fā)商和超算用戶資源。據(jù)介紹,在市場推廣方面,公司并行科技有100+位銷售,專注于將算力服務(wù)推廣給需要的用戶,在客源方面有較強的優(yōu)勢。記者獲悉,公司已累計為超過兩萬來自于科研教育、航空航天、智能制造、人工智能等各應(yīng)用領(lǐng)域的終端用戶提供超算云服務(wù),用戶包括清華大學(xué)、北京大學(xué)、三一汽車制造有限公司等。

四、全鏈路算力服務(wù)支撐國產(chǎn)GPU,三年追趕英偉達(dá)

2023年,國內(nèi)AI算力緊缺,國產(chǎn)算力企業(yè)尋找突圍的多種途徑,多家A股上市公司在AI芯片國產(chǎn)替代上下了功夫。國產(chǎn)GPU與英偉達(dá)的差距還有多大?具體可行的提升路徑是什么?

陳健博士評價說,目前國產(chǎn)GPU平臺達(dá)到了可用的程度,但還需優(yōu)化性能、提高性價比,三年后則有望與英偉達(dá)各占半壁江山。陳健博士分析說,由于芯片出貨量、工程打磨時間等因素,國產(chǎn)芯片相較于英偉達(dá)等的部件失效比率偏高,所以在大規(guī)模訓(xùn)練時,用國產(chǎn)芯片建設(shè)的超級計算機需要竭力延長無故障時間提高加速比。由阿姆達(dá)爾定律可知,加速比到了天花板之后,無論增加多少CPU核都無濟于事。但NVLink可以達(dá)到更高的加速比,這時國產(chǎn)芯片由于節(jié)點之間硬件軟件適配的問題,拉開了和英偉達(dá)的差距。

▲阿姆達(dá)爾定律揭示的核心數(shù)和加速比圖例

在國產(chǎn)替代的征途上,并行科技“真槍實彈”上陣,以最精裝的團隊支撐最前沿的國產(chǎn)GPU。據(jù)陳健博士介紹,并行科技的應(yīng)用部凝聚百余位技術(shù)與研發(fā)人員,同時設(shè)立了國產(chǎn)算力事業(yè)部,支持國產(chǎn)算力上在原有CPU(英特爾、AMD)和GPU(英偉達(dá))上的程序移植測試優(yōu)化,所支持的國產(chǎn)GPU平臺目前已基本趨于成熟。

組建出在國內(nèi)數(shù)一數(shù)二的國產(chǎn)算力事業(yè)團隊,并行科技靠得是多年來在產(chǎn)學(xué)研融合方面的努力和探索。在超算這條細(xì)分跑道上,并行科技從2013年開始承擔(dān)超算人才培養(yǎng)和選撥的責(zé)任,舉辦多個超算人才競賽。以并行科技承辦的全國并行應(yīng)用挑戰(zhàn)賽(PAC)為例,這是一項基于Intel處理器平臺以及融合加速器等多種運行環(huán)境而舉辦的超算大賽?!皩τ谖磥淼某闳瞬艁碚f,今年競賽將是一個在學(xué)生時期接觸最新平臺和技術(shù)的難得機會;從行業(yè)全局來看,這有利于中國人工智能大模型發(fā)展,有利于更早完成國產(chǎn)芯片替代。”陳健博士評價說。(特別提醒:全國并行應(yīng)用挑戰(zhàn)賽報名組隊時間從即日起至7月24日。)

▲PAC全國并行應(yīng)用挑戰(zhàn)賽

綜合來看,并行科技公司在業(yè)務(wù)規(guī)模、技術(shù)能力、行業(yè)人才培養(yǎng)等方面均保持較高水平據(jù)報道,并行科技在2023年上市之際談道,公司將提供包括超算中心選型配置、超算中心運營、超算云服務(wù)等在內(nèi)的全鏈路算力資源運營服務(wù)。

結(jié)語:發(fā)力算力租賃和國產(chǎn)替代,助力國產(chǎn)算力“挑大梁”

無論是下游百模“大煉鋼鐵”,還是上游搶建智算中心,都顯露出行業(yè)在日新月異的AI競賽里“算力焦慮”。在采訪過程中,陳健博士妙語連珠、深入淺出地從技術(shù)、應(yīng)用和市場方面洞悉問題本質(zhì),給出算力租賃和國產(chǎn)替代等多種路徑,展示了并行科技的算力資源整合與調(diào)度能力優(yōu)勢,以及其作為一家算力服務(wù)商在行業(yè)中的實踐示范。

從行業(yè)發(fā)展的宏觀層面來看,國產(chǎn)大模型卡位中,但落地的過程任然充滿“猜忌”和“內(nèi)耗”。陳健博士談道,國產(chǎn)GPU芯片已經(jīng)可以上大模型戰(zhàn)場了,但在執(zhí)行高端重要任務(wù)方面還需要磨練。我們還需創(chuàng)造一個更高性能、更高效率的基礎(chǔ)架構(gòu)和系統(tǒng),以及相對應(yīng)的算力服務(wù)系統(tǒng),推動下一代人工智能的發(fā)展。并行科技的使命是讓計算更簡單,在支持國產(chǎn)算力發(fā)展的這條路上做出貢獻(xiàn),伴隨國產(chǎn)算力發(fā)展趨穩(wěn),早日進(jìn)入主戰(zhàn)場。

分享到

yunlang

相關(guān)推薦