當(dāng)DeepSeek被廣泛部署,AI競(jìng)爭(zhēng)焦點(diǎn)已從“有沒(méi)有AI”轉(zhuǎn)向“AI用得好不好”

當(dāng)前,相比能否用上DeepSeek,能否用得好DeepSeek成為企業(yè)更關(guān)心的話(huà)題。

通過(guò)大幅降低大模型部署成本,DeepSeek催生了千行萬(wàn)業(yè)AI應(yīng)用的爆發(fā)。根據(jù)國(guó)家數(shù)據(jù)局透露的數(shù)據(jù),2024年初中國(guó)日均Token消耗量為1千億,今年3月中國(guó)日均Token消耗量已經(jīng)達(dá)到10萬(wàn)億級(jí),1年時(shí)間增長(zhǎng)了100倍。

當(dāng)越來(lái)越多企業(yè)把DeepSeek等深度推理模型部署到生產(chǎn)環(huán)境,算法層面的差距迅速收窄,各行業(yè)AI競(jìng)爭(zhēng)焦點(diǎn)從“有沒(méi)有AI”轉(zhuǎn)向“AI用得好不好”。2025年,模型優(yōu)化技術(shù)已經(jīng)從模型層面算法優(yōu)化,下探到底層硬件資源的極致利用。一場(chǎng)關(guān)乎底層軟硬件協(xié)同效能的深水區(qū)競(jìng)賽悄然啟幕。

在AI基礎(chǔ)設(shè)施中,連接底層硬件和上層AI框架的計(jì)算架構(gòu),成為下一階段AI落地的關(guān)鍵。深度開(kāi)放的昇騰計(jì)算架構(gòu)CANN,正成為撬動(dòng)產(chǎn)業(yè)AI高效落地的新支點(diǎn)。

圖片2.png

01 趨勢(shì)之變:AI競(jìng)爭(zhēng)已下沉至“系統(tǒng)效能”深水區(qū)

DeepSeek模型領(lǐng)先的背后,是一系列模型結(jié)構(gòu)優(yōu)化技術(shù),包括MoE、動(dòng)態(tài)稀疏計(jì)算、自適應(yīng)參數(shù)優(yōu)化、多頭潛在注意力機(jī)制(MLA)、無(wú)輔助損失的負(fù)載均衡技術(shù)、多詞元預(yù)測(cè)訓(xùn)練方法等。正是這些技術(shù)創(chuàng)新打破了AI訓(xùn)練燒錢(qián)的魔咒,以GPT-4 百分之一的成本實(shí)現(xiàn)相近性能,同時(shí)進(jìn)一步降低了AI應(yīng)用門(mén)檻。

所有接入DeepSeek的企業(yè)都可以直接承接這些最先進(jìn)的模型結(jié)構(gòu)優(yōu)化技術(shù),獲得同樣的加持。但是,想要讓這些技術(shù)的價(jià)值發(fā)揮到最大,更進(jìn)一步提升推理效率,就必須依賴(lài)底層資源的系統(tǒng)性?xún)?yōu)化。這就不得不提到計(jì)算產(chǎn)業(yè)的護(hù)城河——計(jì)算架構(gòu)。

圖片3.png

如果把AI技術(shù)棧比作一塊多層蛋糕,自下而上分別是:XPU硬件層——驅(qū)動(dòng)層——計(jì)算架構(gòu)層——AI框架層——AI模型層——AI應(yīng)用層。計(jì)算架構(gòu)起到承上啟下的關(guān)鍵作用。向下,兼容GPU、NPU、XPU等異構(gòu)處理器;向上,對(duì)接主流AI框架,計(jì)算架構(gòu)是發(fā)揮底層硬件計(jì)算效率、使能前沿開(kāi)發(fā)的關(guān)鍵平臺(tái)。

底層的計(jì)算架構(gòu)與上層的AI應(yīng)用之間看似遙遠(yuǎn),其實(shí)計(jì)算架構(gòu)是下一節(jié)點(diǎn)千行萬(wàn)業(yè)比拼AI應(yīng)用效率的關(guān)鍵。計(jì)算架構(gòu)就像建筑地基,只有地基挖的夠深,才能支撐起更高更穩(wěn)的摩天大樓。

在全球計(jì)算產(chǎn)業(yè),有實(shí)力做計(jì)算架構(gòu)、并逐步發(fā)展出生態(tài)的企業(yè)屈指可數(shù)。計(jì)算架構(gòu)往往涵蓋編程語(yǔ)言、算子庫(kù)、編譯器等核心組件,以及圍繞這些組件的大量底層優(yōu)化技術(shù),每一項(xiàng)都需要巨量的研發(fā)投入才能持續(xù)保持技術(shù)領(lǐng)先性。

在全球AI版圖中,昇騰早已成為不可忽視的AI創(chuàng)新力量。昇騰異構(gòu)計(jì)算架構(gòu)CANN(Compute Architecture for Neural Networks)就是昇騰AI的核心軟件平臺(tái)。

一方面,CANN可以將底層昇騰全系列硬件的性能發(fā)揮到極致,大幅優(yōu)化頂尖模型的性能,加速千行萬(wàn)業(yè)AI落地效率。

另一方面,通過(guò)深度開(kāi)放戰(zhàn)略,CANN也為深度AI開(kāi)發(fā)者提供前沿創(chuàng)新的空間,聯(lián)合伙伴勇闖模型性能的無(wú)人區(qū),成為聚合AI產(chǎn)業(yè)創(chuàng)新的引擎。通過(guò)與全球AI產(chǎn)業(yè)鏈的深度嵌入,CANN深度開(kāi)放戰(zhàn)略的價(jià)值還在不斷放大。

圖片4.png

昇騰AI基礎(chǔ)軟硬件平臺(tái)

02 軟硬協(xié)同+分層開(kāi)放 攻堅(jiān)千行萬(wàn)業(yè)AI落地痛點(diǎn)

面對(duì)千行萬(wàn)業(yè)的AI應(yīng)用場(chǎng)景,當(dāng)基于上層算法優(yōu)化的模型性能摸高已經(jīng)做到極致,想進(jìn)一步提升推理效能,計(jì)算架構(gòu)可以發(fā)揮的創(chuàng)新空間非常大。目前,昇騰CANN已經(jīng)探索出一整套底層資源優(yōu)化策略和方法論,能夠大幅提升算力利用效率和模型效率,并且已經(jīng)在互聯(lián)網(wǎng)、運(yùn)營(yíng)商、教育科研、制造等眾多行業(yè)得到成功驗(yàn)證。

第一,針對(duì)極致性能、超低時(shí)延等場(chǎng)景的底層資源整體優(yōu)化

在AI應(yīng)用過(guò)程中,企業(yè)對(duì)于更高性能、更低時(shí)延的需求是無(wú)止境的,尤其是擁有海量用戶(hù)、業(yè)務(wù)呈現(xiàn)高吞吐高并發(fā)的互聯(lián)網(wǎng)、運(yùn)營(yíng)商等行業(yè)。透過(guò)硬件資源三大件:計(jì)算、通信、內(nèi)存,CANN能夠大幅提升底層資源優(yōu)化利用率。

在計(jì)算層面,多頭潛在注意力(MLA)的前處理階段涉及20次數(shù)據(jù)搬入搬出以及13個(gè)算子串行計(jì)算。CANN創(chuàng)新提出MLAPO融合算子技術(shù),將眾多小算子融合成一個(gè)大算子,能夠?qū)⒂?jì)算耗時(shí)從109微秒降到45微秒。該技術(shù)已經(jīng)在頭部互聯(lián)網(wǎng)和運(yùn)營(yíng)商客戶(hù)落地,并帶來(lái)20%的性能提升。

在通信層面,MoE模型涉及專(zhuān)家間大量通信,CANN通過(guò)NPU Direct通信算法創(chuàng)新,讓通信時(shí)間消耗相比傳統(tǒng)RDMA異步通信降低90%。該技術(shù)已經(jīng)幫助科大訊飛星火大模型的跨機(jī)通信時(shí)延驟降90%,中國(guó)移動(dòng)的千卡集群通信效率提升50%。

在內(nèi)存層面,CANN自研的多重地址映射技術(shù),通過(guò)重組碎片內(nèi)存,實(shí)現(xiàn)內(nèi)存利用率提升20%。

圖片5.png

第二,針對(duì)AI前沿開(kāi)發(fā)領(lǐng)域,CANN通過(guò)分層開(kāi)放,解決開(kāi)發(fā)效率和適配難題

教育/科研行業(yè)是AI前沿開(kāi)發(fā)的主力軍,但往往面臨開(kāi)發(fā)效率低、異構(gòu)資源適配難等痛點(diǎn)。普通開(kāi)發(fā)者只需簡(jiǎn)單調(diào)用算子庫(kù)即可滿(mǎn)足一般開(kāi)發(fā)需求,但是更前沿更深度的開(kāi)發(fā)需求,就需要計(jì)算架構(gòu)不斷開(kāi)源開(kāi)放來(lái)實(shí)現(xiàn)。

分層開(kāi)放是CANN最重要的技術(shù)策略之一。在開(kāi)源了Ascend C編程語(yǔ)言,AOL算子加速庫(kù)、HCCL集合通信庫(kù)之后,今年CANN進(jìn)一步開(kāi)源GE圖引擎,開(kāi)放畢昇編譯器和Runtime運(yùn)行時(shí),滿(mǎn)足發(fā)燒友極致開(kāi)發(fā)的需求。清華大學(xué)計(jì)圖團(tuán)隊(duì)基于CANN構(gòu)建起了MoE專(zhuān)用的算子體系,率先實(shí)現(xiàn)了基于昇騰單臺(tái)服務(wù)器布局DeepSeek R1模型的突破。

此外,提供成熟的工具提升開(kāi)發(fā)效率也一直是CANN迭代的重點(diǎn)。今年CANN新推出了CATLASS算子模板庫(kù),提供了豐富的算子樣例。華南理工大學(xué)團(tuán)隊(duì)借助CATLASS算子模板庫(kù)開(kāi)發(fā)Matmul算子,開(kāi)發(fā)周期從傳統(tǒng)4人周壓縮至2人周。

圖片6.png

CANN分層開(kāi)放

第三,針對(duì)本地化部署AI困難的傳統(tǒng)行業(yè),CANN聯(lián)合伙伴加速行業(yè)解決方案落地

對(duì)于制造、醫(yī)療等傳統(tǒng)行業(yè),DeepSeek落地仍有一定門(mén)檻。以DeepSeek一體機(jī)、垂直行業(yè)大模型等為代表的落地方案,能簡(jiǎn)化部署流程,加速AI在傳統(tǒng)行業(yè)應(yīng)用。昇騰聯(lián)合伙伴推出了豐富的DeepSeek解決方案,目前已經(jīng)在500+行業(yè)客戶(hù)落地。

圖片7.png

比如在家紡行業(yè),傳統(tǒng)的畫(huà)稿設(shè)計(jì)流程過(guò)長(zhǎng),是影響新品研發(fā)效率的瓶頸。過(guò)去,從設(shè)計(jì)師手繪、面料選擇、樣本制作、樣品拍攝,耗時(shí)20+天,還要反復(fù)修改。昇騰伙伴紡知云科技基于CANN深度開(kāi)放能力和DeepSeek底層能力,研發(fā)出國(guó)內(nèi)首個(gè)家紡大模型。設(shè)計(jì)師只需輸入簡(jiǎn)單圖片和描述,家紡大模型會(huì)自動(dòng)生成兼具美學(xué)價(jià)值和商業(yè)價(jià)值的樣品設(shè)計(jì),將設(shè)計(jì)成本從數(shù)萬(wàn)元降到幾十元,設(shè)計(jì)周期從20天減少到5天。

圖片8.png

03 生態(tài)開(kāi)放 聚合AI全產(chǎn)業(yè)鏈創(chuàng)新引擎

隨著AI技術(shù)不斷加速迭代,AI產(chǎn)業(yè)鏈上下游日趨龐大與復(fù)雜,決非一家或幾家科技巨頭可以覆蓋。開(kāi)放的深度和廣度也正是計(jì)算架構(gòu)的核心競(jìng)爭(zhēng)力。對(duì)于CANN,深度開(kāi)放既是技術(shù)策略,也是生態(tài)戰(zhàn)略。借助深度開(kāi)放,CANN正逐漸成為聚合AI全產(chǎn)業(yè)鏈創(chuàng)新力量的引擎。

首先,與伙伴攜手打造覆蓋AI落地全生命周期的、更加開(kāi)放易用AI基礎(chǔ)設(shè)施生態(tài)

比如,在算子開(kāi)發(fā)層面,基于CANN的深度開(kāi)放能力,高性能算子庫(kù)已使能30余家客戶(hù)/伙伴開(kāi)發(fā)了260+核心算子。這些核心算子適配更廣泛的行業(yè)場(chǎng)景,進(jìn)一步降低企業(yè)AI應(yīng)用門(mén)檻。

在操作系統(tǒng)層面,CANN聯(lián)合伙伴打通與鴻蒙、歐拉、麒麟等五大國(guó)產(chǎn)系統(tǒng)的深度兼容。

在模型訓(xùn)練/部署層面,CANN使能騰訊、硅基流動(dòng)、無(wú)問(wèn)芯穹等10余家AI基礎(chǔ)設(shè)施企業(yè),打造智能調(diào)度引擎、分布式訓(xùn)練框架等創(chuàng)新套件,讓AI落地更高效。

其次,與伙伴聯(lián)合研發(fā),共同推進(jìn)基礎(chǔ)模型前沿創(chuàng)新

近年來(lái),基礎(chǔ)模型的性能突破與底層資源優(yōu)化,呈現(xiàn)出雙向驅(qū)動(dòng)的發(fā)展趨勢(shì)。

以昇騰與科大訊飛的深度合作為例,一方面,計(jì)算架構(gòu)加速了對(duì)模型性能的極致探索。比如,基于深度開(kāi)放的CANN,科大訊飛率先實(shí)現(xiàn)了基于昇騰的MoE模型訓(xùn)練推理的落地應(yīng)用,在昇騰集群上實(shí)現(xiàn)MoE模型的大規(guī)模專(zhuān)家并行推理的首次規(guī)模化驗(yàn)證,達(dá)成整體吞吐提升3.2倍,端到端時(shí)延降低50%。

另一方面,模型性能突破過(guò)程中也提升了底層軟硬件協(xié)同。比如科大訊飛也深入?yún)⑴c到了昇騰的軟件生態(tài)建設(shè)中,推動(dòng)了昇騰開(kāi)發(fā)工具集特性不斷豐富。

第三,持續(xù)加強(qiáng)與Pytorch、vLLM等全球主流AI開(kāi)源生態(tài)合作

近年來(lái),昇騰不斷加強(qiáng)與第三方開(kāi)源生態(tài)的合作,深度嵌入全球AI開(kāi)源生態(tài)。目前,vLLM已經(jīng)成為最受開(kāi)發(fā)者歡迎的推理引擎之一。2024年下半年,昇騰開(kāi)始與vLLM開(kāi)展技術(shù)和生態(tài)合作。vLLM社區(qū)新版本發(fā)布即支持昇騰,為開(kāi)發(fā)者提供更多選擇。昇騰團(tuán)隊(duì)還協(xié)助vLLM社區(qū)開(kāi)發(fā)了硬件后端的插件化特性,降低社區(qū)對(duì)后端支持的維護(hù)成本。

結(jié)語(yǔ)

當(dāng)模型性能突破與底層資源優(yōu)化日益融合,計(jì)算架構(gòu)已經(jīng)從技術(shù)幕后走到產(chǎn)業(yè)臺(tái)前。

從架構(gòu)師腦中不斷迭代的代碼,到真實(shí)業(yè)務(wù)場(chǎng)景中的降本增效,CANN已經(jīng)在千行萬(wàn)業(yè)的AI競(jìng)速中發(fā)揮著舉足輕重的價(jià)值。

當(dāng)企業(yè)AI應(yīng)用步入深水區(qū),開(kāi)放創(chuàng)新的CANN,正在成為自主可控AI產(chǎn)業(yè)鏈的中流砥柱。

文章來(lái)源:智能進(jìn)化論

分享到

zhupb

相關(guān)推薦