張建鋒說(shuō):”在全球芯片領(lǐng)域,阿里巴巴是一個(gè)新人,玄鐵和含光800是平頭哥的萬(wàn)里長(zhǎng)征第一步,我們還有很長(zhǎng)的路要走。”

含光為上古三大神劍之一,該劍含而不露,光而不耀,正如含光800帶來(lái)的無(wú)形卻強(qiáng)勁的算力。在杭州城市大腦的業(yè)務(wù)測(cè)試中,1顆含光800的算力相當(dāng)于10顆GPU。

含光800性能的突破得益于軟硬件的協(xié)同創(chuàng)新:硬件層面采用自研芯片架構(gòu),通過(guò)推理加速等技術(shù)有效解決芯片性能瓶頸問(wèn)題;軟件層面集成了達(dá)摩院先進(jìn)算法,針對(duì)CNN及視覺(jué)類算法深度優(yōu)化計(jì)算、存儲(chǔ)密度,可實(shí)現(xiàn)大網(wǎng)絡(luò)模型在一顆NPU上完成計(jì)算。??

含光800是一款A(yù)I芯片,偏重推理。由于人工智能芯片的差異化設(shè)計(jì)主要體現(xiàn)在硬件架構(gòu)和軟件算法上,二者需要高度適配才能發(fā)揮芯片的最大價(jià)值。從目前來(lái)看,傳統(tǒng)CPU、GPU在深度學(xué)習(xí)推理任務(wù)上并沒(méi)有完全發(fā)揮硬件能力,例如GPU架構(gòu)主要針對(duì)圖像處理設(shè)計(jì),其硬件結(jié)構(gòu)、軟件生態(tài)幾乎固化,因此對(duì)AI任務(wù)很難有深度優(yōu)化。

——芯片架構(gòu)方面,含光800采用創(chuàng)新的架構(gòu),針對(duì)深度學(xué)習(xí)中使用的大量權(quán)重參數(shù)和張量數(shù)據(jù),在支持稀疏壓縮與量化處理的基礎(chǔ)上,通過(guò)獨(dú)特設(shè)計(jì)的數(shù)據(jù)訪存與流水線處理技術(shù),大大減低了I/O需求和數(shù)據(jù)的搬移。NPU同時(shí)深度優(yōu)化了卷積,矩陣乘,向量計(jì)算和各種激活函數(shù),通過(guò)高有效的硬件資源調(diào)度和全并行的數(shù)據(jù)流處理,把AI運(yùn)算的性能和能效雙雙推向極致。

——算法方面,阿里巴巴達(dá)摩院機(jī)器智能實(shí)驗(yàn)室過(guò)去兩年構(gòu)建了完整的算法體系,涵蓋語(yǔ)音智能、語(yǔ)言技術(shù)、機(jī)器視覺(jué)、決策智能等方向,并且取得多個(gè)世界領(lǐng)先水平的成果;硬件方面,阿里巴巴此前已在服務(wù)器、FPGA以及存儲(chǔ)等領(lǐng)域擁有多年研發(fā)經(jīng)驗(yàn),此外,平頭哥團(tuán)隊(duì)在體系結(jié)構(gòu)、編譯技術(shù)等領(lǐng)域擁有深厚的技術(shù)儲(chǔ)備。

含光800已開(kāi)始應(yīng)用在阿里巴巴內(nèi)部核心業(yè)務(wù)中。根據(jù)云棲大會(huì)的現(xiàn)場(chǎng)演示,在城市大腦中實(shí)時(shí)處理杭州主城區(qū)交通視頻,需要40顆傳統(tǒng)GPU,延時(shí)為300ms,使用含光800僅需4顆,延時(shí)降至150ms。拍立淘商品庫(kù)每天新增10億商品圖片,使用傳統(tǒng)GPU算力識(shí)別需要1小時(shí),使用含光800后可縮減至5分鐘。

含光800將通過(guò)阿里云對(duì)外輸出AI算力。基于含光800的AI云服務(wù)當(dāng)天正式上線,相比傳統(tǒng)GPU算力,性價(jià)比提升100%。  

過(guò)去半年,平頭哥先后發(fā)布玄鐵910、無(wú)劍SoC平臺(tái)。隨著含光800的發(fā)布,平頭哥端云一體全棧產(chǎn)品系列初步成型,涵蓋處理器IP、一站式芯片設(shè)計(jì)平臺(tái)和AI芯片,實(shí)現(xiàn)了芯片設(shè)計(jì)鏈路的全覆蓋。

分享到

xiesc

相關(guān)推薦