1 算力基礎(chǔ)設(shè)施戰(zhàn)略?xún)r(jià)值巨大

本章節(jié)內(nèi)容節(jié)選自《2022-2023全球計(jì)算力指數(shù)評(píng)估報(bào)告》,由IDC、浪潮信息、清華全球產(chǎn)業(yè)院。內(nèi)容有調(diào)整。

通過(guò)數(shù)字技術(shù)推動(dòng)業(yè)務(wù)變革,進(jìn)而實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型,已經(jīng)成為傳統(tǒng)企業(yè)發(fā)展的必由之路。隨著數(shù)字技術(shù)的不斷進(jìn)步和發(fā)展,以及數(shù)據(jù)量的爆發(fā)性增長(zhǎng),強(qiáng)大的算力,成為了創(chuàng)新和突破的關(guān)鍵要素。

以人工智能領(lǐng)域?yàn)榈湫?,人工智能大模型的發(fā)展,受算力發(fā)展的直接影響。人工智能算法和技術(shù)被應(yīng)用于各種領(lǐng)域和行業(yè)(AI+),如自動(dòng)駕駛汽車(chē)、醫(yī)療診斷、金融預(yù)測(cè)等。   

算力的發(fā)展不僅激發(fā)數(shù)字技術(shù)的創(chuàng)新和突破,也推動(dòng)了數(shù)字技術(shù)在各行各業(yè)的廣泛應(yīng)用與深度融合,為各行業(yè)能夠?qū)崿F(xiàn)科技創(chuàng)新提供了重要支撐。

在數(shù)字經(jīng)濟(jì)時(shí)代,算力是國(guó)家經(jīng)濟(jì)增長(zhǎng)的關(guān)鍵驅(qū)動(dòng)力之一。根據(jù)上圖可以看到,算力的提高對(duì)一國(guó)經(jīng)濟(jì)增長(zhǎng)的拉動(dòng)效應(yīng)非常顯著,且隨著計(jì)算力指數(shù)的增加,提升效應(yīng)會(huì)越來(lái)越明顯。

評(píng)估結(jié)果顯示,十五個(gè)樣本國(guó)家的計(jì)算力指數(shù)平均每提高1點(diǎn),國(guó)家的數(shù)字經(jīng)濟(jì)和GDP將分別增長(zhǎng)3.6‰和1.7‰。

總之,算力基礎(chǔ)設(shè)施支撐并加速新質(zhì)生產(chǎn)力和千行百業(yè)的發(fā)展,算力基礎(chǔ)設(shè)施是整個(gè)國(guó)民經(jīng)濟(jì)發(fā)展的重中之重。   

2 算力基礎(chǔ)設(shè)施的風(fēng)險(xiǎn)和挑戰(zhàn)

雖然算力和我們的鐵路、公路、水利、電力等行業(yè)一樣,被稱(chēng)為基礎(chǔ)設(shè)施。但算力是新型基礎(chǔ)設(shè)施,和這些傳統(tǒng)基礎(chǔ)設(shè)施相比,仍存在非常大的差異性。而這些差異性,也基本上就是算力基礎(chǔ)設(shè)施存在的風(fēng)險(xiǎn)和挑戰(zhàn)。

本章節(jié),我們就算力基礎(chǔ)設(shè)施的風(fēng)險(xiǎn)和挑戰(zhàn)進(jìn)行分析,無(wú)法面面俱到,僅限拋磚引玉。關(guān)于算力基礎(chǔ)設(shè)施的風(fēng)險(xiǎn)和挑戰(zhàn),希望能夠得到全行業(yè)的重視。全行業(yè)一起努力,能夠構(gòu)建符合技術(shù)和市場(chǎng)規(guī)律,并且能夠支撐國(guó)家數(shù)字經(jīng)濟(jì)快速發(fā)展的新型算力基礎(chǔ)設(shè)施。

2.1 算力難以標(biāo)準(zhǔn)化

如果算力可以公平且標(biāo)準(zhǔn)化的度量,那么算力就可以像電力一樣,大規(guī)模生產(chǎn)和消費(fèi)。但實(shí)際的情況,遠(yuǎn)比想象的要復(fù)雜的多。

我們通過(guò)兩個(gè)案例進(jìn)行分析。首先是CPU處理器的案例。CPU是最通用的處理器,沒(méi)有之一。我們以CPU中兩個(gè)重要的部件進(jìn)行分析:

第二個(gè)案例,CPU vs 專(zhuān)用處理器。如果同樣的1000TOPS算力(折合成TOPS統(tǒng)一單位),CPU算力和專(zhuān)用處理器的算力哪個(gè)更好?一般來(lái)說(shuō),CPU算力更好,因?yàn)镃PU算力更加通用,可以用在幾乎所有場(chǎng)景,并且對(duì)軟件和軟件開(kāi)發(fā)者的要求更低。而專(zhuān)用處理器,僅能支持某個(gè)特定場(chǎng)景,甚至某個(gè)特定算法算力,對(duì)其他的業(yè)務(wù)場(chǎng)景來(lái)說(shuō),價(jià)值幾乎為零。這樣的話(huà),這兩種算力,能賣(mài)相同的價(jià)格嗎?我們假設(shè)CPU 1000TOPS算力價(jià)格為1000元/月,那么,專(zhuān)用處理器 1000TOPS算力的價(jià)格10塊錢(qián),都不一定能找到合適的客戶(hù)。

算力為什么難以標(biāo)準(zhǔn)化?本質(zhì)的原因在于計(jì)算引擎和業(yè)務(wù)算法的耦合性。在加減乘數(shù)等基本指令的通用CPU基礎(chǔ)上,做的任何優(yōu)化,其實(shí)都是面向某些特定規(guī)律的計(jì)算或算法優(yōu)化。這些加速計(jì)算引擎只有找到匹配的業(yè)務(wù)算法,才能發(fā)揮價(jià)值;反過(guò)來(lái),如果沒(méi)有匹配的業(yè)務(wù)算法,計(jì)算引擎的價(jià)值就很低很低。簡(jiǎn)單總結(jié)如下:

總結(jié)一下,我們認(rèn)為,計(jì)算是一件非常復(fù)雜的事情,算力(也即計(jì)算的能力)的標(biāo)準(zhǔn)化,幾乎是一個(gè)偽命題。   

2.2 業(yè)務(wù)的算力需求指數(shù)級(jí)增長(zhǎng)

從上圖可以看到,從2012年深度學(xué)習(xí)的興起,算力需求逐漸增強(qiáng),跳脫摩爾定律約束,需要GPU加速處理器,以及Scale out的集群計(jì)算。這一時(shí)期,算力需求每3.4個(gè)月翻倍。從2018年開(kāi)始,隨著大模型的流行,算力需求進(jìn)一步加速,每2個(gè)月就會(huì)翻倍。與此同時(shí),Scale Out也越來(lái)越難以為繼,集群規(guī)模從千卡到萬(wàn)卡,再到十萬(wàn)卡。集群規(guī)模的不斷擴(kuò)大,使得AI計(jì)算的成本越來(lái)越成為天文數(shù)字。

例如,微軟與OpenAI制定的新一代AI算力芯片和基礎(chǔ)設(shè)施項(xiàng)目星際之門(mén),預(yù)計(jì)耗資1000億美元;目標(biāo)參數(shù)規(guī)模為1000萬(wàn)億,是GPT4的10000倍。

業(yè)務(wù)需求和算力基礎(chǔ)設(shè)施的差距成指數(shù)級(jí)增長(zhǎng),兩者之間的矛盾進(jìn)一步加劇。要想根本性的解決問(wèn)題,一方面需要單節(jié)點(diǎn)的計(jì)算架構(gòu)的創(chuàng)新(Scale Up創(chuàng)新),也需要更高效的集群網(wǎng)絡(luò)解決方案,進(jìn)一步支持更大規(guī)模的集群計(jì)算(Scale Out創(chuàng)新)。

2.3 算力技術(shù)體系的門(mén)檻非常之高

算力涉及芯片、硬件及基礎(chǔ)設(shè)施、軟件以及業(yè)務(wù)四個(gè)主要的方案,每一項(xiàng)都非常的復(fù)雜,且有極高的技術(shù)門(mén)檻:

總之,從算力芯片,到硬件以及相關(guān)軟件和開(kāi)發(fā)框架,軟硬件體系極度龐大和復(fù)雜,技術(shù)門(mén)檻非常高。

2.4 算力技術(shù)迭代很快

TSMC  3nm工藝已經(jīng)量產(chǎn),2nm、1nm也都在未來(lái)幾年的路線圖中。并且,TSMC已經(jīng)開(kāi)始在攻關(guān)0.1nm工藝,半導(dǎo)體工藝即將進(jìn)入亞納米(埃米)時(shí)代。在存儲(chǔ)領(lǐng)域,近些年來(lái)還興起了3D封裝技術(shù),使得集成電路從二維進(jìn)入三維。在封裝領(lǐng)域,Chiplet先進(jìn)封裝機(jī)制,把多個(gè)芯片裸DIE集成到一起,從3D到4D,都進(jìn)一步增強(qiáng)了單位面積的晶體管集成度。

隨著單芯片所能容納的晶體管數(shù)量逐漸增加,計(jì)算的架構(gòu)也越來(lái)越復(fù)雜,逐漸從CPU同構(gòu)、CPU+GPU的異構(gòu),走向了CPU+GPU+DSAs的異構(gòu)融合。2023年9月15日,在湖南長(zhǎng)沙的世界計(jì)算大會(huì)上,《異構(gòu)融合計(jì)算技術(shù)白皮書(shū)》由工信部電子五所發(fā)布(關(guān)注軟硬件融合公眾號(hào),回復(fù)“白皮書(shū)”,可下載此白皮書(shū))。

算力芯片的設(shè)計(jì)模式,已經(jīng)從“硬件定義軟件”轉(zhuǎn)向“軟件定義硬件”。傳統(tǒng)的算力芯片設(shè)計(jì)模式,是先有芯片,然后是驅(qū)動(dòng)和開(kāi)發(fā)框架,再然后是基于框架的軟件任務(wù)。但這種方式,每家芯片公司都是一個(gè)獨(dú)立的架構(gòu),獨(dú)立的生態(tài)。一方面,構(gòu)建生態(tài)的門(mén)檻非常高,另一方面,這種方式對(duì)客戶(hù)非常不友好。特別是在計(jì)算的主流方式從單機(jī)走向大規(guī)模集群計(jì)算的當(dāng)下,客戶(hù)既傾向于統(tǒng)一的計(jì)算平臺(tái),又不想被特定的廠家綁定。軟件定義硬件的方式,是客戶(hù)和芯片供應(yīng)商最大的公約數(shù)。

這里就計(jì)算的形態(tài)再做進(jìn)一步展開(kāi)。隨著大模型的發(fā)展,計(jì)算需求的規(guī)模越來(lái)越大,和單顆芯片所能提供的性能差距的數(shù)量級(jí),也在不斷增加。千卡集群、萬(wàn)卡集群,甚至十萬(wàn)卡、百萬(wàn)卡集群也已經(jīng)在路上。超大規(guī)模集群計(jì)算,甚至跨云邊端的融合計(jì)算,已經(jīng)成為了計(jì)算的主流形態(tài)。

摩爾定律告訴我們,每18-24個(gè)月芯片的性能就會(huì)翻倍。NVIDIA黃仁勛的黃氏定律告訴我們,計(jì)算性能會(huì)每一年翻一倍。這兩個(gè)定律意味著,算力芯片的迭代周期是1-2年一代。

軟件的迭代就更快了,軟件開(kāi)發(fā)更是講究“小步快跑”,通常是2-3個(gè)月一個(gè)小迭代,一年一個(gè)大迭代,不然就趕不上業(yè)務(wù)快速發(fā)展的需要。   

2.5 算力基礎(chǔ)設(shè)施的生命周期非常短

傳統(tǒng)基礎(chǔ)設(shè)施,技術(shù)更新?lián)Q代較慢,傳統(tǒng)基礎(chǔ)設(shè)施的生命周期很長(zhǎng),通常在50年以上,有的甚至100年以上。

而受算力各項(xiàng)技術(shù)的快速更新迭代,特別是摩爾定律和黃氏定律的影響,算力基礎(chǔ)設(shè)施的生命周期通常4-5年。因?yàn)椋?-5年時(shí)間之后,硬件的可靠性會(huì)越來(lái)越差,并且計(jì)算的各項(xiàng)支出越來(lái)越不夠經(jīng)濟(jì),必須要更換更加先進(jìn)的計(jì)算設(shè)備和相應(yīng)的軟硬件技術(shù)棧。

3 開(kāi)放的技術(shù)棧,開(kāi)放的產(chǎn)業(yè)鏈

國(guó)產(chǎn)算力芯片最大的困境在于生態(tài):構(gòu)建一個(gè)新的計(jì)算生態(tài),門(mén)檻非常高,千億級(jí)投入都不一定成功。但行業(yè)除了NVIDIA CUDA生態(tài)之外,還有一個(gè)更加強(qiáng)大的生態(tài),即全球幾乎所有互聯(lián)網(wǎng)公司(客戶(hù))都支持的開(kāi)源軟件生態(tài)。基于開(kāi)源軟件,實(shí)現(xiàn)開(kāi)源軟件定義的開(kāi)放硬件,形成一個(gè)更加開(kāi)放更加強(qiáng)大的開(kāi)源的技術(shù)(棧)生態(tài)。   

國(guó)家多個(gè)部委發(fā)文,說(shuō)要構(gòu)建全國(guó)一體化算力網(wǎng)。但一體化算力網(wǎng),并不意味著是一家公司獨(dú)大,而是意味著算力的充分利用和價(jià)值的最大化發(fā)揮。我們認(rèn)為,未來(lái)也是類(lèi)似公有云的競(jìng)爭(zhēng)態(tài)勢(shì),最終形成5家左右具有全國(guó)甚至全球影響力的算力網(wǎng)公司,以及10家以上具有行業(yè)和領(lǐng)域特色的專(zhuān)業(yè)算力網(wǎng)公司??傊?,整個(gè)產(chǎn)業(yè)鏈?zhǔn)情_(kāi)放的:

只有開(kāi)放,才能最大限度的發(fā)揮各自的創(chuàng)造力和和市場(chǎng)競(jìng)爭(zhēng)價(jià)值,才能最大限度的實(shí)現(xiàn)技術(shù)的快速進(jìn)步,才能實(shí)現(xiàn)算力芯片和算力產(chǎn)業(yè)鏈的獨(dú)立自主,甚至全球領(lǐng)先。

來(lái)源: 軟硬件融合

分享到

nina

相關(guān)推薦