尊敬的各位領(lǐng)導(dǎo)、各位專家、各位朋友,大家好!我是清華大學(xué)計算機(jī)系鄭緯民,很高興來參加本次論壇,今天我想分享關(guān)于AI算力的幾點思考。
第一個思考,中國在人工智能領(lǐng)域相較于其他國家的優(yōu)勢。我們知道人工智能三架馬車,大數(shù)據(jù)、算法、算力。在大數(shù)據(jù)領(lǐng)域,國內(nèi)的大數(shù)據(jù)應(yīng)用做得更具優(yōu)勢。在算法與算力方面,我們與一些國家還存在差距。在算法上面,一些領(lǐng)先算法面世后,我們具備快速跟進(jìn)的能力,而在算力上面,差距不容易快速追趕,這方面的落后嚴(yán)重制約了我國AI領(lǐng)域的發(fā)展。
第二個思考,關(guān)于人工智能四類應(yīng)用場景。根據(jù)場景可以將人工智能這些行業(yè)應(yīng)用分為四大類,第一類應(yīng)用是圖像視頻的檢測類應(yīng)用,這個以卷積網(wǎng)絡(luò)為核心,可以應(yīng)用到安防、醫(yī)療診斷、自動駕駛,城市治理等等。應(yīng)該說這一類已經(jīng)很好的應(yīng)用效果,落地的很好。
第二類決策類應(yīng)用。以強(qiáng)化學(xué)習(xí)技術(shù)為核心,應(yīng)用于交通規(guī)劃、精準(zhǔn)行銷、個性化推薦。我們比較熟悉的案例是AlphaGo,前幾年它在和圍棋手比賽當(dāng)中獲勝,因此這一類應(yīng)用中的部分場景已初見成效。
第三類是自然語言類應(yīng)用,以Transformer技術(shù)為核心,應(yīng)用于多種語言的翻譯,智能交互,文學(xué)創(chuàng)作、搜索推薦等等。隨著自然語言處理大模型的出現(xiàn),現(xiàn)在逐步成熟。我想特別強(qiáng)調(diào),自然語言類型這一類應(yīng)用需要很大的機(jī)器和非常大的計算力。
第四類,AI與科學(xué)融合應(yīng)用。人工智能與科學(xué)計算深度融合可以解決前沿科學(xué)問題,如蛋白質(zhì)結(jié)構(gòu)的預(yù)測,這是AI與科學(xué)計算融合的最典型的應(yīng)用,我們也叫它AI For Science。我們看自然語言模型最近幾年發(fā)展非常迅猛,這個大模型具備很強(qiáng)的文本生成能力。一個文本數(shù)據(jù)經(jīng)過預(yù)訓(xùn)練以后產(chǎn)生一個很多參數(shù)的一個模型,使用的時候輸入一個“人工智能讓世界變得”,就出來“更美好”,給定了個起始文本以后,生成的文本把后面沒輸進(jìn)來的都生成出來了,因此大模型能做機(jī)器回答、情感分析、信息抽取、文案生成、物體識別。
我們說人工智能正快速走向更大模型的發(fā)展,所以人工智能技術(shù)的推進(jìn)過程中,處理的問題參數(shù)越多,處理效果就越好。因此我們2018年的GPT1有1.1億的參數(shù),到了2020年7月,GPT3是1750億個參數(shù)。我們的鵬程. 盤古是2000億個參數(shù),悟道2.0是清華大學(xué)做的,有1.75萬億個參數(shù),跟人類越來越接近,應(yīng)該說每3、4個月它需要的計算機(jī)算力又翻了一倍。
我們因此說大模型訓(xùn)練需要更大規(guī)模的系統(tǒng),剛才說了差不多是每3、4個月需要的計算機(jī)算力又?jǐn)U大一倍。
第三個思考問題,HPC超算系統(tǒng)與AI算力系統(tǒng)。我們說存在兩類高性能計算機(jī),一類我們覺得是HPC超算系統(tǒng),它是解決科學(xué)與工程計算,比如說天氣預(yù)報、核聚變模擬、飛行設(shè)計等等。它的運算精度是雙精度浮點運算,128位加減乘除,因此編程是MPI加C++,或者M(jìn)PI加Fortran,指標(biāo)是HPL、HPCG。而AI算力系統(tǒng)就是人工智能計算機(jī),它的解決問題是分類回歸、自然語言處理。因此它的運算精度是半精度運算,32位16位甚至是到8位的定點數(shù),編程語言框架也不一樣,MindSpore、TensorFlow等等。指標(biāo)也不一樣,有的計算模式也不一樣,傳統(tǒng)的科學(xué)計算、HPC超算以CPU算力為主,人工智能計算機(jī)以AI專用處理器為主,一直我都說,我們的神威太湖之光就是典型的HPC,我們鵬城云腦II,武漢人工智能計算中心,這是典型的人工智能計算機(jī)。應(yīng)該說這兩類系統(tǒng)還是不一樣的,一個解決傳統(tǒng)科學(xué)計算問題,一個解決人工智能問題。
但是AI For Science一來,使得傳統(tǒng)的科學(xué)計算跟當(dāng)前的AI這兩個機(jī)器要融合,我們看HPC和AI盡管有不同點。但是對訪存、高性能網(wǎng)絡(luò)和存儲的需求是類似的,不同精度的計算單元如果能一定程度的復(fù)用,就給處理器層面同時支持。AI For Science出現(xiàn)使得HPC程序也包含AI算法,意識到HPC跟AI融合成為剛需需求。因此我們從歷史上來看也是,浮點運算在1990年代的時候X86還是個可選件,后續(xù)整個會進(jìn)入到通用CPU。因此我們說,這兩個機(jī)器融合在一塊,既可以解決一切HPC問題,又解決AI問題。我估計三年四年,會出現(xiàn)這樣的新型機(jī)器。
我說一下鵬城實驗室的鵬城云腦,這臺機(jī)器應(yīng)該說是解決人工智能問題是非常好的一個機(jī)器,現(xiàn)在鵬城云腦II有4096塊卡,專門做人工智能問題的。網(wǎng)絡(luò)設(shè)備也是比較好,存儲設(shè)備也非常好,因此基本是做人工智能問題,但是也初步實現(xiàn)了AI與數(shù)字超算融合的這個模式,我們不久的將來,再過兩年會出現(xiàn)鵬城云腦III,它會把這兩個人工智能問題跟HPC問題結(jié)合得更好。
我國有能力以全棧自主創(chuàng)新的技術(shù)構(gòu)筑人工智能計算中心,我們說做一個人工智能計算機(jī)做一個人工智能計算中心,一種辦法直接使用西方的成熟技術(shù),還有什么辦法呢?在開源技術(shù)上進(jìn)行修改。我們主張從頭構(gòu)建先進(jìn)的技術(shù)能力,從頭什么意思呢?就是全是自己做,先進(jìn)的我們做出來的,硬件也好軟件也好,是世界上先進(jìn)的,這個實際上我們也應(yīng)該能做得到,我們這個產(chǎn)業(yè)界與學(xué)術(shù)界的協(xié)同加速基礎(chǔ)技術(shù)從頭先進(jìn),你看我們鴻蒙、歐拉、昇思這些都是華為做的,都是從頭開始做且先進(jìn)的。我們清華大學(xué)時序數(shù)據(jù)庫、圖計算系統(tǒng)、文件系統(tǒng)MadFS,我覺得也是我們都從頭開始做,世界先進(jìn)水平的。一直到我們對人工智能領(lǐng)域,我們有能力從頭做,做先進(jìn)的。包括IO處理器,操作系統(tǒng),異構(gòu)計算框架,AI框架,資源調(diào)度引擎,深度學(xué)習(xí)平臺,全棧技術(shù)自主創(chuàng)新,我們有信心把它做好。
那我們說第四個思考問題,通過合理的基準(zhǔn)測試,以實際的業(yè)務(wù)性能來評價系統(tǒng)性能。我們說一個人工智能計算機(jī)做出來了,怎么來評價它是好的呢還是不好的,因此我們需要一個人工智能算力基準(zhǔn)測序程序。用這測試程序來評價這臺機(jī)器好還是不好,因此我們可以考慮這個問題,公眾需要一個簡單的指標(biāo)來回答,我們這個測試軟件最后出來的是一個比較簡單的,不用太復(fù)雜的,就出來一個數(shù)據(jù),這個數(shù)據(jù)越高表示這臺機(jī)器處理人工智能就越好,因此現(xiàn)在目前傳統(tǒng)的高性能機(jī)器測試結(jié)果與人工智能需要的性能不完全一致,過去HPC有專門的Benchmark,但是沒法應(yīng)用當(dāng)前的人工智能計算機(jī)。因此我們需要做這么一個Benchmark,說起來容易,做起來也很費勁,包括可擴(kuò)展性,還有反映人工智能問題。
我們清華大學(xué)跟鵬城實驗室合作,做了一個叫AIPerf這個Benchmark,來測試人工智能計算機(jī)性能好還是不好?,F(xiàn)在我們公布了兩輪AIPerf成為世界的標(biāo)準(zhǔn),人工智能計算機(jī)都用這個來測試,我們在去年跟今年兩次在世界上發(fā)布,AIPerf的Top500,去年鵬城實驗室的鵬城云腦II是第一名,今年還是第一名。我們到現(xiàn)在的不斷增加,我們直接用國際化,這是一個Benchmark來測試,另外一個以實際的性能來衡量更重要。
第五個思考問題,是武漢人工智能計算中心成為全國人工智能發(fā)展樹立標(biāo)桿。武漢人工智能計算中心,科研成果落地了兩個產(chǎn)業(yè)聯(lián)盟,一個是遙感測繪產(chǎn)業(yè)聯(lián)盟,還有一個多模態(tài)產(chǎn)業(yè)聯(lián)盟,這兩個聯(lián)盟拒絕了很多單位來做這個事兒。一直到100多家企業(yè)入駐,孵化出50多個解決方案,一直到賦能行業(yè)應(yīng)用,加速智能升級。另外一個,我們這個武漢人工智能計算中心,吸引了很多人進(jìn)來,吸引了中科院自動化所、清華大學(xué)等多家科研院所落地武漢,因此武漢人工智能計算中心成為了我們的標(biāo)桿。
第六個,我有是一個思考問題是隨著各地算力基礎(chǔ)設(shè)施發(fā)展完善,算力聯(lián)盟形成統(tǒng)一的調(diào)度是大趨勢。什么意思呢?就是人工智能算力基礎(chǔ)設(shè)施我們很多了,我們武漢有、深圳有、西安有、鄭州有、成都有,這些機(jī)器我們有沒有可能把它統(tǒng)一成一個大的算力,把它連起來,變成一個統(tǒng)一調(diào)度,不僅是能解決大問題,還有一個對于我們國家來說符合雙碳目標(biāo),碳達(dá)標(biāo),碳中和也是有好處的。我們把有些問題盡可能多的到西部去計算,因為西部的能源就好一點,因此這也是一個發(fā)展趨勢。