久99,最近的2019中文字幕视频

我們?cè)诮ㄔO(shè)鵬城云腦II的期間，真正實(shí)現(xiàn)了“深圳速度”的一個(gè)神話，為什么呢？了解我們國(guó)家科研制度的都知道，你要想做一個(gè)大的裝置，或者做一臺(tái)比如說(shuō)大的機(jī)器，從開始到論證、報(bào)方案、批復(fù)，然后科研，然后再開始建設(shè)，這一個(gè)周期下來(lái)，快的是幾年，慢的有的是十幾年。而鵬城云腦II從開始遞交方案到機(jī)器建成一共用了九個(gè)月，真正體現(xiàn)了“深圳速度”。編制項(xiàng)目建議書是在去年（2020年）3月份，云腦II機(jī)器啟動(dòng)運(yùn)行是在去年10月15號(hào)，大家看左面這個(gè)坑是建機(jī)房之前，原來(lái)是采石場(chǎng)的一個(gè)坑，右邊這個(gè)照片是機(jī)房建好以后的樣子?，F(xiàn)在這臺(tái)機(jī)器非常忙，這個(gè)機(jī)器的機(jī)時(shí)的使用率是99%，就是基本上是一點(diǎn)都不閑著，排著隊(duì)在等機(jī)時(shí)，因?yàn)槲覀冇刑啻竽Ｐ托枰谶@個(gè)機(jī)器上去訓(xùn)練。

這個(gè)機(jī)器我們叫E級(jí)AI算力，達(dá)到1000P，所謂E級(jí)是10的18次方，或者換成我們普通說(shuō)法叫做百億億次，我們知道一億是10的8次方，億億就是10的16次方，后面再加兩個(gè)零就是百億億次，應(yīng)該說(shuō)在AI算力上，是現(xiàn)在最強(qiáng)的一個(gè)，當(dāng)然可能其他一些地方也有比這個(gè)算力規(guī)模稍微小一點(diǎn)的機(jī)器，現(xiàn)在用華為的系統(tǒng)已經(jīng)建了大概六七個(gè)、七八個(gè)，或者是100P、300P的機(jī)器，大概是這臺(tái)機(jī)器的1/10，或者是1/3這樣的一個(gè)算力。這個(gè)算力要把它轉(zhuǎn)起來(lái)還是要花點(diǎn)氣力的，因?yàn)槲覀冞@臺(tái)機(jī)器是基于華為的Atlas 900 AI集群實(shí)現(xiàn)的，一組Atlas 900 AI集群有128個(gè)計(jì)算節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)內(nèi)包含8顆昇騰910處理器，我們把四組Atlas 900 AI集群連到一起，整個(gè)是統(tǒng)一接口、統(tǒng)一形象，完全是一張網(wǎng)、一個(gè)機(jī)器。為了做這個(gè)機(jī)器，我們把四組集群上面架了一個(gè)全交換的非?？斓木W(wǎng)絡(luò)，為了讓它對(duì)數(shù)據(jù)的讀取速度更快，對(duì)每一個(gè)機(jī)器里面的存儲(chǔ)做了加強(qiáng)，對(duì)它內(nèi)部的一些運(yùn)算底層的軟件做了優(yōu)化，這樣就使得這個(gè)機(jī)器的速度非?？臁？斓绞裁闯潭饶兀炕旧线@臺(tái)機(jī)器現(xiàn)在在全世界的IO速度是最快的?？斓绞裁闯潭饶?？在去年的11月份，這臺(tái)機(jī)器去打榜的時(shí)候，比排第二的英特爾的一臺(tái)機(jī)器快了四倍。如果想做人工智能訓(xùn)練，想做大模型訓(xùn)練， IO的速度是決勝的，因?yàn)橐写罅康臄?shù)據(jù)來(lái)回的讀進(jìn)去吐出來(lái)，如果IO速度如果不行的話，很多的開銷都被IO給吃掉了。這臺(tái)機(jī)器因?yàn)樗麵O方面做了特殊的配置，而且網(wǎng)絡(luò)方面也做了特殊配置，所以這個(gè)速度，就是通信的開銷，整個(gè)占比是比較低的，所以它在整個(gè)模型訓(xùn)練的時(shí)候效率就會(huì)高。

這臺(tái)機(jī)器現(xiàn)在至少已經(jīng)訓(xùn)練出兩個(gè)千億級(jí)的大模型。前幾天華為已經(jīng)發(fā)布過(guò)一個(gè)盤古大模型，今天我要跟大家說(shuō)的是叫鵬程大模型，這是兩個(gè)自然語(yǔ)言處理預(yù)訓(xùn)練大模型之一。大家知道GPT3基本上是做自然語(yǔ)言處理，大家非常向往的一個(gè)模型，微軟為了訓(xùn)練一個(gè)GPT3在微軟的環(huán)境下，花了1200萬(wàn)美元訓(xùn)練出一個(gè)GPT3的模型來(lái)。我們現(xiàn)在云腦II機(jī)器做完以后，已經(jīng)訓(xùn)練出兩個(gè)這樣的模型，一個(gè)是鵬城實(shí)驗(yàn)室跟MindSpore團(tuán)隊(duì)等聯(lián)合攻關(guān)訓(xùn)練出來(lái)的，這個(gè)模型叫鵬程.盤古，模型參數(shù)為兩千億；另一個(gè)是華為云聯(lián)合鵬城實(shí)驗(yàn)室一起聯(lián)合訓(xùn)練出來(lái)的大模型，這個(gè)模型叫華為.盤古，這個(gè)模型參數(shù)為一千一百億。這兩個(gè)模型整個(gè)的復(fù)雜度都是千億參數(shù)，而且專門是針對(duì)中文的最大的模型。

鵬程模型還有一個(gè)特點(diǎn)是開源的，我們內(nèi)部的人討論說(shuō)，就算你把兩千億開源了，它離了我們這臺(tái)機(jī)器還是玩不轉(zhuǎn)，要想跑起來(lái)就得來(lái)我們這個(gè)機(jī)器上跑。為了支持應(yīng)用怎么辦呢？我們先開出一個(gè)百億級(jí)的大模型來(lái)，那么千億級(jí)的，如果有需要，只要是講清楚你要怎么用，在哪里算，我們也可以開。所以原則上支持開源的。

那么有了這個(gè)開源，你就可以做很多自然語(yǔ)言處理方面的事。你要想做一個(gè)中文的問(wèn)題回答系統(tǒng)，就是問(wèn)答系統(tǒng)，你要想做自然語(yǔ)言的理解，想做一些理解器，或者你想做機(jī)器翻譯等等，這個(gè)系統(tǒng)都可以做。這個(gè)模型可以做云搜索、智能客服、醫(yī)療的一些向?qū)?、互?dòng)的教育、文學(xué)創(chuàng)造、自動(dòng)摘要的生成，甚至做代碼的生成。現(xiàn)在我們有一個(gè)團(tuán)隊(duì)在做一個(gè)知識(shí)產(chǎn)權(quán)交易聯(lián)邦推薦系統(tǒng)，沒(méi)有這個(gè)模型之前，是用軟件和很多專家的知識(shí)，做了一個(gè)系統(tǒng)，用上鵬程大模型以后，這個(gè)系統(tǒng)性能一下子提高了12.2%，所以鵬程大模型的好處是顯而易見(jiàn)的。而且我們希望用這個(gè)模型來(lái)突破“語(yǔ)言壁壘”，支撐“一帶一路”的國(guó)家戰(zhàn)略，也就是說(shuō)用這個(gè)模型我們很容易做機(jī)器翻譯，做商業(yè)的這種報(bào)關(guān)等等這些文件的交換。以前是商量好用英語(yǔ)或者商量好用什么語(yǔ)言，現(xiàn)在隨便，你這邊用中文，那邊用阿拉伯語(yǔ)，通過(guò)這個(gè)東西馬上給你互譯過(guò)來(lái)。大家現(xiàn)在用手機(jī)就可以登錄進(jìn)去，試試這個(gè)模型好不好用，你問(wèn)一些問(wèn)題，看看它能不能回答出來(lái)。

鵬程大模型到底是怎么“煉”出來(lái)的呢？它是有四個(gè)方面基本的要素：

第一個(gè)要素是AI的算力，就是鵬城云腦II；第二個(gè)要素是要有高質(zhì)量的中文語(yǔ)料庫(kù)，我們有一個(gè)專門整理中文語(yǔ)料數(shù)據(jù)集的團(tuán)隊(duì)，把能拿到、能買到的數(shù)據(jù)全都拿來(lái)進(jìn)行清洗，然后把數(shù)據(jù)整理得非常好，送進(jìn)機(jī)器就可以進(jìn)行訓(xùn)練；然后要有一個(gè)非常好的全自動(dòng)并行的這樣一個(gè)算法，這個(gè)算法是由昇騰、MindSpore團(tuán)隊(duì)和鵬城實(shí)驗(yàn)室的工程師無(wú)縫合作，把這些全并行的技術(shù)實(shí)現(xiàn)了；最后就是通過(guò)“產(chǎn)學(xué)研”三方合作新型研發(fā)合作機(jī)制，結(jié)合華為的產(chǎn)業(yè)優(yōu)勢(shì)，北京大學(xué)的學(xué)術(shù)優(yōu)勢(shì)，以及鵬城實(shí)驗(yàn)室的研究?jī)?yōu)勢(shì)，形成互補(bǔ)、協(xié)同。

整個(gè)鵬城云腦可以作為核心節(jié)點(diǎn)連接全國(guó)算力的基礎(chǔ)設(shè)施，我們剛才說(shuō)的是1000P的這樣一臺(tái)機(jī)器，現(xiàn)在全國(guó)各地有不少基于昇騰軟硬件在做的100P的或者300P的機(jī)器，這些可以聯(lián)動(dòng)起來(lái)一起做，有大的問(wèn)題、難的問(wèn)題可以到1000P的機(jī)器上跑，小一點(diǎn)的模型或者私有化的一些應(yīng)用，可以到100P、300P的機(jī)器上跑，這樣大家有些分工，就可以在全國(guó)把人工智能分享起來(lái)。

分享到

songjy

相關(guān)推薦

近期文章

熱門標(biāo)簽