從AI說(shuō)起
如果我們不糾纏于“智能超算”的概念,先看看AI帶來(lái)了什么?
說(shuō)到AI離不開AlphaGO。但從技術(shù)的角度說(shuō),真正帶來(lái)突破的其實(shí)來(lái)自算法。聯(lián)想集團(tuán)副總裁、企業(yè)服務(wù)云計(jì)算研究室、無(wú)線研究實(shí)驗(yàn)室黃瑩博士在演講中指出:AlphaGO算法的創(chuàng)新可以分為離線訓(xùn)練和在線對(duì)弈。其中,離線訓(xùn)練表現(xiàn)為基于全局特征深度卷積網(wǎng)絡(luò)的策略網(wǎng)絡(luò),它通過(guò)增強(qiáng)學(xué)習(xí)來(lái)優(yōu)化和修正網(wǎng)絡(luò)參數(shù),用價(jià)值網(wǎng)絡(luò)判斷輸贏的概率;至于在線部分,核心就在于蒙特卡洛算法。
不要被“深度卷積網(wǎng)絡(luò)”、“策略網(wǎng)絡(luò)”、“價(jià)值網(wǎng)絡(luò)”、“神經(jīng)元網(wǎng)絡(luò)”、“蒙特卡洛算法”等專業(yè)辭匯嚇到,說(shuō)白了就是將算法應(yīng)用到圍棋對(duì)弈中,并取得了突破。其實(shí)類似的算法有很多,例如TensorFlow、Caffe、Torch、theano、mxnet等,差不多有20~30種公開算法。我們將“公開算法”用于有特點(diǎn)的數(shù)據(jù),通過(guò)機(jī)器學(xué)習(xí),我們來(lái)研究對(duì)結(jié)果產(chǎn)生影響的有哪些參數(shù)和變量,對(duì)于有經(jīng)驗(yàn)的專業(yè)人員來(lái)說(shuō),可以洞察結(jié)果和變量的關(guān)系,從而尋求突破。
哪些算法究竟適合哪些類型應(yīng)用?這并沒有一個(gè)準(zhǔn)確的答案,需要人工智能專家、分布式計(jì)算專家、網(wǎng)絡(luò)和存儲(chǔ)系統(tǒng)專家和應(yīng)用專家的協(xié)同,尋求突破。AlphaGo的成功,就是算法、機(jī)器學(xué)習(xí)在圍棋對(duì)弈上的突破,同時(shí)也為人工智能技術(shù)應(yīng)用推開了新的一扇窗,將技術(shù)類推到業(yè)務(wù)應(yīng)用創(chuàng)新中,有更多的神奇等待著締造,這是一個(gè)契機(jī)。
所謂心動(dòng)不如行動(dòng),我理解這就是“智能超算”要表達(dá)的含義。為了推動(dòng)企業(yè)數(shù)據(jù)創(chuàng)新應(yīng)用,超算平臺(tái)是必不可少的基礎(chǔ)設(shè)施。
以深騰8810集群為基礎(chǔ)
深騰8810集群是聯(lián)想自主研發(fā)的全新集群,配有HPC+AI智能超算平臺(tái)LiCO,它也是聯(lián)想為企業(yè)級(jí)用戶推薦的人工智能應(yīng)用的平臺(tái)。
聯(lián)想數(shù)據(jù)中心集團(tuán)HPC方案總監(jiān)李煒表示:HPC和AI在技術(shù)需求特點(diǎn)上有很多相似之處,例如它們同樣需要密集型計(jì)算的能力,同樣需要處理超大的數(shù)據(jù)結(jié)合,同時(shí)也會(huì)利用到GPU、FPGA等加速計(jì)算的技術(shù)。其中,在與柯杰的對(duì)弈中,AlphaGO配有的TPU發(fā)揮了非常重要的作用?!皯{借HPC領(lǐng)域豐富的經(jīng)驗(yàn)積累,聯(lián)想有能力引領(lǐng)AI技術(shù)的應(yīng)用和發(fā)展?!?李煒說(shuō)。
嚴(yán)格說(shuō)來(lái),聯(lián)想深騰8810集群并不是一個(gè)產(chǎn)品,而是一個(gè)HPC解決方案。計(jì)算方面,深騰8810集群可以支持各種CPU、FPGA、GPU集成的節(jié)點(diǎn),提供高密度、統(tǒng)一管理、集中部署、節(jié)能環(huán)保的計(jì)算節(jié)點(diǎn),同時(shí)也特提供DSS存儲(chǔ)、分布式存儲(chǔ)的能力,提高數(shù)據(jù)開放性的同時(shí),滿足多樣性和安全可靠的存儲(chǔ)需求。此外,較之上一代產(chǎn)品,LiCO管理平臺(tái)從2.0升級(jí)至3.1.1,增強(qiáng)了報(bào)警、監(jiān)控、報(bào)表等功能,管理節(jié)點(diǎn)數(shù)據(jù)提升到1000個(gè)以上。如此,也就為AI應(yīng)用提供了強(qiáng)大支撐平臺(tái)。
“小到幾十萬(wàn)人民幣,大到幾億人民幣,深騰8810集群提供彈性伸縮的能力。最簡(jiǎn)單的2U服務(wù)器、模塊化服務(wù)器,到4U、8U、用戶可以根據(jù)需要自由組合疊加。如此,最大程度上賦予了用戶選擇的靈活性?!?李煒說(shuō)。
據(jù)了解,LiCO針對(duì)AI框架進(jìn)行了集成和協(xié)調(diào),以滿足分布式訓(xùn)練的需要。用戶可以通過(guò)圖形化管理界面來(lái)管理AI工作流程,讓創(chuàng)建、提交、監(jiān)控和驗(yàn)證等AI作業(yè)操作更加直觀、易于管理。
為了更好地支持企業(yè)級(jí)用戶AI業(yè)務(wù)創(chuàng)新,聯(lián)想將在美國(guó)莫里斯維爾、德國(guó)斯圖加特和北京設(shè)立聯(lián)想全球AI創(chuàng)新中心,為研究機(jī)構(gòu)、技術(shù)以及生態(tài)系統(tǒng)合作伙伴提供基于ThinkSystem基礎(chǔ)架構(gòu)的支持服務(wù)。
在聯(lián)想看來(lái),行業(yè)、算法、數(shù)據(jù)和計(jì)算能力是企業(yè)級(jí)用戶AI應(yīng)用成功的4個(gè)要素。其中,以深度學(xué)習(xí)為代表的AI技術(shù)對(duì)計(jì)算和系統(tǒng)的專業(yè)要求,會(huì)加劇問(wèn)題的復(fù)雜性。而計(jì)算、系統(tǒng)恰恰是聯(lián)想最為擅長(zhǎng)的,所以,AI和HPC的深度結(jié)合,會(huì)大大降低AI系統(tǒng)研發(fā)的復(fù)雜度。
HPC和大數(shù)據(jù)應(yīng)用
熟悉HPC的人知道,Linkpack測(cè)試并不能夠準(zhǔn)確反映HPC實(shí)際應(yīng)用能力。為此,以Linkpack測(cè)試為基礎(chǔ)的HPC排行也倍受爭(zhēng)議。分析其中的原因,Linkpack算法數(shù)據(jù)分布過(guò)于理想,和實(shí)際應(yīng)用中數(shù)據(jù)獲取方式差異比較大。所以,Top500排行只能夠反映出HPC系統(tǒng)浮點(diǎn)運(yùn)算的能力,但這種能力在實(shí)際應(yīng)用中,受數(shù)據(jù)I/O的影響會(huì)打很多的折扣。
如今AI的應(yīng)用,各種算法的深度機(jī)器學(xué)習(xí)恰恰可以發(fā)揮HPC的計(jì)算能力,這讓HPC系統(tǒng)排行更加具有價(jià)值。以大量數(shù)據(jù)處理為基礎(chǔ)、機(jī)器學(xué)習(xí)為數(shù)據(jù)分析,帶來(lái)了更多的視角和可能,而這也是HPC和大數(shù)據(jù)的結(jié)合點(diǎn)。
對(duì)于大數(shù)據(jù)而言,很多時(shí)候會(huì)和Hadoop相提并論,強(qiáng)調(diào)貼近計(jì)算的數(shù)據(jù)分布式存儲(chǔ)。相比于此,這里所強(qiáng)調(diào)的HPC和大數(shù)據(jù)結(jié)合,其實(shí)更加強(qiáng)調(diào)與HPC系統(tǒng)相結(jié)合的海量數(shù)據(jù)存儲(chǔ),其架構(gòu)可以是DSS存儲(chǔ),也可以是分布式軟件定義存儲(chǔ)。HPC和大數(shù)據(jù)合二為一,這也是技術(shù)發(fā)展的趨勢(shì)和方向,因?yàn)樗麄兺瑯有枰獜?qiáng)大的計(jì)算和數(shù)據(jù)存儲(chǔ)能力。
小結(jié)
HPC助力AI應(yīng)用,這是完全可以預(yù)見到的未來(lái)。這也是為什么“智能超算”成為2017聯(lián)想全球超算峰會(huì)主題的原因。對(duì)于AI來(lái)說(shuō), 4要素中的算法、數(shù)據(jù)和計(jì)算完全具備,所欠缺的就是與行業(yè)的結(jié)合。
對(duì)于行業(yè)來(lái)說(shuō),AI可以解決哪些行業(yè)的痛點(diǎn)和難題?其實(shí)答案就在于前瞻性的創(chuàng)新投入和實(shí)踐,也許成功需要一點(diǎn)點(diǎn)幸運(yùn)女神的眷顧,但是仍然離不開無(wú)數(shù)實(shí)踐的基礎(chǔ),因?yàn)闄C(jī)會(huì)總是留給有準(zhǔn)備的人。