NVIDIA百億億次超級計(jì)算芯片更深入細(xì)節(jié)

每顆Echelon芯片可以視為一個(gè)節(jié)點(diǎn),進(jìn)而四顆組成一個(gè)模塊,然后32個(gè)模塊再加上路由模塊就組成一個(gè)機(jī)柜,合計(jì)性能高達(dá) 2.56PFlops(每秒千萬億次運(yùn)算),內(nèi)存容量32TB、帶寬205TB/s。更進(jìn)一步,這種機(jī)柜還可以繼續(xù)多個(gè)并聯(lián),浮點(diǎn)性能自然也是繼續(xù)直線上升。

NVIDIA同時(shí)表示,為了降低如此超大規(guī)模芯片的功耗,流處理器必須以不到10皮焦的耗電量處理一次雙精度浮點(diǎn)操作,相當(dāng)于費(fèi)米架構(gòu)的二十分之一,同時(shí)每個(gè)流處理器必須在單個(gè)時(shí)鐘周期內(nèi)完成四次浮點(diǎn)操作。

更進(jìn)一步地,NVIDIA計(jì)劃在芯片內(nèi)集成1024個(gè)可配置的256KB SRAM Bank。如此大容量的片上內(nèi)存能夠盡可能地將數(shù)據(jù)保留在芯片內(nèi)部,距離處理單元也盡可能的近,從而避免非常耗電的拾取操作。這些SRAM Bank既可以配置為通用內(nèi)存池,也可以作為專用緩存。

NVIDIA百億億次超級計(jì)算芯片更深入細(xì)節(jié)

Echelon現(xiàn)在還只是NVIDIA遠(yuǎn)景規(guī)劃圖上的一個(gè)設(shè)想,實(shí)現(xiàn)起來還有太多難題要解決,不止有硬件設(shè)計(jì)上的麻煩,還需要自我感應(yīng)操作系統(tǒng)、自我感應(yīng)運(yùn)行時(shí)、位置感應(yīng)編譯器和調(diào)試器的軟性配合。

有趣的是,美國國防部DARPA也同樣找上了Intel,希望其能夠從傳統(tǒng)CPU的角度出發(fā),同樣實(shí)現(xiàn)百億億次高性能計(jì)算。 Intel的計(jì)劃是利用其正在研發(fā)的超多核心(MIC)架構(gòu),而且已經(jīng)有了測試樣品,甚至?xí)诮衲陜?nèi)推出相應(yīng)的商用產(chǎn)品,似乎更快一步。

很顯然,這是CPU、GPU之間的一場終極對決。

分享到

zhabin

相關(guān)推薦