A100采用了NVIDIA Ampere集AI訓練和推理于一身,并且其性能相比于前代產(chǎn)品提升了高達20倍。 作為一款通用型工作負載加速器,A100還被設(shè)計用于數(shù)據(jù)分析、科學計算和云圖形。
A100所采用的全新彈性計算技術(shù)能夠為每項工作分配適量的計算能力。多實例GPU技術(shù)可將每個A100 GPU分割為多達七個獨立實例來執(zhí)行推理任務,而第三代NVIDIA NVLink互聯(lián)技術(shù)能夠?qū)⒍鄠€A100 GPU合并成一個巨大的GPU來執(zhí)行更大規(guī)模的訓練任務。
A100的五大突破
NVIDIA A100 GPU的突破性技術(shù)設(shè)計來源于五大關(guān)鍵性創(chuàng)新
1,NVIDIA Ampere架構(gòu) – A100的核心是NVIDIA Ampere GPU架構(gòu),該架構(gòu)包含超過540億個晶體管,這使其成為全球最大的7納米處理器。
2,具有TF32的第三代Tensor Core核心 – NVIDIA廣泛采用的Tensor Core核心現(xiàn)在已變得更加靈活、快速且易于使用。其功能經(jīng)過擴展后加入了專為AI開發(fā)的全新TF32,它能在無需更改任何代碼的情況下,使FP32精度下的AI性能提高多達20倍。此外,Tensor Core核心現(xiàn)在支持FP64精度,相比于前代,其為HPC應用所提供的計算力比之前提高了多達2.5倍。
3,多實例GPU – MIG,一種全新技術(shù)功能,可將單個A100 GPU分割為多達七個獨立的GPU,為不同規(guī)模的工作提供不同的計算力,以此實現(xiàn)最佳利用率和投資回報率的最大化。
4,第三代NVIDIA NVLink – 使GPU之間的高速聯(lián)接增加至原來的兩倍,實現(xiàn)服務器的高效性能擴展。
5,結(jié)構(gòu)化稀疏 – 這種全新效率技術(shù)利用AI數(shù)學固有的稀疏性,使性能提升了一倍。
新系統(tǒng)已搭載NVIDIA A100,很快將登陸云端
同時發(fā)布的還有NVIDIA DGX A100 系統(tǒng),其內(nèi)置8個由NVIDIA NVLink互聯(lián)的NVIDIA A100 GPU。NVIDIA和官方合作伙伴現(xiàn)已開始供應該系統(tǒng)。
為幫助合作伙伴加快服務器的開發(fā),NVIDIA開發(fā)了HGX A100服務器構(gòu)建模塊,該模塊采用了多GPU配置的集成基板形式。
HGX A100 4-GPU通過NVLink實現(xiàn)GPU之間的完整互聯(lián), 8-GPU配置的HGX A100通過NVIDIA NVSwitch?實現(xiàn)GPU之間的全帶寬通信。采用全新MIG 技術(shù)的HGX A100能夠被分割為56個小型GPU,每個GPU的速度都比NVIDIA T4更快;或者也可以將其用作一臺擁有10petaflops AI性能的巨型8-GPU服務器。
阿里云、AWS、百度智能云、Google Cloud、Microsoft Azure 、甲骨文和騰訊云正在計劃提供基于A100的服務。此外,眾多全球領(lǐng)先的系統(tǒng)制造商也將提供各種基于A100的服務器。