圖:浪潮彈性 GPU 服務(wù)器 NF5468M5

這一服務(wù)器具備以下功能:

據(jù)浪潮介紹,AI 云對(duì)基礎(chǔ)架構(gòu)的設(shè)計(jì)帶來(lái)了新的挑戰(zhàn),要求 AI 服務(wù)器具備適合于不同 AI 訓(xùn)練場(chǎng)景的 GPU 靈活拓?fù)?、AI 線上推理的高并發(fā)低延遲與高能效比、大規(guī)模 AI 數(shù)據(jù)的存儲(chǔ)與通信能力?;诖?,結(jié)合英偉達(dá) GPU 芯片的良好性能以及穩(wěn)健生態(tài),浪潮做出一系列創(chuàng)新,推出 NF5468M5。

除了最新發(fā)布的 GPU 服務(wù)器 NF5468M5,浪潮的服務(wù)器還涉及 CPU、FPGA。浪潮通過(guò)實(shí)測(cè)數(shù)據(jù),分析不同場(chǎng)景下人工智能計(jì)算對(duì)服務(wù)器的性能要求,合理搭配以 CPU、GPU 和 FPGA 為核心的 AI 計(jì)算服務(wù)器。以下是兩個(gè)典型案例。

適用于多個(gè)應(yīng)用場(chǎng)景的 FPGA 加速設(shè)備 F10A

F10A 是一款 FPGA 加速設(shè)備?;?FPGA 具有可編程專用性,高性能及低功耗的特點(diǎn),浪潮 F10A AI 線上推理加速方案針對(duì) CNN 卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)算法進(jìn)行優(yōu)化和固化,可加速 ResNet 等神經(jīng)網(wǎng)絡(luò),能夠應(yīng)用于圖片分類、對(duì)象檢測(cè)和人臉識(shí)別等應(yīng)用場(chǎng)景。

這一服務(wù)器的單芯片峰值運(yùn)算能力為 1.5 TFlops,每瓦特性能達(dá)到 42 GFlops。同時(shí),F(xiàn)10A 具有靈活的板卡內(nèi)存配置,最大支持 32G 雙通道內(nèi)存,能夠寄存更多的并行任務(wù)數(shù)據(jù)。

最大支持 64 塊 GPU 的 SR-AI

SR-AI 單機(jī)可實(shí)現(xiàn)支持 16 個(gè) GPU 的超大擴(kuò)展性節(jié)點(diǎn),該方案最大支持 64 塊 GPU,峰值處理能力為 512 TFlop,可支持千億樣本、萬(wàn)億參數(shù)級(jí)別的模型訓(xùn)練。該服務(wù)器打破了傳統(tǒng)服務(wù)器的 GPU/CPU 緊耦合架構(gòu),通過(guò) PCI-e Switch 節(jié)點(diǎn)連接上行的 CPU 計(jì)算/調(diào)度節(jié)點(diǎn)和下行的 GPU Box,實(shí)現(xiàn) CPU/GPU 的獨(dú)立擴(kuò)容,避免傳統(tǒng)架構(gòu)升級(jí)帶來(lái)的部件過(guò)度冗余,使得 GPU 擴(kuò)展無(wú)需同步配置高成本的 IT 資源,可將成本優(yōu)化 5% 以上,隨著規(guī)模上升,成本優(yōu)勢(shì)更加明顯。

浪潮表示,在計(jì)算平臺(tái)的選擇上,企業(yè)可以在適合線下訓(xùn)練的計(jì)算加速節(jié)點(diǎn)采用浪潮領(lǐng)先業(yè)界設(shè)計(jì)的浮點(diǎn)運(yùn)算能力強(qiáng)、高擴(kuò)展的 GPU 服務(wù)器,或 KNM 計(jì)算加速器,而用于線上識(shí)別的計(jì)算加速節(jié)點(diǎn)采用浪潮低功耗、高能效比的 GPU 服務(wù)器,或者低功耗定制優(yōu)化推理程序的 FPGA 加速器。

圖:浪潮 GPU 服務(wù)器產(chǎn)品家族

2017 年,浪潮 AI 服務(wù)器在中國(guó) AI 市場(chǎng)占有率超過(guò) 57%,阿里巴巴、騰訊和百度三家運(yùn)營(yíng)商 90% 以上的 AI 服務(wù)器都來(lái)自浪潮。

對(duì)于浪潮在 AI 服務(wù)器上的成功,浪潮 AI&HPC 總經(jīng)理劉軍將其歸功于三個(gè)方面,一是對(duì) GPU 的布局早,二是對(duì)行業(yè)客戶的把握——把互聯(lián)網(wǎng)作為主航道,三是產(chǎn)品創(chuàng)新的能力和效果有保證。

日前,浪潮也公開(kāi)了企業(yè) AI 策略。

2018 年 4 月 26 日,在浪潮云數(shù)據(jù)中心合作伙伴大會(huì) IPF2018 上,浪潮發(fā)布全新 AI 品牌 TensorServer,明確傳遞浪潮對(duì) AI 業(yè)務(wù)的決心與愿景。浪潮集團(tuán)副總裁彭震對(duì) TensorServer 品牌予以了詮釋:「Tensor 是算法的基礎(chǔ)元素,Server 是計(jì)算力的基礎(chǔ)架構(gòu)。AI 基礎(chǔ)架構(gòu)對(duì)于 AI 產(chǎn)業(yè)持續(xù)快速健康發(fā)展至關(guān)重要。TensorServer 意在成為 AI 的承載者與賦能者,整合創(chuàng)新 AI 基礎(chǔ)架構(gòu)系統(tǒng),以計(jì)算開(kāi)啟可進(jìn)化的智慧世界?!?/p>

這里的 AI 基礎(chǔ)架構(gòu)系統(tǒng)涵蓋平臺(tái)、管理、框架、應(yīng)用多個(gè)方面。

在 AI 管理上,浪潮部署 AIStation 人工智能深度學(xué)習(xí)集群管理軟件。AIStation 主要面向深度學(xué)習(xí)計(jì)算集群,提供數(shù)據(jù)處理、模型開(kāi)發(fā)、模型訓(xùn)練、推理服務(wù)全流程服務(wù),支持多種深度學(xué)習(xí)框架,能夠快速部署深度學(xué)習(xí)訓(xùn)練環(huán)境,全面管理深度學(xué)習(xí)訓(xùn)練任務(wù),為深度學(xué)習(xí)用戶提供高效易用的平臺(tái)。此外,這一軟件可以對(duì)計(jì)算集群的 CPU 及 GPU 資源進(jìn)行統(tǒng)一的管理、調(diào)度及監(jiān)控,有效的提高計(jì)算資源的利用率和生產(chǎn)率。

圖:AIStation 系統(tǒng)架構(gòu)圖

作為補(bǔ)充,浪潮還自研 Teye 應(yīng)用特征分析系統(tǒng)。Teye 主要用于分析 AI 應(yīng)用程序在 GPU 集群上運(yùn)行時(shí)對(duì)硬件及系統(tǒng)資源占用的情況,反映出應(yīng)用程序的運(yùn)行特征、熱點(diǎn)及瓶頸,從而幫助用戶最大限度的在現(xiàn)有平臺(tái)挖掘應(yīng)用的計(jì)算潛力,進(jìn)而為應(yīng)用程序的優(yōu)化以及應(yīng)用算法的調(diào)整改進(jìn)提供科學(xué)的指引方向。

而在框架上,浪潮早在 2015 年就發(fā)布 Caffe-MPI 深度學(xué)習(xí)計(jì)算框架,他們?cè)?Caffe 架構(gòu)的基礎(chǔ)上,針對(duì)并行擴(kuò)展性做出一系列創(chuàng)新。

據(jù)雷鋒網(wǎng)了解,最新版本 Caffe-MPI 在 4 節(jié)點(diǎn) 16 塊 GPU 卡集群系統(tǒng)上訓(xùn)練性能較單卡提升 13 倍,其每秒處理圖片數(shù)量是同配置集群運(yùn)行的 TensorFlow 1.0 的近 2 倍。

Caffe-MPI 設(shè)計(jì)了兩層通信模式:節(jié)點(diǎn)內(nèi)的 GPU 卡間通信及節(jié)點(diǎn)間的 RDMA 全局通信,這極大降低了網(wǎng)絡(luò)通信的壓力,并克服了傳統(tǒng)通信模式中 PCIE 與網(wǎng)絡(luò)之間帶寬不均衡的影響,同時(shí) Caffe-MPI 還設(shè)計(jì)實(shí)現(xiàn)了計(jì)算和通信的重疊。此外,新版本 Caffe-MPI 提供了更好的 cuDNN 兼容性,用戶可以無(wú)縫調(diào)用最新的 cuDNN 版本實(shí)現(xiàn)更大的性能提升。

除了自研深度學(xué)習(xí)框架,浪潮將深度學(xué)習(xí)框架及其依賴的庫(kù)統(tǒng)一進(jìn)行資源封裝成一個(gè)鏡像,之后便可以在任何支持資源封裝的浪潮平臺(tái)上隨時(shí)加載鏡像,用戶可以立刻開(kāi)始工作,其工作環(huán)境與原始環(huán)境完全一致,這可以有效提升生產(chǎn)力。目前,浪潮可封裝的框架資源基本涵蓋了主流的深度學(xué)習(xí)框架,包括 Caffe/Cafee-MPI、TensorFlow、CNTK、MXNet 以及 PaddlePaddle 等。

在應(yīng)用加速上,雷鋒網(wǎng)了解到浪潮的解決方案如下:

浪潮 AI 解決方案專家與客戶商討深度學(xué)習(xí)應(yīng)用場(chǎng)景,共同分析計(jì)算熱點(diǎn)和瓶頸,幫助設(shè)計(jì)適合客戶應(yīng)用場(chǎng)景的系統(tǒng)方案。

浪潮異構(gòu)應(yīng)用專家可以幫助客戶分析 CPU 代碼特征,辨別是否適合遷移至異構(gòu)加速部件,并共同將代碼熱點(diǎn)進(jìn)行移植優(yōu)化,提升應(yīng)用的計(jì)算效率,時(shí)間更短。

浪潮針對(duì) GPU/FPGA/KNM 等主流異構(gòu)加速部件擁有成熟的橫向評(píng)測(cè)方法,可以幫助客戶選擇適合的部件。

目前,浪潮的解決方案為行業(yè) AI 轉(zhuǎn)型提供賦能支撐。

浪潮與百度合作推出 ABC 一體機(jī),這一設(shè)備集合了百度自研的集群管理軟件、優(yōu)化引擎和浪潮 AI 計(jì)算硬件平臺(tái),支持 PaddlePaddle、TensorFlow、Caffe 等主流深度學(xué)習(xí)框架,內(nèi)嵌成熟的算法模型和云管理技術(shù)。

據(jù)浪潮介紹,ABC 人臉識(shí)別一體機(jī)支持百度人臉檢測(cè)、1:1 人臉對(duì)比和 1:N 人臉查找三大人臉識(shí)別核心能力,可以根據(jù)人臉面部的 72 個(gè)特征點(diǎn)識(shí)別多種人臉屬性,如性別、年齡、表情等信息,并計(jì)算人臉相似度,可用于用戶身份。

圖:浪潮與百度攜手打造 ABC 一體機(jī)

此外,浪潮很早就開(kāi)始與科大訊飛合作訓(xùn)練語(yǔ)音神經(jīng)網(wǎng)絡(luò)模型,從將模型訓(xùn)練從 CPU 單機(jī)上擴(kuò)展到多機(jī),而后又開(kāi)展如何在 FPGA 上運(yùn)行語(yǔ)音神經(jīng)網(wǎng)絡(luò)模型的研究,實(shí)現(xiàn)更高的性能。

目前,浪潮在計(jì)算平臺(tái)、管理套件、框架優(yōu)化和應(yīng)用加速上已經(jīng)形成有機(jī)的 AI 生態(tài)。劉軍表示,對(duì)于渴望 AI 轉(zhuǎn)型的企業(yè),從客觀看,極其需要這四層能力,而浪潮作為賦能者,能將這四層能力賦予這些企業(yè),讓其更快速地實(shí)現(xiàn) AI 落地。

分享到

zhangnn

相關(guān)推薦