AMD 首席執(zhí)行官蘇姿豐(Lisa Su)博士展示AMD Instinct MI325X加速器

基于AMD CDNA 3架構(gòu),AMD Instinct MI325X加速器專(zhuān)為卓越的性能和效率而設(shè)計(jì),適用于要求苛刻的AI任務(wù),包括基礎(chǔ)模型訓(xùn)練、微調(diào)(fine-tuning)和推理。這些產(chǎn)品使AMD客戶(hù)和合作伙伴能夠在系統(tǒng)、機(jī)架和數(shù)據(jù)中心級(jí)別創(chuàng)建高性能和優(yōu)化的人工智能解決方案。

“AMD將繼續(xù)按照我們的路線圖,為客戶(hù)提供他們所需的性能和選擇,以更快的速度將人工智能基礎(chǔ)設(shè)施大規(guī)模推向市場(chǎng)。”AMD數(shù)據(jù)中心解決方案業(yè)務(wù)部執(zhí)行副總裁兼總經(jīng)理Forrest Norrod表示:“憑借新的AMD Instinct加速器、EPYC處理器和AMD Pensando網(wǎng)絡(luò)引擎,我們開(kāi)放軟件生態(tài)系統(tǒng)的持續(xù)增長(zhǎng),以及將所有這些整合到優(yōu)化的人工智能基礎(chǔ)設(shè)施中的能力,強(qiáng)調(diào)了構(gòu)建和部署世界級(jí)人工智能解決方案的關(guān)鍵專(zhuān)業(yè)知識(shí)?!?/p>

AMD數(shù)據(jù)中心解決方案業(yè)務(wù)部執(zhí)行副總裁兼總經(jīng)理Forrest Norrod

AMD Instinc MI325X擴(kuò)展領(lǐng)先的AI性能

AMD Instinct MI325X加速器提供業(yè)界領(lǐng)先的內(nèi)存容量和帶寬,256GB的HBM3E支持6.0TB/s,比H200增加1.8倍的容量和1.3倍的帶寬。與H200相比,AMD Instinct MI325X的峰值理論FP16和FP8計(jì)算性能也提高了1.3倍。

AMD Instinct MI325X加速器

這種領(lǐng)先的內(nèi)存和計(jì)算可以在FP162的Mistral 7B上提供高達(dá)1.3倍的推理性能,在FP83的Llama 3.1 70B上提供1.2倍的推理性能,在H200的FP16的Mixtral 8x7B上提供1.4倍的推理性能。

AMD Instinct MI325X加速器目前正按計(jì)劃于2024年第四季度投產(chǎn),預(yù)計(jì)從2025年第一季度開(kāi)始,將有廣泛的平臺(tái)供應(yīng)商提供系統(tǒng),包括戴爾科技(Dell Technologies)、Eviden、技嘉(Gigabyte)、惠普企業(yè)(Hewlett Packard Enterprise)、聯(lián)想、超微(Supermicro)等。

AMD繼續(xù)其對(duì)年度路線圖節(jié)奏的承諾,預(yù)覽了下一代AMD Instinc MI350系列加速器。基于AMD CDNA 4架構(gòu),AMD Instinct MI350系列加速器的推理性能比基于AMD CDNA 3的加速器提高了35倍。

AMD Instinc MI350系列將繼續(xù)推動(dòng)內(nèi)存容量的領(lǐng)先地位,每個(gè)加速器高達(dá)288GB的HBM3E內(nèi)存。AMD Instinct MI350系列加速器有望在2025年下半年上市。

AMD下一代AI網(wǎng)絡(luò)

AMD正在利用最廣泛部署的超大規(guī)??删幊藾PU為下一代人工智能網(wǎng)絡(luò)提供動(dòng)力。AI網(wǎng)絡(luò)分為兩個(gè)部分:前端,向AI集群提供數(shù)據(jù)和信息,后端,管理加速器和集群之間的數(shù)據(jù)傳輸,對(duì)于確保CPU和加速器在AI基礎(chǔ)設(shè)施中得到有效利用至關(guān)重要。

為了有效地管理這兩個(gè)網(wǎng)絡(luò),并在整個(gè)系統(tǒng)中推動(dòng)高性能、可擴(kuò)展性和效率,AMD為前端引入了AMD Pensando Salina DPU,為后端引入了AMD Pensando Pollara 400,這是業(yè)界首款支持超以太網(wǎng)聯(lián)盟(UEC)的AI網(wǎng)卡。

世界上性能最高的第三代可編程DPU–AMD Pensando Salina DPU

AMD Pensando Salina DPU是世界上性能最高的第三代可編程DPU,與上一代相比,性能、帶寬和規(guī)模提高了兩倍。AMD Pensando Salina DPU支持400G吞吐量,可實(shí)現(xiàn)快速數(shù)據(jù)傳輸速率,是AI前端網(wǎng)絡(luò)集群的關(guān)鍵組件,可為數(shù)據(jù)驅(qū)動(dòng)的AI應(yīng)用優(yōu)化性能、效率、安全性和可擴(kuò)展性。

業(yè)界首款支持uec的AI網(wǎng)卡AMD Pensando Pollara 400

AMD Pensando Pollara 400采用AMD P4可編程引擎,是業(yè)界首款支持UEC的AI網(wǎng)卡。它支持下一代RDMA軟件,并以開(kāi)放的網(wǎng)絡(luò)生態(tài)系統(tǒng)為后盾。AMD Pensando Pollara 400對(duì)于在后端網(wǎng)絡(luò)中提供加速器到加速器通信的領(lǐng)先性能、可擴(kuò)展性和效率至關(guān)重要。

AMD Pensando Salina DPU和AMD Pensando Pollara 400都將在2024年第四季度向客戶(hù)提供樣品,并有望在2025年上半年上市。

AMD AI軟件為生成式AI提供新功能

AMD繼續(xù)在驅(qū)動(dòng)軟件功能和開(kāi)放生態(tài)系統(tǒng)方面進(jìn)行投資,以在AMD ROCm開(kāi)放軟件堆棧中提供強(qiáng)大的新特性和功能。

在開(kāi)放軟件社區(qū)中,AMD正在推動(dòng)對(duì)最廣泛使用的AI框架、庫(kù)和模型(包括PyTorch、Triton、Hugging Face等)中AMD計(jì)算引擎的支持。這項(xiàng)工作轉(zhuǎn)化為開(kāi)箱即用的性能,并支持AMD Instinct加速器對(duì)流行的生成式AI模型(如Stable Diffusion 3, Meta Llama 3, 3.1和3.2)以及Hugging Face的100多萬(wàn)個(gè)模型的支持。

在社區(qū)之外,AMD繼續(xù)推進(jìn)其ROCm開(kāi)放軟件堆棧,以最新功能支持生成式人工智能工作負(fù)載的領(lǐng)先訓(xùn)練和推理。ROCm 6.2提供包括對(duì)關(guān)鍵AI功能的支持,如FP8數(shù)據(jù)類(lèi)型、Flash Attention 3、內(nèi)核融合等。有了這些新功能,ROCm 6.2比ROCm 6.0在推理方面提供了2.4倍的性能改進(jìn),在各種大模型的訓(xùn)練方面提供了1.8倍的性能改進(jìn)。(發(fā)自舊金山)

分享到

xiesc

相關(guān)推薦