作為面向產(chǎn)業(yè)界和學(xué)術(shù)界、在處理器及系統(tǒng)架構(gòu)師領(lǐng)域的深度技術(shù)盛會,Hot Chips已經(jīng)成為價值萬億美元的數(shù)據(jù)中心計算市場的一個重要論壇。

在本周舉行的 Hot Chips 2024 上,NVIDIA 的高級工程師們展示了為 NVIDIA Blackwell 平臺提供動力的最新技術(shù)進(jìn)展,以及新的數(shù)據(jù)中心液冷研究成果和用于芯片設(shè)計的 AI 代理。

他們圍繞如下內(nèi)容展開了介紹:

· NVIDIA Blackwell 集合了多種芯片、系統(tǒng)和 NVIDIA CUDA 軟件,為跨應(yīng)用場景、行業(yè)和國家的新一代 AI 提供動力。

· NVIDIA GB200 NVL72——一個多節(jié)點、液冷、機(jī)架級擴(kuò)展解決方案,可連接 72 個 Blackwell GPU 和 36 個 Grace CPU——提升了 AI 系統(tǒng)設(shè)計的標(biāo)準(zhǔn)。

· NVLink 互連技術(shù)提供多對多 GPU 間的通信,為生成式 AI 實現(xiàn)創(chuàng)紀(jì)錄的高吞吐量和低延遲推理。

· NVIDIA Quasar 量化系統(tǒng)突破物理極限,加速 AI 計算。

· NVIDIA 研究人員正在構(gòu)建 AI 模型,此模型將協(xié)助打造用于 AI 的處理器。

在一場關(guān)于 NVIDIA Blackwell 的演講中,重點介紹了新架構(gòu)的細(xì)節(jié)以及在 Blackwell 芯片上運行的生成式 AI 模型的示例。

另外的三場講座,內(nèi)容涵蓋混合液冷解決方案如何幫助數(shù)據(jù)中心過渡到能效更高的基礎(chǔ)設(shè)施,以及包括大語言模型驅(qū)動的 AI 代理在內(nèi)的模型如何幫助工程師設(shè)計下一代處理器。

這些演講共同展示了 NVIDIA 工程師們在數(shù)據(jù)中心計算和設(shè)計的每一個領(lǐng)域都在進(jìn)行創(chuàng)新,以提供前所未有的性能、能效和優(yōu)化。

為 Blackwell 做好準(zhǔn)備

NVIDIA Blackwell 是全棧計算的極限挑戰(zhàn)。它由多個 NVIDIA 芯片組成,包括 Blackwell GPU、Grace CPU、BlueField 數(shù)據(jù)處理器、ConnectX 智能網(wǎng)卡、NVLink Switch、Spectrum 以太網(wǎng)交換機(jī)和 Quantum InfiniBand 交換機(jī)。

NVIDIA 架構(gòu)總監(jiān) Ajay Tirumala 和 Raymond Wong 現(xiàn)場首次展示了該平臺,并解釋了這些技術(shù)是如何協(xié)同配合,在提高能效的同時為 AI 和加速計算的性能確立新的標(biāo)準(zhǔn)。

多節(jié)點 NVIDIA GB200 NVL72 解決方案正是一個恰如其分的例子。LLM 推理需要低延遲、高吞吐量的 token 生成。GB200 NVL72 作為一個統(tǒng)一的系統(tǒng),為 LLM 工作負(fù)載提供最多至 30 倍的推理速度提升,使得實時運行萬億參數(shù)模型成為可能。

Tirumala 和 Wong 還探討了 NVIDIA Quasar 量化系統(tǒng)如何在低精度模型上實現(xiàn)高準(zhǔn)確度,并重點介紹了使用 LLM 和視覺生成式 AI 的例子。NVIDIA Quasar 量化系統(tǒng)結(jié)合了算法創(chuàng)新、NVIDIA 軟件庫和工具以及 Blackwell 的第二代 Transformer 引擎。

讓數(shù)據(jù)中心保持“涼爽”

通過風(fēng)冷和液冷結(jié)合的混合冷卻,研究人員開發(fā)出了更高效和可持續(xù)的解決方案,有望讓傳統(tǒng)風(fēng)冷數(shù)據(jù)中心的嗡嗡作響成為歷史。

與風(fēng)冷技術(shù)相比,液冷技術(shù)能夠更高效地為系統(tǒng)散熱,從而使計算系統(tǒng)即使在處理大型工作負(fù)載時也更容易保持低溫狀態(tài)。液冷設(shè)備也比風(fēng)冷系統(tǒng)占用更少的空間,耗電量更低,從而使數(shù)據(jù)中心可以在其設(shè)施中添加更多服務(wù)器機(jī)架,以增加更多算力。

NVIDIA 數(shù)據(jù)中心冷卻和基礎(chǔ)設(shè)施總監(jiān) Ali Heydari 介紹了幾種混合冷卻數(shù)據(jù)中心的設(shè)計方案。

有些設(shè)計方案利用液冷單元改造現(xiàn)有的風(fēng)冷數(shù)據(jù)中心,為現(xiàn)有機(jī)架增加液冷功能提供了一種快速、便捷的解決方案。其它設(shè)計方案則需要使用冷卻液分配單元,安裝管道以直接對芯片進(jìn)行液體冷卻,或者將服務(wù)器完全浸入到冷卻水箱中。盡管這些設(shè)計需要較大的前期投資,但卻能夠大幅降低能耗和運營成本。

Heydari 還介紹了其團(tuán)隊在 COOLERCHIPS 項目中的工作,這個項目旨在開發(fā)先進(jìn)的數(shù)據(jù)中心冷卻技術(shù)。作為該項目的一部分,Heydari 的團(tuán)隊正在使用 NVIDIA Omniverse 平臺來創(chuàng)建基于物理的數(shù)字孿生,這將幫助他們對能耗和冷卻效率進(jìn)行建模,以優(yōu)化數(shù)據(jù)中心設(shè)計。

AI 代理助力處理器設(shè)計

半導(dǎo)體設(shè)計在微觀尺度上是一個巨大的挑戰(zhàn)。開發(fā)尖端處理器的工程師們努力在一個幾英寸大的芯片上裝進(jìn)盡可能多的算力,測試物理上可以實現(xiàn)的極限。

通過提高設(shè)計質(zhì)量和生產(chǎn)力、提高人工流程的效率以及自動化處理一些耗時的任務(wù),AI 模型正在為工程師們的工作提供支持。這些模型包括幫助工程師快速分析和改進(jìn)設(shè)計的預(yù)測和優(yōu)化工具,以及可以幫助解答工程師的問題、生成代碼、調(diào)試設(shè)計問題等的 LLM。

NVIDIA 設(shè)計自動化研究總監(jiān) Mark Ren 在一場講座中對上述這些模型及其應(yīng)用進(jìn)行了總體介紹。在另一場會議中,他還重點介紹了用于芯片設(shè)計的基于 AI 代理的系統(tǒng)。

由 LLM 驅(qū)動的 AI 代理可以被引導(dǎo)自主完成任務(wù),從而在各行各業(yè)解鎖廣泛的應(yīng)用。在微處理器設(shè)計方面,NVIDIA 研究人員正在開發(fā)基于代理的系統(tǒng),這種系統(tǒng)可以使用定制的電路設(shè)計工具進(jìn)行推理和采取行動,與經(jīng)驗豐富的設(shè)計師互動,并從人類和代理積累的經(jīng)驗的數(shù)據(jù)庫中學(xué)習(xí)。

NVIDIA 專家們不僅正在打造這項技術(shù),也在使用它。Mark Ren 分享了幾個例子,包括工程師如何將 AI 代理用于時序報告分析、單元集群優(yōu)化流程和代碼生成。在第一屆 IEEE 大語言模型輔助設(shè)計國際研討會(LAD’24)上,這項單元集群優(yōu)化工作榮膺最佳論文。

分享到

songjy

相關(guān)推薦