雖然TGP從4090的450瓦提高到了575瓦,但單手持握意味著至少公版的5090不需要特別夸張的散熱規(guī)格。非公版顯卡的三風扇應該可以比較好的壓制溫度。

雖然5090的散熱要求并不是非常過分。不過,1999美元的定價,32G的顯存還是有點過于高冷了,顯然根本不是給游戲玩家準備的。

對于大多數人來說,看到老黃說5070的性能等于4090就開始上頭了,簡直就是看到了撿便宜的機會,不買一張5070比買了A股還難受。

而買了4090的網友聽完就炸鍋了,直呼:沒想到看個發(fā)布會,我的4090就只值5070的549刀了?

不過,你一定可以相信老黃的皮衣,老黃的刀法,但對老黃的這類描述一定要謹慎對待。比如,當年就說過3070的性能可以超過上一代旗艦RTX 2080 Ti,實際上根本不是那么回事。

有國外網友列出了兩張卡的對比數據,看到這個,你還敢信老黃說的?最多就是部分參數性能能達到一個水平吧??傊畡e太上頭,最好過一陣子看看國行5070的價格再說。

不過,我覺得老黃這次CES上說的RTX 5090倒是還有一個有意思的地方,要不是這位叫Jim Fan的大佬說,我也完全沒注意到。

他說,新一代顯卡將使用神經網絡生成90%的游戲畫面的像素,只有10%的像素使用傳統(tǒng)的光線追蹤算法來渲染像素。使用傳統(tǒng)方法渲染的畫面像草圖,而顯卡會根據草圖生成其他的畫面細節(jié)像素,生成速度很快。

這就有點顛覆性了,生成式AI大模型誕生于顯卡,又再造了顯卡。游戲顯卡以前叫GTX,RTX的命名就是在給光追做推廣,以后RTX的命名是不是會根據AI再做一次修改呢?

除了生成更多像素,英偉達還支持讓顯卡生成新的畫面幀,傳統(tǒng)計算方式生成一個幀之后,用DLSS再生成三個幀。這將大大提高游戲的幀率,提高游戲畫面的流暢度。

以后還哪有什么玩游戲的顯卡,就算你是在玩游戲,顯卡也在不停的做AI推理啊。

第二個有趣瞬間,化身美國隊長,展示GB200 NVL72的強大。

酒過三巡,介紹完消費級顯卡之后,在介紹數據中心級B200顯卡之前,老黃提到了三個Scaling Law。

第一個是預訓練階段模型會隨著數據、算力和參數的提升而提升效果;

第二個是在訓練完成后,通過微調、模型蒸餾等各種優(yōu)化技術進行二次訓練來提升效果;

第三個則是在推理階段,通過多步驟的推理,類似慢思考的方式來提升模型的效果。

為什么強調這Scaling Law呢?因為這三個階段都需要大量的B200這種級別的高性能顯卡。

為了幫助大家了解這些有點亂的信息,這里先明晰幾個概念。首先,新一代顯卡的架構叫Blackwell,所以,顯卡代號就是B200。

而常說的GB200其實是同時帶有Grace CPU和Blackwell顯卡的主板。如上圖所示,就是一個超級芯片。嚴格來說,它叫NVL2,因為它有兩個Blackwell顯卡。

上圖是一套NVL72機架系統(tǒng),NVL72里是用NVLink連接了72塊B200顯卡,也就是36個NVL2的小的超級芯片。NVL72是史上最強 AI 計算系統(tǒng),擁有 1.4 ExaFLOPS算力、14TB HBM內存、1330 萬億晶體管。

老黃宣稱,目前,各種規(guī)格的GB200 NVL系統(tǒng)已經進入全面量產的階段,主流的云服務商都部署了。新的Blackwell顯卡提供4倍能效、3倍成本優(yōu)化,大幅降低 AI 訓練和推理成本,將加速 AI 應用發(fā)展。

為了形象地介紹這套NVL72有多夸張,老黃拿出了看著像美國隊長一樣的盾牌,擺出了美國隊長的英雄姿勢。

剛看見這塊芯片模樣的東西,我就直接懵了,這么大的芯片認真的嗎?主流的晶元最大才12英寸,這肉眼看著直徑至少27寸顯示器那么大。

這么大一塊超級芯片,散熱要怎么弄呢?我發(fā)現有這個疑惑的不只是我一個。老黃拿著這塊芯片對著NVL72比劃,讓很多人誤以為,這是把這么大的芯片塞到這臺NVL72機柜里了。

我也被老黃的這頓意外的表演迷惑到了,有點懵。很多外國網友都有一樣的感覺。有網友指出來,老黃手里拿的是一個道具,展示的只是一臺NVL72機柜中用到的主要芯片放在一起的樣子。

真正NVL72的芯片不是這么制造出來的,更不是這么使用的。廣大網友請放心:要真有這么大的晶元,很可能不是臺積電代工的,而是宇宙積電代工的,你不考慮一下良品率了,也得起碼給他來點液氮做散熱標配了吧。

老黃這波模仿美隊的操作,總感覺要跟鋼鐵俠馬斯克組CP了。

畢竟馬斯克目前的AI公司xAI,還有具有自動駕駛能力的特斯拉汽車,還有人形機器人擎天柱,都需要用到老黃的顯卡。馬斯克用英偉達顯卡就是最好的背書之一,畢竟馬斯克是最懂怎么把錢花在刀刃上的。

話說回來,老黃的特殊安排不只是這個道具。他宣稱,這一塊超級大芯片,也就是一臺NVL72,能提供1.4ExaFlops的算力,ExaFlops什么概念?這不就是前幾年一直在說的,全球很多超算追求的發(fā)展目標嗎?

老黃也說了,以前超算數據中心里一整個屋子的服務器加起來才能達到的算力水平,現在一臺NVL72就做到了,驚不驚喜。而且1.2PB的內存帶寬相當于一整個互聯網的帶寬,你就說嚇不嚇人。

確實嚇人,不過,我注意到,老黃說的1.4ExaFlops的算力,算力精度用FP4這個超低精度來計算的,要知道,現在的E級HPC超級計算機的單位是FP64雙精度啊,老黃你有點不老實啊。

各位看官,不要真的以為一臺GB200 NVL72就能頂E級超算了。

第三個有趣瞬間,DGX-1微縮成桌面級電腦。

2016年,老黃當著馬斯克還有OpenAI主要創(chuàng)始人的面,把第一代DGX-1交付給了OpenAI,2022年,OpenAI成了帶領全球走進生成式AI技術時代的領路人。

老黃直接表示,這樣一臺機架級別的服務器還是太大了,為了讓AI研發(fā)者,數據科學家,學生和開發(fā)者都可以在桌子上擺放一臺超級計算機,必須得把它的尺寸變小。

動圖封面

英偉達宣布啟動名為DIGITS(Deep learning gpu intelligence training system)的項目,打造桌面級超級計算機,它將基于全新的GB10超級芯片打造,可提供1 Petaflop的AI 計算性能,可推理2000億參數大模型。

它是做什么用的呢?開發(fā)者在本地用它完成模型原型開發(fā)后,可以把模型放到云或者其他數據中心進行訓練,模型訓練完成后可以放到本地進行微調或者推理。

由于本地和云上都采用了Grace Blackwell 架構和 NVIDIA AI Enterprise 軟件平臺,做到了軟硬件的無縫銜接。

這應該是英偉達首次提到GB10超級芯片,它是基于Grace Blackwell架構打造的SoC,在 FP4 精度下可提供高達1 Petaflop 的 AI計算性能。GB10還集成了20核的Arm處理器,兩者通過NVLink-C2C芯片互連技術相互連接。

每臺設備可提供128GB的共享內存,不過,它既不是GDDR顯存,也不是HBM,而是DDR5X內存,所以沒法直接跟5090或者B200進行對比。不過,作為一款桌面級設備,功耗和散熱并不高,也沒法奢望能用上顯存。

老黃表示,憑借128GB的共享內存,它可以運行最高2000億參數的大型語言模型。配合英偉達的ConnectX網絡技術,能把兩臺設備連在一起,這樣就可以推理4050億參數的AI模型。

只不過,它的推理性能會不如預想的那么好。

油管博主:Picovoice

有人量化之后用單張24G顯存的4090推理了70B的大模型,每秒14個Token。換成32G的5090理論上能更快,但應該還是不能推理2000億參數的大模型。

所以,一些準備買5090運行本地大模型的用戶,可能需要在兩者之間權衡一下了。一臺這樣的桌面級設備建議零售價為3000美元,僅比單塊RTX 5090的售價高了1000美元。

考慮到他能放在桌面上,也就降低了所有普通人在本地玩大語言模型的最低的門檻,還是挺有意思的。

分享到

zhupb

相關推薦