英偉達(dá)的GPU芯片配備了新的內(nèi)置大型語言模型——TensorRT-LLM,這是一個工具包,在對GPT-3和Llama 2這樣的大型語言模型進行推理時,它能提供一些優(yōu)化。
當(dāng)運行Llama-70B時,新的H200在吞吐量性能方面比使用舊版本TensorRT-LLM的H100芯片實現(xiàn)了1.9倍的提升。
而在推理Llama 2-13B模型時,H200的吞吐性能達(dá)到了H100的1.4倍。
Stability AI,就是開發(fā)了Stable Diffusion的那家公司,通過使用英偉達(dá)的TensorRT顯著提高了文生圖的性能。
通過在H100芯片上使用轉(zhuǎn)換后的ONNX模型,性能顯著提升,僅在1.47秒內(nèi)就能生成高清圖片,實現(xiàn)了性能翻倍。
下圖總結(jié)了各個芯片在用Stable Diffusion XL 1.0生成圖片時候的吞吐性能,Stable Diffusion XL 1.0是Stability AI最新的文生圖大模型。
這里生成的圖片都是1024×1024的尺寸,另外,生成時都選擇了30 Steps的配置,步數(shù)越多,對算力要求也就更大。
通過在芯片上使用TensorRT庫,Stable Diffusion XL 1.0在使用H100芯片時,獲得了70%的性能提升。
而如果使用H200,配合新一代的TensorRT,Stable Diffusion XL 1.0的性能必然還會實現(xiàn)進一步的提升。
高性能計算方面的提升
要面向大數(shù)據(jù)集來進行復(fù)雜運算,經(jīng)常需要用到HPC的能力。MILC項目是研究亞原子物理中的強相互作用理論的,是典型的HPC負(fù)載,H200在MILC項目中比雙路x86服務(wù)器的性能高了110倍。
H200在HPC方面的性能整體比A100芯片高出100%,而H100相較于A100芯片提升了大概70%。
能效方面的提升
H200 在能源效率和總擁有成本(TCO)方面達(dá)到了新的水平。盡管H200帶來了巨大的性能提升,但其功耗與前一代產(chǎn)品H100相同。
與H100相比,H200 在能源使用效率和TCO效率方面提高了50%。這意味著H200不僅性能更高,能耗不變,而且實現(xiàn)了更高的成本效益。
H200在能效方面的提升主要得益于優(yōu)化的Hopper架構(gòu),當(dāng)然,這也是性能提升的主要原因之一。
全新的H200將進一步提高AI和HPC方面的性能表現(xiàn),幫助企業(yè)更輕松地創(chuàng)建數(shù)據(jù)密集型應(yīng)用。
美中不足的是,H200的成本可能會更高。但是,成本高是老黃的問題嗎?