雖然推理的負載多,但一般企業(yè)也經(jīng)常遇到訓練任務,機器學習的訓練環(huán)節(jié)經(jīng)常需要用到昂貴的GPU,所以訓練的成本通常會很高。

為了降低成本,AWS發(fā)布了Amazon Trainium芯片,據(jù)說采用該芯片的Trn1實例(或者說集群)可以提供云端速度最快,成本最低的訓練服務。

Trn1實例,有13.1TB/s的最大內(nèi)存帶寬,3.4 PFLOPS的算力,F(xiàn)P32的TFlops高達840,時鐘頻率為4GHz,含有550億個晶體管。

實際應用起來如何呢?

AWS提供的信息顯示,在訓練深度學習模型時,采用Amazon Trainium芯片的Trn1實例的成本,要比采用英偉達A100的P4d實例最多低出40%,而且速度最多能快50%。

一句話總結Amazon Trainium的特點,兼具GPU的靈活性和專用加速器的效率。

之所以大家喜歡用GPU做訓練,主要是因為GPU除了性能高,而且靈活性也非常高,專用的加速器雖然效率很高,但靈活性較差。

為了避免靈活性上的問題,Amazon Trainium內(nèi)置了16個專用的可編程數(shù)據(jù)處理器,支持各種機器學習框架,以提供更好的靈活性。所以,它比專用的加速器更靈活。

與GPU相比,Amazon Trainium采用了一種新的運算模式,避免了GPU需要頻繁與內(nèi)存交換數(shù)據(jù)的麻煩,在芯片內(nèi)完成訓練。Peter沒介紹太多細節(jié),但是感覺這一說法跟此前了解過的存算一體化的思路有異曲同工之妙,有機會我再學習一下。

用大規(guī)模機器學習訓練集群提升效率

從P3、P3dn再到P4d、Trn1,內(nèi)存容量和網(wǎng)絡性能不斷提升

為了提升機器學習訓練的效率,機器學習加速器的內(nèi)存不斷加大,網(wǎng)絡帶寬也在不斷提升。

Trn1實例提供800Gbps EFA網(wǎng)絡帶寬,它比P4d快一倍,網(wǎng)絡性能更強的Trn1n比Trn1又快了一倍,達到1600Gbps。

用戶可以啟動具有EC2 UltraClusters功能的Trn1實例,EC2 UltraClusters可以讓訓練擴展到多個用高速網(wǎng)絡互連的Trainium芯片,從而實現(xiàn)分布式并行訓練。

這不僅意味著用戶可以快速獲得超算級性能,而且,讓用戶訓練大型復雜模型的時間大大縮短,成本也大量節(jié)省。

用兩周時間訓練GPT-3所需的實例數(shù),從600個縮減到了96有個

亞馬遜云科技大中華區(qū)產(chǎn)品部計算與存儲總監(jiān)周舸的介紹中了解到,更高的網(wǎng)絡性能意味著更低的網(wǎng)絡開銷,而更低的網(wǎng)絡開銷意味著能將模型的訓練過程交給更大規(guī)模的集群上來完成。

熟悉機器學習訓練的朋友都了解,以前許多訓練都是在單機上完成的,而分布式并行訓練的技術難點是如何將用于訓練的數(shù)據(jù)和訓練的負載進行拆分和組合,技術實現(xiàn)很難,一旦實現(xiàn)則意味著集群能化解大型機器學習模型的訓練難度。

模型復雜度急劇增長

以GPT-3,GPT-4為代表的巨型機器學習模型讓我們意識到,理論上機器學習模型參數(shù)的數(shù)量是沒有上限的,而算力增速是有限的,在這一趨勢下,云計算上構建的機器學習訓練集群的優(yōu)勢就非常明顯了。

靈活多樣的選擇

當然,Amazon SageMaker的創(chuàng)新也很重要,比如圖形化的自動化機器學習服務——Amazon SageMaker Canvas讓云上機器學習的使用體驗得以提升,讓機器學習的普及和普惠成為可能。

而大規(guī)模集群給了云上機器學習的絕對優(yōu)勢,將云計算分布式架構的彈性優(yōu)勢釋放的淋漓盡致,未來會有更多機器學習負載遷移到公有云上。

當然,在機器學習方面,AWS自研的訓練和推理芯片也并非要取代英偉達和英特爾方案,用戶可以根據(jù)實際應用環(huán)境的不同,比如編譯器、模型、機器學習框架不同選擇更適合的方案,多種選擇的加持下,共同將AWS打造成適合做機器學習的云平臺。

分享到

zhupb

相關推薦