馬斯克在超級計算機方面投入巨大。今年5月份,Colossus首次被公開,并在7月份開始運行。馬斯克在社交媒體上表示,Colossus的建設(shè)“從零到一,僅用了122天”,并稱贊其為“全球最強大的AI訓練系統(tǒng)”。Colossus裝備了10萬個Nvidia基準Hopper H100處理器,數(shù)量之多超過了任何其他單一的AI計算集群。為了讓xAI迅速崛起,馬斯克對該初創(chuàng)公司不斷大力投入。9月3日,馬斯克宣布xAI打造的包含超10萬顆英偉達H100GPU的超級人工智能訓練集群已經(jīng)正式上線,該集群名為“Colossus”。他透露,團隊花了122天來完成Colossus的上線過程。Colossus還將在未來幾個月內(nèi)增加10萬顆GPU,其中,5萬顆將是更為先進的英偉達H200,這意味著Colossus的算力將再次翻倍。此外,若xAI新一輪融資成功,估值將達400億美元。這無疑顯示了馬斯克在超級計算機領(lǐng)域的堅定決心和巨大投入。
xAIColossus超級計算機的誕生,標志著人工智能領(lǐng)域的又一個重要里程碑。它的強大技術(shù)實力和馬斯克的大力投入,將為人工智能的發(fā)展帶來新的機遇和挑戰(zhàn)。
xAI Colossus技術(shù)細節(jié)有哪些
xAI的Colossus超級計算機是人工智能領(lǐng)域的一項重大突破。它由連接在單一網(wǎng)絡結(jié)構(gòu)上的10萬個液冷Nvidia H100 GPU組成,被認為是世界上“最強大的”人工智能訓練系統(tǒng)。
每個GPU配備400GbE的網(wǎng)絡接口控制器,確保每臺HGX H100服務器達到3.6Terabit每秒的以太網(wǎng)帶寬。xAI采用了Supermicro的4U通用GPU系統(tǒng),每個服務器包含八個H100 GPU,封裝在Supermicro的4U通用液冷GPU系統(tǒng)內(nèi),為每個GPU提供便捷的熱插拔液冷功能。這些服務器裝載在機架上,每個機架可容納八個服務器,即每個機架64個GPU。整個Colossus集群中有超過1500個GPU機架,約200組。
隨著GPU數(shù)量的增加,散熱問題變得越來越嚴重。Colossus采用了先進的液冷技術(shù)來解決散熱問題。每個GPU都配備了專門的液冷裝置,1U冷卻總管夾在每個HGXH100之間,為服務器提供必要的液冷。這些系統(tǒng)具備先進的液冷技術(shù),提升了散熱效率,確保了高性能計算的穩(wěn)定性。液冷設(shè)計使得系統(tǒng)在運行高負荷任務時,能夠保持較低的溫度。液冷技術(shù)的應用不僅提高了冷卻效率,降低了系統(tǒng)的溫度,還減少了噪音污染,為大規(guī)模數(shù)據(jù)中心的可持續(xù)發(fā)展提供了有力支持。
Colossus的核心是英偉達的H100顯卡,該顯卡自2022年首次亮相以來,一直被認為是英偉達最強大的AI處理器。H100顯卡的運行速度是英偉達上一代GPU的30倍,這得益于其Transformer Engine模塊,這是一組專門優(yōu)化的電路,用于運行基于Transformer神經(jīng)網(wǎng)絡架構(gòu)的AI模型。
xAI計劃在未來幾個月內(nèi)將Colossus擴展至200000個GPU(50000個H200)。這些較新的GPU設(shè)計在內(nèi)存和處理能力方面得到了增強,承諾將提供更強大的計算性能。
除了強大的GPU集群,Colossus還配置了CPU計算服務器。這些服務器多為NVMe直通的1U服務器,采用某種x86平臺CPU,配備后置液冷系統(tǒng),用于存儲和CPU計算,為整個系統(tǒng)的運行提供了必要的輔助計算能力。
網(wǎng)絡互聯(lián)方面,Colossus投入巨大。Colossus使用的英偉達Spectrum-X以太網(wǎng)網(wǎng)絡平臺,就是為多租戶、超大規(guī)模的AI工廠提供卓越性能而設(shè)計的RDMA(Remote Direct Memory Access)網(wǎng)絡。每塊顯卡都配備了一個400GbE的專用網(wǎng)絡接口控制器(NIC),每個服務器還額外配備一個400Gb的NIC,這意味著每臺HGX H100服務器的以太網(wǎng)速度可達3.6Tbps。整個集群都運行在以太網(wǎng)上,而非超級計算領(lǐng)域常用的Infiniband或其他異構(gòu)連接。這種以太網(wǎng)連接方式在保證高帶寬的同時,也降低了網(wǎng)絡連接的復雜性和成本。
為了確保超級計算機的高效運行和管理,xAI團隊開發(fā)了專門的操作系統(tǒng)和管理軟件。這些軟件能夠?qū)τ布Y源進行合理分配和調(diào)度,監(jiān)控系統(tǒng)的運行狀態(tài),及時發(fā)現(xiàn)和解決潛在的問題,保證系統(tǒng)的穩(wěn)定性和可靠性。
Colossus超級計算機將服務于馬斯克旗下xAI,該公司專注于前沿生成式人工智能技術(shù)的研發(fā)。它已經(jīng)推出的項目包括Grok,這是一個因支持言論自由而聞名的、有爭議的聊天機器人。借助“巨像”無與倫比的計算能力,xAI正加速推進Grok及其他人工智能模型的訓練進程,旨在解鎖更多功能,并實現(xiàn)性能飛躍。
馬斯克對超級計算機投入有多大
馬斯克在超級計算機方面的投入可謂巨大。埃隆·馬斯克激活全球最強人工智能超級計算機,為他的人工智能初創(chuàng)公司xAI在田納西州建造了Colossus。這臺超級計算機是用英偉達H100圖形處理單元構(gòu)建的,僅采購英偉達H100 GPU估計耗資就達30億美元。每顆GPU的造價都不菲,約為4萬美元。
為了確保獲取到這最新的10萬塊H100 GPU,馬斯克可能不得不再花費數(shù)十億美元。此外,馬斯克旗下的特斯拉也在超級計算機方面有投入。特斯拉在“德州超級工廠”擁有一臺50000個GPU的Cortex超級計算機,其目的是通過攝像頭和圖像檢測來訓練特斯拉的自動駕駛AI技術(shù),以及特斯拉的自動機器人和其他AI項目。
特斯拉將加入愈演愈烈的算力大賽,明年底之前,將花費遠遠超過10億美元在Dojo項目上。Dojo是特斯拉自研的多芯片模組化超級計算機,最初主要服務于自動駕駛系統(tǒng)的數(shù)據(jù)標注以及訓練,后也被應用于機器人研發(fā)。
馬斯克旗下xAI被曝正洽談新一輪融資,估值將達400億美元。若融資成功,xAI有望在半年不到的時間里將估值增加超六成。為了讓xAI迅速崛起,馬斯克對該初創(chuàng)公司不斷大力投入,9月3日,馬斯克在X平臺上宣布,xAI打造的包含超10萬顆英偉達H100 GPU的超級人工智能訓練集群已經(jīng)正式上線。
xAI的Colossus超級計算機是人工智能領(lǐng)域的一顆璀璨明星。其強大的技術(shù)細節(jié)和馬斯克的巨大投入,彰顯了在人工智能領(lǐng)域的雄心壯志。Colossus的液冷技術(shù)、高帶寬網(wǎng)絡接口控制器以及強大的GPU配置,使其成為世界上最強大的人工智能訓練系統(tǒng)之一。馬斯克在超級計算機方面的投入不僅體現(xiàn)了他對人工智能的重視,也為人工智能的發(fā)展提供了強大的動力。未來,隨著技術(shù)的不斷進步和投入的持續(xù)增加,Colossus有望在人工智能領(lǐng)域發(fā)揮更加重要的作用。
xAI Colossus超級計算機的出現(xiàn),標志著人工智能領(lǐng)域的算力水平達到了一個新的高度。它不僅為xAI的人工智能研究和應用提供了強大的支持,也為整個行業(yè)的發(fā)展樹立了新的標桿。隨著人工智能技術(shù)的不斷發(fā)展,超級計算機的性能和技術(shù)水平還將不斷提升,馬斯克在這一領(lǐng)域的投入和貢獻也將繼續(xù)受到關(guān)注。