伊人日本,成人不卡,蜜臀avwww国产天堂

馬斯克在超級計算機方面投入巨大。今年5月份，Colossus首次被公開，并在7月份開始運行。馬斯克在社交媒體上表示，Colossus的建設(shè)“從零到一，僅用了122天”，并稱贊其為“全球最強大的AI訓練系統(tǒng)”。Colossus裝備了10萬個Nvidia基準Hopper H100處理器，數(shù)量之多超過了任何其他單一的AI計算集群。為了讓xAI迅速崛起，馬斯克對該初創(chuàng)公司不斷大力投入。9月3日，馬斯克宣布xAI打造的包含超10萬顆英偉達H100GPU的超級人工智能訓練集群已經(jīng)正式上線，該集群名為“Colossus”。他透露，團隊花了122天來完成Colossus的上線過程。Colossus還將在未來幾個月內(nèi)增加10萬顆GPU，其中，5萬顆將是更為先進的英偉達H200，這意味著Colossus的算力將再次翻倍。此外，若xAI新一輪融資成功，估值將達400億美元。這無疑顯示了馬斯克在超級計算機領(lǐng)域的堅定決心和巨大投入。

xAIColossus超級計算機的誕生，標志著人工智能領(lǐng)域的又一個重要里程碑。它的強大技術(shù)實力和馬斯克的大力投入，將為人工智能的發(fā)展帶來新的機遇和挑戰(zhàn)。

xAI Colossus技術(shù)細節(jié)有哪些

xAI的Colossus超級計算機是人工智能領(lǐng)域的一項重大突破。它由連接在單一網(wǎng)絡(luò)結(jié)構(gòu)上的10萬個液冷Nvidia H100 GPU組成，被認為是世界上“最強大的”人工智能訓練系統(tǒng)。

每個GPU配備400GbE的網(wǎng)絡(luò)接口控制器，確保每臺HGX H100服務(wù)器達到3.6Terabit每秒的以太網(wǎng)帶寬。xAI采用了Supermicro的4U通用GPU系統(tǒng)，每個服務(wù)器包含八個H100 GPU，封裝在Supermicro的4U通用液冷GPU系統(tǒng)內(nèi)，為每個GPU提供便捷的熱插拔液冷功能。這些服務(wù)器裝載在機架上，每個機架可容納八個服務(wù)器，即每個機架64個GPU。整個Colossus集群中有超過1500個GPU機架，約200組。

隨著GPU數(shù)量的增加，散熱問題變得越來越嚴重。Colossus采用了先進的液冷技術(shù)來解決散熱問題。每個GPU都配備了專門的液冷裝置，1U冷卻總管夾在每個HGXH100之間，為服務(wù)器提供必要的液冷。這些系統(tǒng)具備先進的液冷技術(shù)，提升了散熱效率，確保了高性能計算的穩(wěn)定性。液冷設(shè)計使得系統(tǒng)在運行高負荷任務(wù)時，能夠保持較低的溫度。液冷技術(shù)的應(yīng)用不僅提高了冷卻效率，降低了系統(tǒng)的溫度，還減少了噪音污染，為大規(guī)模數(shù)據(jù)中心的可持續(xù)發(fā)展提供了有力支持。

Colossus的核心是英偉達的H100顯卡，該顯卡自2022年首次亮相以來，一直被認為是英偉達最強大的AI處理器。H100顯卡的運行速度是英偉達上一代GPU的30倍，這得益于其Transformer Engine模塊，這是一組專門優(yōu)化的電路，用于運行基于Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu)的AI模型。

xAI計劃在未來幾個月內(nèi)將Colossus擴展至200000個GPU（50000個H200）。這些較新的GPU設(shè)計在內(nèi)存和處理能力方面得到了增強，承諾將提供更強大的計算性能。

除了強大的GPU集群，Colossus還配置了CPU計算服務(wù)器。這些服務(wù)器多為NVMe直通的1U服務(wù)器，采用某種x86平臺CPU，配備后置液冷系統(tǒng)，用于存儲和CPU計算，為整個系統(tǒng)的運行提供了必要的輔助計算能力。

網(wǎng)絡(luò)互聯(lián)方面，Colossus投入巨大。Colossus使用的英偉達Spectrum-X以太網(wǎng)網(wǎng)絡(luò)平臺，就是為多租戶、超大規(guī)模的AI工廠提供卓越性能而設(shè)計的RDMA（Remote Direct Memory Access）網(wǎng)絡(luò)。每塊顯卡都配備了一個400GbE的專用網(wǎng)絡(luò)接口控制器（NIC），每個服務(wù)器還額外配備一個400Gb的NIC，這意味著每臺HGX H100服務(wù)器的以太網(wǎng)速度可達3.6Tbps。整個集群都運行在以太網(wǎng)上，而非超級計算領(lǐng)域常用的Infiniband或其他異構(gòu)連接。這種以太網(wǎng)連接方式在保證高帶寬的同時，也降低了網(wǎng)絡(luò)連接的復雜性和成本。

為了確保超級計算機的高效運行和管理，xAI團隊開發(fā)了專門的操作系統(tǒng)和管理軟件。這些軟件能夠?qū)τ布Y源進行合理分配和調(diào)度，監(jiān)控系統(tǒng)的運行狀態(tài)，及時發(fā)現(xiàn)和解決潛在的問題，保證系統(tǒng)的穩(wěn)定性和可靠性。

Colossus超級計算機將服務(wù)于馬斯克旗下xAI，該公司專注于前沿生成式人工智能技術(shù)的研發(fā)。它已經(jīng)推出的項目包括Grok，這是一個因支持言論自由而聞名的、有爭議的聊天機器人。借助“巨像”無與倫比的計算能力，xAI正加速推進Grok及其他人工智能模型的訓練進程，旨在解鎖更多功能，并實現(xiàn)性能飛躍。

馬斯克對超級計算機投入有多大

馬斯克在超級計算機方面的投入可謂巨大。埃隆·馬斯克激活全球最強人工智能超級計算機，為他的人工智能初創(chuàng)公司xAI在田納西州建造了Colossus。這臺超級計算機是用英偉達H100圖形處理單元構(gòu)建的，僅采購英偉達H100 GPU估計耗資就達30億美元。每顆GPU的造價都不菲，約為4萬美元。

為了確保獲取到這最新的10萬塊H100 GPU，馬斯克可能不得不再花費數(shù)十億美元。此外，馬斯克旗下的特斯拉也在超級計算機方面有投入。特斯拉在“德州超級工廠”擁有一臺50000個GPU的Cortex超級計算機，其目的是通過攝像頭和圖像檢測來訓練特斯拉的自動駕駛AI技術(shù)，以及特斯拉的自動機器人和其他AI項目。

特斯拉將加入愈演愈烈的算力大賽，明年底之前，將花費遠遠超過10億美元在Dojo項目上。Dojo是特斯拉自研的多芯片模組化超級計算機，最初主要服務(wù)于自動駕駛系統(tǒng)的數(shù)據(jù)標注以及訓練，后也被應(yīng)用于機器人研發(fā)。

馬斯克旗下xAI被曝正洽談新一輪融資，估值將達400億美元。若融資成功，xAI有望在半年不到的時間里將估值增加超六成。為了讓xAI迅速崛起，馬斯克對該初創(chuàng)公司不斷大力投入，9月3日，馬斯克在X平臺上宣布，xAI打造的包含超10萬顆英偉達H100 GPU的超級人工智能訓練集群已經(jīng)正式上線。

xAI的Colossus超級計算機是人工智能領(lǐng)域的一顆璀璨明星。其強大的技術(shù)細節(jié)和馬斯克的巨大投入，彰顯了在人工智能領(lǐng)域的雄心壯志。Colossus的液冷技術(shù)、高帶寬網(wǎng)絡(luò)接口控制器以及強大的GPU配置，使其成為世界上最強大的人工智能訓練系統(tǒng)之一。馬斯克在超級計算機方面的投入不僅體現(xiàn)了他對人工智能的重視，也為人工智能的發(fā)展提供了強大的動力。未來，隨著技術(shù)的不斷進步和投入的持續(xù)增加，Colossus有望在人工智能領(lǐng)域發(fā)揮更加重要的作用。

xAI Colossus超級計算機的出現(xiàn)，標志著人工智能領(lǐng)域的算力水平達到了一個新的高度。它不僅為xAI的人工智能研究和應(yīng)用提供了強大的支持，也為整個行業(yè)的發(fā)展樹立了新的標桿。隨著人工智能技術(shù)的不斷發(fā)展，超級計算機的性能和技術(shù)水平還將不斷提升，馬斯克在這一領(lǐng)域的投入和貢獻也將繼續(xù)受到關(guān)注。

分享到

超級計算機

lixiangjing

算力豹主編

lixiangjing

相關(guān)推薦

近期文章

熱門標簽