第三期智研社-北京站活動(dòng)現(xiàn)場(chǎng)合影

「智研社-The Intelliger」由 CSDN CTO 俱樂(lè)部重磅升級(jí)而來(lái)。CSDN 高級(jí)副總裁李建忠在開場(chǎng)中為大家介紹了智研社未來(lái)發(fā)展的三個(gè)方向:

一是為技術(shù)人提供充分溝通交流的平臺(tái);

二是提供 AGI 技術(shù)發(fā)展與應(yīng)用實(shí)踐的探討與合作空間;

三是帶領(lǐng)中國(guó) AGI 技術(shù)人走向全球,參與國(guó)際 AGI 技術(shù)交流,抓住 AI 爆發(fā)帶來(lái)的機(jī)遇。

在當(dāng)今快速發(fā)展的人工智能領(lǐng)域,大規(guī)模計(jì)算資源的管理成為了一個(gè)關(guān)鍵挑戰(zhàn)。Stability AI 機(jī)器學(xué)習(xí)運(yùn)維主管、知名 AI 開源組織 LAION 工程負(fù)責(zé)人 & 創(chuàng)始人 Richard Vencu 在現(xiàn)場(chǎng)帶來(lái)了《在 AWS 云上打造 Stability AI 超級(jí)計(jì)算機(jī)》的主題演講,深入闡述了在云環(huán)境中運(yùn)行 5000 個(gè) GPU 的經(jīng)驗(yàn),揭示了這一規(guī)模計(jì)算所面臨的挑戰(zhàn)及其解決策略。

Richard Vencu,Stability AI 機(jī)器學(xué)習(xí)運(yùn)維主管、LAION 工程負(fù)責(zé)人 & 創(chuàng)始人

核心挑戰(zhàn)在于:

機(jī)器學(xué)習(xí)訓(xùn)練與推理的差異:Vencu 指出,機(jī)器學(xué)習(xí)訓(xùn)練本質(zhì)上不是一個(gè)網(wǎng)絡(luò)問(wèn)題,而機(jī)器學(xué)習(xí)推理則是。這種區(qū)別源于推理需要通過(guò)標(biāo)準(zhǔn)化的網(wǎng)絡(luò)通道向全球用戶提供服務(wù)。

多團(tuán)隊(duì)需求管理:不同 AI 團(tuán)隊(duì)對(duì)規(guī)模和上市時(shí)間的要求各不相同,導(dǎo)致優(yōu)先級(jí)不斷變化。這要求資源管理系統(tǒng)具有高度的靈活性。

共享環(huán)境中的信任問(wèn)題:在共享的高性能計(jì)算(HPC)集群中,用戶通常無(wú)法獲得 root 訪問(wèn)權(quán)限,這限制了系統(tǒng)的靈活性。

大規(guī)模資源管理:主要目標(biāo)是減少 GPU 的閑置時(shí)間,提高利用率,并減少因缺陷導(dǎo)致的停機(jī)時(shí)間。

使用追蹤:需要精確追蹤每個(gè)項(xiàng)目和用戶的資源使用情況,以便進(jìn)行報(bào)告、稅務(wù)處理和計(jì)費(fèi)。

作為解決方案,Vencu 推薦使用 SLURM 作為資源調(diào)度器。SLURM 是一個(gè)有20多年歷史的開源系統(tǒng),維護(hù)良好,提供搶占和重新排隊(duì)機(jī)制(腳本需要意識(shí)到這一點(diǎn)并能夠自行恢復(fù))、跨不同優(yōu)先級(jí)的優(yōu)先機(jī)制和公平共享機(jī)制。這些功能有效解決了最大的挑戰(zhàn)——最小化 GPU 閑置時(shí)間。

在現(xiàn)場(chǎng),Vencu 和到場(chǎng)嘉賓進(jìn)行了互動(dòng),為那些希望在云中部署大規(guī)模 AI 計(jì)算資源的開發(fā)者提供了寶貴的見解和實(shí)踐指導(dǎo)。云環(huán)境中管理大規(guī)模 GPU 資源是一項(xiàng)復(fù)雜的任務(wù),涉及多個(gè)方面的挑戰(zhàn)。通過(guò)采用適當(dāng)?shù)馁Y源調(diào)度策略、嚴(yán)格的安全措施、靈活的項(xiàng)目管理以及全面的監(jiān)控系統(tǒng),可以顯著提高資源利用率,降低成本,同時(shí)滿足不同團(tuán)隊(duì)的需求。

隨著大模型的廣泛應(yīng)用,AI 技術(shù)已經(jīng)在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、多模態(tài)理解等領(lǐng)域取得了顯著的突破。大模型強(qiáng)大的生成能力和理解能力,還在各種領(lǐng)域的實(shí)際應(yīng)用中展現(xiàn)了巨大的潛力。然而,大模型的訓(xùn)練和推理需要龐大的計(jì)算資源,AI 基礎(chǔ)設(shè)施(AI Infra)的建設(shè)成為了當(dāng)前技術(shù)發(fā)展的關(guān)鍵。

為了解答這一系列問(wèn)題,由 Momenta 工程質(zhì)量負(fù)責(zé)人、CSDN 《新程序員》內(nèi)容顧問(wèn)鄒欣主持,Stability AI 機(jī)器學(xué)習(xí)運(yùn)維主管、知名 AI 開源組織 LAION 工程負(fù)責(zé)人 & 創(chuàng)始人 Richard Vencu 和 CSDN 創(chuàng)始人 & 董事長(zhǎng)、中國(guó)開源軟件推進(jìn)聯(lián)盟副主席蔣濤展開圓桌對(duì)話,圍繞“2024 大模型技術(shù)演進(jìn)與 AI Infra 創(chuàng)新”的話題進(jìn)行了多個(gè)方面的探討。

以下是他們對(duì)每一方面內(nèi)容的討論焦點(diǎn):

計(jì)算機(jī)系統(tǒng)的架構(gòu)轉(zhuǎn)變

大模型與小模型并存發(fā)展

開源 vs 閉源模型

數(shù)據(jù)與訓(xùn)練挑戰(zhàn)

AGI 展望

「智研社-The Intelliger」是由 CSDN 發(fā)起創(chuàng)立的高端技術(shù)領(lǐng)導(dǎo)者社群?!钢茄猩?The Intelliger」的前身為 CTO 俱樂(lè)部,自 2009 年由 CSDN 創(chuàng)辦以來(lái),是極具影響力的高端技術(shù)管理者分享與交流的平臺(tái)。隨著大模型技術(shù)的迅猛發(fā)展,人工智能將成為未來(lái) 10 年最有影響力的技術(shù)力量,必將重塑行業(yè)格局并引領(lǐng)創(chuàng)新浪潮。CTO 俱樂(lè)部正式更名為「智研社 The-Intelliger」,意味著其將以全新的面貌迎接 AGI 新紀(jì)元的到來(lái)。

分享到

崔歡歡

相關(guān)推薦