王曉慧分享道,大模型訓(xùn)練需要消耗大量的計(jì)算資源和時(shí)間,如何高效地搭建和管理訓(xùn)練集群成為加速大模型落地的核心挑戰(zhàn)。在NVIDIA的支持下,優(yōu)刻得率先將DPU應(yīng)用于裸金屬物理云,實(shí)現(xiàn)了軟件定義的計(jì)算、存儲(chǔ)和網(wǎng)絡(luò),助力集群計(jì)算效率提升。她強(qiáng)調(diào),DPU裸金屬訓(xùn)練集群為高帶寬、低延遲、數(shù)據(jù)密集的大模型訓(xùn)練場(chǎng)景提供強(qiáng)大的計(jì)算引擎,大幅提升了網(wǎng)絡(luò)處理能力和數(shù)據(jù)傳輸速度。
基于DPU裸金屬所構(gòu)建的訓(xùn)練集群在高性能計(jì)算、數(shù)據(jù)和模型并行處理等方面優(yōu)勢(shì)突出,可輕松應(yīng)對(duì)大模型時(shí)代下的嚴(yán)苛性能要求和工作負(fù)載挑戰(zhàn)。DPU裸金屬集群可以提供訓(xùn)練所需的強(qiáng)大算力,具備千卡規(guī)模的模型訓(xùn)練能力;同時(shí)以低延遲、高吞吐的特性,充分滿足了大規(guī)模數(shù)據(jù)處理和高并發(fā)場(chǎng)景的需求,加速模型訓(xùn)練過(guò)程。此外,DPU的引入賦予了訓(xùn)練集群更高的靈活性和可擴(kuò)展性,使得用戶能夠根據(jù)實(shí)際業(yè)務(wù)需求靈活選擇適配的硬件和軟件堆棧,確保持續(xù)優(yōu)化模型的訓(xùn)練性能和效率。
會(huì)上,王曉慧還進(jìn)一步分享了優(yōu)刻得孔明智算平臺(tái)在大模型訓(xùn)練場(chǎng)景中的優(yōu)勢(shì)??酌髦撬闫脚_(tái)是優(yōu)刻得自主研發(fā)的一款智能算力管理平臺(tái),能夠幫助大模型公司提高訓(xùn)練效率、優(yōu)化模型性能、降低開發(fā)成本。用戶可以輕松構(gòu)建并管理訓(xùn)練集群,并對(duì)計(jì)算資源的智能調(diào)度和優(yōu)化配置,無(wú)需將更多精力關(guān)注在底層資源層面,從而實(shí)現(xiàn)更加高效的大模型訓(xùn)練。
為應(yīng)對(duì)大模型訓(xùn)練過(guò)程中通信異常挑戰(zhàn)、及時(shí)發(fā)現(xiàn)故障所在,優(yōu)刻得結(jié)合英偉達(dá)的GPU Direct Storage技術(shù),自主研發(fā)了UPFS并行文件存儲(chǔ)系統(tǒng)。UPFS顯著提升了存儲(chǔ)系統(tǒng)的吞吐能力,使得CheckPoint的速度相較于傳統(tǒng)存儲(chǔ)提升了近10倍,確保提高訓(xùn)練效率和快速恢復(fù)訓(xùn)練。優(yōu)刻得智算平臺(tái)支持對(duì)同構(gòu)、異構(gòu)卡的統(tǒng)一調(diào)度與管理,以分區(qū)的方式提供不同的資源池;同時(shí),支持TCP/IP協(xié)議、IB和RoCE等多樣化的網(wǎng)絡(luò)接入方案,擁有斷點(diǎn)續(xù)訓(xùn)、數(shù)據(jù)備份、自定義故障恢復(fù)等機(jī)制,避免訓(xùn)練過(guò)程中的意外中斷,為大模型訓(xùn)練的安全性和連續(xù)性提供保障。
目前,優(yōu)刻得DPU裸金屬訓(xùn)練集群和智算平臺(tái)已在大模型分布式訓(xùn)練、自動(dòng)駕駛、生物醫(yī)藥、工業(yè)制造等領(lǐng)域落地應(yīng)用,能夠勝任在AI領(lǐng)域內(nèi)的各類業(yè)務(wù)需求。在生物醫(yī)藥領(lǐng)域,基于高性能計(jì)算能力,研究人員能夠更快速地進(jìn)行復(fù)雜的分子模擬和仿真訓(xùn)練,加速藥物研發(fā)和優(yōu)化過(guò)程;在工業(yè)制造領(lǐng)域,幫助企業(yè)提高工業(yè)仿真、工業(yè)復(fù)核等任務(wù)效率,優(yōu)化生產(chǎn)流程,以實(shí)現(xiàn)智能制造。
優(yōu)刻得智能算力已廣泛服務(wù)于大模型和人工智能企業(yè),為智譜AI構(gòu)建超千卡規(guī)模推理集群,實(shí)現(xiàn)成本效益和服務(wù)質(zhì)量的平衡;為AI繪畫平臺(tái)圖蠅AI提升圖片生成效率和質(zhì)量,設(shè)計(jì)效率提升5倍以上;為出門問(wèn)問(wèn)數(shù)字人應(yīng)用研發(fā)提供海量算力,5分鐘內(nèi)即可實(shí)現(xiàn)數(shù)字員工形象定制和上崗。
當(dāng)下,優(yōu)刻得已在GPU、DPU和存儲(chǔ)等多個(gè)領(lǐng)域建立了優(yōu)勢(shì),不僅為用戶提供高性能底層算力資源,更憑借豐富的大模型工程化實(shí)踐,為眾多大模型企業(yè)提供有力支持。未來(lái),優(yōu)刻得將更好地為全球用戶提供智能高效、穩(wěn)定可靠的AI智算基礎(chǔ)設(shè)施,助推更多大模型應(yīng)用的研發(fā)與落地。