快速整理大量的資料也是不少用戶在工作當(dāng)中所遇到的挑戰(zhàn),以簡(jiǎn)歷篩選為例,公司HR可以基于企業(yè)業(yè)務(wù)需求,通過Kimi精讀500份簡(jiǎn)歷,速找出有某個(gè)行業(yè)從業(yè)經(jīng)歷,同時(shí)從計(jì)算機(jī)類專業(yè)畢業(yè)的求職者,更加高效地篩選和識(shí)別合適的候選人。
從20萬字到200萬字,由于沒有采用常規(guī)的漸進(jìn)式提升路線,月之暗面團(tuán)隊(duì)遇到的技術(shù)難度也呈指數(shù)級(jí)增加。為了達(dá)到更好的長(zhǎng)窗口無損壓縮性能,研發(fā)和技術(shù)團(tuán)隊(duì)從模型預(yù)訓(xùn)練到對(duì)齊、推理環(huán)節(jié)均進(jìn)行了原生的重新設(shè)計(jì)和開發(fā),不走“滑動(dòng)窗口”、“降采樣”等技術(shù)捷徑,攻克了很多底層技術(shù)難點(diǎn)。
在產(chǎn)品研發(fā)和推廣過程中,月之暗面與火山引擎展開深度合作,進(jìn)行聯(lián)合技術(shù)創(chuàng)新,共同推進(jìn)大型語言模型在垂直領(lǐng)域和通用場(chǎng)景的應(yīng)用落地。
超大規(guī)模多模態(tài)大模型預(yù)訓(xùn)練快、穩(wěn)、省
在大規(guī)模的訓(xùn)練過程中,GPU資源利用損耗、千卡任務(wù)故障概率指數(shù)增長(zhǎng)、模型梯度爆炸、訓(xùn)練效果缺少及時(shí)反饋等困難常常影響模型的訓(xùn)練效率,導(dǎo)致數(shù)據(jù)和算力的價(jià)值難以充分發(fā)揮。
火山引擎機(jī)器學(xué)習(xí)平臺(tái)沉淀形成全棧AI開發(fā)工程優(yōu)化、任務(wù)故障自愈、實(shí)驗(yàn)可觀測(cè)性等解決方案和最佳實(shí)踐,為月之暗面提供了高效率、穩(wěn)定、可觀測(cè)的一站式AI算法開發(fā)和迭代服務(wù)。在Kimi的打磨和發(fā)布過程中,月之暗面基于火山引擎提供的超大規(guī)模AI訓(xùn)練和推理加速解決方案實(shí)現(xiàn)了數(shù)千卡單一大集群規(guī)模常態(tài)化訓(xùn)練,幫助團(tuán)隊(duì)快速完成大型語言模型的持續(xù)訓(xùn)練迭代、精調(diào)和推理。
大模型訓(xùn)練過程中自定義任務(wù)與開發(fā)機(jī)繁多,由于任務(wù)的啟停時(shí)間不一致,不可避免會(huì)出現(xiàn)GPU碎片問題導(dǎo)致任務(wù)調(diào)度不上?;鹕揭鏅C(jī)器學(xué)習(xí)平臺(tái)通過Binpack背包算法匯聚降低碎片,并使用調(diào)度器定期驅(qū)逐,大大提高GPU資源利用率,保障任務(wù)快速執(zhí)行。同時(shí),GPU彈性計(jì)算實(shí)例可靈活調(diào)度資源,隨用隨取,最高可以為月之暗面節(jié)省70%的算力成本。
大模型訓(xùn)練是一個(gè)迭代的過程,需要進(jìn)行海量實(shí)驗(yàn)?;鹕揭鏅C(jī)器學(xué)習(xí)平臺(tái)支持交互式調(diào)試,集成了JupyterLab、TensorBoard、VSCode、實(shí)驗(yàn)管理工具等,幫助觀測(cè)實(shí)驗(yàn)各類指標(biāo)。同時(shí),大規(guī)模分布式訓(xùn)練任務(wù)很可能會(huì)出現(xiàn)軟硬件、網(wǎng)絡(luò)等問題,火山引擎提供了一系列自動(dòng)化故障自愈流程機(jī)制,如慢節(jié)點(diǎn)自動(dòng)巡檢、故障自動(dòng)檢測(cè)、故障注入演練等,幫助大幅減少故障對(duì)任務(wù)的影響。
數(shù)據(jù)飛輪加持模型訓(xùn)練,實(shí)現(xiàn)全面降本增效
在與火山引擎的合作中,月之暗面團(tuán)隊(duì)?wèi)?yīng)用了火山引擎數(shù)智平臺(tái)VeDI旗下云原生大數(shù)據(jù)平臺(tái)E-MapReduce和增長(zhǎng)分析DataFinder兩大產(chǎn)品,并結(jié)合數(shù)據(jù)飛輪方法論,在數(shù)據(jù)資產(chǎn)層面大大降低了模型預(yù)處理的成本,在業(yè)務(wù)應(yīng)用層面則為Kimi的精準(zhǔn)投放、高效拉新保駕護(hù)航。
火山引擎數(shù)據(jù)飛輪是企業(yè)數(shù)智化升級(jí)的新范式,其強(qiáng)調(diào)以數(shù)據(jù)消費(fèi)為核心驅(qū)動(dòng)力,使企業(yè)數(shù)據(jù)流充分融入業(yè)務(wù)流,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)和業(yè)務(wù)應(yīng)用的飛輪效應(yīng)。
大模型的訓(xùn)練以海量數(shù)據(jù)為基礎(chǔ),其訓(xùn)練過程本身可視為一種大規(guī)模的數(shù)據(jù)消費(fèi)。在多模態(tài)模型數(shù)據(jù)預(yù)處理過程中,非結(jié)構(gòu)化數(shù)據(jù)量級(jí)龐大、數(shù)據(jù)種類及格式多樣、數(shù)據(jù)處理過程復(fù)雜,對(duì)集群的計(jì)算調(diào)度、存儲(chǔ)吞吐都提出了非常大的挑戰(zhàn)。
火山引擎通過E-MapReduce產(chǎn)品及相關(guān)解決方案,將Spark與Ray計(jì)算框架統(tǒng)一調(diào)度,共享集群資源,大大提升了數(shù)據(jù)清洗的復(fù)雜度和效率,實(shí)現(xiàn)了對(duì)海量數(shù)據(jù)的快速和規(guī)?;奶幚恚撼杀窘档?0%,并能應(yīng)對(duì)突發(fā)任務(wù)需求,加速Kimi上線時(shí)間。
在業(yè)務(wù)層面,為了進(jìn)一步推廣Kimi應(yīng)用,月之暗面需要在保障廣告ROI健康水平的情況下快速拓展新客戶,一方面促進(jìn)Kimi DAU的快速攀升,同時(shí)兼顧新用戶留存率,保障業(yè)務(wù)健康度。這一方面需要數(shù)據(jù)的支撐,同時(shí)也需要便捷高效的數(shù)據(jù)工具輔助業(yè)務(wù)決策。
結(jié)合火山引擎增長(zhǎng)分析DataFinder的能力,月之暗面對(duì)產(chǎn)品用戶路徑優(yōu)化進(jìn)行了全鏈路優(yōu)化,尋找轉(zhuǎn)化卡點(diǎn)、流失高點(diǎn),結(jié)合各節(jié)點(diǎn)數(shù)據(jù)快速發(fā)現(xiàn)問題、定位問題、解決問題,確保用戶體驗(yàn),提升整體留存。于此同時(shí),借助DataFinder的廣告投放渠道監(jiān)測(cè)功能,月之暗面團(tuán)隊(duì)對(duì)廣告投放效果進(jìn)行了精準(zhǔn)分析,進(jìn)一步優(yōu)化了推廣素材和相關(guān)活動(dòng),確保拉新效率。
未來,火山引擎與月之暗面將持續(xù)深化合作,共同攻克技術(shù)難題,進(jìn)一步幫助用戶加速AI進(jìn)程?;鹕揭嬉矊⒉粩嗵嵘陨砑夹g(shù)實(shí)力和服務(wù)水平,攜手伙伴共同為用戶提供更加優(yōu)質(zhì)、智能的AI體驗(yàn),助力 AI 應(yīng)用的創(chuàng)新與發(fā)展。