芯云協(xié)同:從技術(shù)融合到生態(tài)共建的算力普惠路徑

李志輝在致辭中強(qiáng)調(diào),算力正經(jīng)歷從集中化到普惠化的轉(zhuǎn)變,而“真正的技術(shù)創(chuàng)新需要讓更多企業(yè)和個(gè)人受益”。英特爾與火山引擎的合作以“芯云協(xié)同”為核心理念,全棧式展現(xiàn)最新計(jì)算實(shí)例解決方案及落地場(chǎng)景。雙方聯(lián)合發(fā)布的火山引擎第四代云實(shí)例g4il,搭載英特爾至強(qiáng)6性能核處理器,在通用算力性能提升30%的基礎(chǔ)上,針對(duì)AI應(yīng)用場(chǎng)景進(jìn)行專項(xiàng)優(yōu)化,如預(yù)裝知識(shí)問答鏡像、優(yōu)化向量化模型、重排模型、推薦模型及多模態(tài)內(nèi)容識(shí)別等核心組件,形成“開箱即用”方案,釋放CPU算力潛能。

針對(duì)2025年智能體應(yīng)用元年的趨勢(shì),英特爾與火山引擎、華勝天成聯(lián)合打造基于英特爾銳炫顯卡算力平臺(tái)的HiAgent一體機(jī)方案,破解AI落地核心痛點(diǎn)。該方案提供高性價(jià)比、可擴(kuò)展性強(qiáng)的AI一體機(jī),支持企業(yè)靈活選擇私有化部署路徑,結(jié)合華勝天成全棧服務(wù)能力,實(shí)現(xiàn)從低成本適用到規(guī)?;瘮U(kuò)展的平滑進(jìn)階,推動(dòng)AI轉(zhuǎn)化為行業(yè)生產(chǎn)力。李志輝指出,芯云協(xié)同已從技術(shù)融合升維至生態(tài)共建,英特爾呼吁更多合作伙伴參與建立跨芯片、云服務(wù)和應(yīng)用層的開放標(biāo)準(zhǔn),降低生態(tài)協(xié)作成本。

硬件創(chuàng)新:異構(gòu)計(jì)算架構(gòu)賦能大模型高效推理

英特爾技術(shù)專家深入解析了硬件創(chuàng)新在大模型推理中的關(guān)鍵作用。至強(qiáng)6處理器采用模塊化解耦架構(gòu),分離I/O die與計(jì)算die,實(shí)現(xiàn)能效核與性能核對(duì)I/O die的復(fù)用,節(jié)省生態(tài)伙伴驗(yàn)證資源。其計(jì)算能力可達(dá)288個(gè)物理核,內(nèi)存帶寬較上一代提升1.7倍(通過12通道DDR5 6400及MRDIMM技術(shù)實(shí)現(xiàn)最高800GB/s帶寬),PCIe帶寬提升1.2倍,跨插槽帶寬提升1.8倍,并支持CXL 2.0技術(shù),為大模型部署提供強(qiáng)大帶寬支持。

針對(duì)大模型推理中的顯存瓶頸,英特爾推出基于銳炫GPU的高性價(jià)比解決方案。銳炫Pro B60顯卡搭載24GB顯存,相比前代16GB顯存顯著提升上下文處理能力。技術(shù)專家強(qiáng)調(diào),更大顯存可支持更長(zhǎng)上下文(如處理數(shù)百頁(yè)財(cái)報(bào)分析)及更高并發(fā)(每個(gè)對(duì)話產(chǎn)生的KV Cache消耗),而多卡并行方案(如1機(jī)4卡配置)通過oneCCL通訊庫(kù)解決多卡協(xié)作問題,實(shí)現(xiàn)算力擴(kuò)展。實(shí)測(cè)顯示,銳炫A770顯卡在性價(jià)比上表現(xiàn)突出,適用于企業(yè)級(jí)AI一體機(jī)部署。

技術(shù)優(yōu)化:從模型加速到全鏈路效率提升

在大模型推理優(yōu)化方面,英特爾技術(shù)專家提出多種異構(gòu)計(jì)算方案。針對(duì)大語言模型prefill階段的計(jì)算瓶頸與decoding階段的緩存帶寬瓶頸,英特爾引入投機(jī)執(zhí)行技術(shù),借鑒CPU設(shè)計(jì)思路,用小模型預(yù)測(cè)下一詞并交由大模型驗(yàn)證,釋放GPU資源。至強(qiáng)6性能核處理器對(duì)小模型的優(yōu)化能力,使該技術(shù)在數(shù)據(jù)中心部署更高效。

KV Cache管理是大模型推理的另一關(guān)鍵。英特爾設(shè)計(jì)了一套KV Cache管理方案,在其從熱到冷的遷移過程中,可以利用至強(qiáng)QAT加速器對(duì)CPU到磁盤落盤階段的KV Cache進(jìn)行壓縮優(yōu)化。實(shí)測(cè)顯示,在部署Qwen2.5-14B模型的多輪對(duì)話場(chǎng)景中,采用QAT加速KV Cache壓縮可顯著降低首詞生成延遲。針對(duì)DeepSeek等MoE模型的稀疏特性,英特爾推出稀疏感知的MoE CPU卸載解決方案,通過硬件profiler與模型分析器調(diào)度冷熱專家,將DeepSeek-R1模型推理并發(fā)量提升2.45倍。

在RAG(檢索增強(qiáng)生成)應(yīng)用中,英特爾聯(lián)合火山引擎基于至強(qiáng)6處理器的AMX矩陣運(yùn)算加速器,對(duì)上傳文檔處理、Embedding向量化、向量數(shù)據(jù)庫(kù)檢索和Reranking排序四個(gè)環(huán)節(jié)進(jìn)行深度優(yōu)化,任務(wù)耗時(shí)最多可減少90%。針對(duì)推薦系統(tǒng)經(jīng)典模型WDL,通過AMX優(yōu)化使CPU推理性能提升114%,顯著提升模型推理效率。

生態(tài)賦能:低門檻開發(fā)平臺(tái)與行業(yè)場(chǎng)景落地

為降低開發(fā)者進(jìn)入大模型領(lǐng)域的門檻,英特爾推出基于OPEA開源項(xiàng)目的開發(fā)環(huán)境,在火山引擎g4il實(shí)例中提供“開源大模型應(yīng)用知識(shí)問答”鏡像,支持兩分鐘快速啟動(dòng)聊天機(jī)器人,包含十幾種容器化微服務(wù),方便開發(fā)者理解與擴(kuò)展。配套的“云端進(jìn)化論”系列課程,提供從基礎(chǔ)到高階的系統(tǒng)化培訓(xùn),助力開發(fā)者掌握從知識(shí)庫(kù)問答到多模態(tài)處理、Agent應(yīng)用的全鏈路技能。

在行業(yè)落地層面,英特爾技術(shù)專家指出,企業(yè)級(jí)AI應(yīng)用面臨數(shù)據(jù)孤島、開發(fā)門檻高、成本與效率矛盾等挑戰(zhàn)。英特爾與火山引擎、華勝天成的一體機(jī)方案為用戶打造低成本入門的AI應(yīng)用,提供靈活進(jìn)階路徑。此外,華勝天成的AI問數(shù)智能體幫助企業(yè)經(jīng)營(yíng)者通過語音/文字快速獲取圖表,縮短決策鏈路;智能客服系列產(chǎn)品支持多國(guó)語言與方言,提升服務(wù)體驗(yàn);投標(biāo)大王產(chǎn)品將企業(yè)投標(biāo)效率提升50%,節(jié)省人力成本。

技術(shù)專家強(qiáng)調(diào),英特爾平臺(tái)通過高性價(jià)比硬件、開放軟件生態(tài)及EAP解決方案,為企業(yè)提供從開發(fā)到部署的全流程支持。至強(qiáng)6處理器內(nèi)置的AMX、QAT等加速器,可靈活處理Embedding、Reranking等輕量級(jí)任務(wù),實(shí)現(xiàn)CPU與GPU算力協(xié)同。搭配Grafana視覺化工具,企業(yè)可實(shí)時(shí)掌握硬件資源消耗與系統(tǒng)運(yùn)行狀態(tài),滿足2B業(yè)務(wù)的運(yùn)維需求。

結(jié)語:算力普惠作為生態(tài)共融的旅程

正如李志輝所言,“算力普惠并非某一個(gè)技術(shù)的獨(dú)舞,而是一次生態(tài)共融的旅程”。英特爾通過芯云協(xié)同的戰(zhàn)略布局,將芯片架構(gòu)創(chuàng)新、異構(gòu)計(jì)算優(yōu)化、開源生態(tài)建設(shè)與行業(yè)場(chǎng)景需求深度結(jié)合,推動(dòng)算力像水電一樣成為驅(qū)動(dòng)千行百業(yè)的基礎(chǔ)生產(chǎn)力。從至強(qiáng)6處理器的性能突破到銳炫GPU的性價(jià)比方案,從RAG全鏈路加速到OPEA開發(fā)平臺(tái)賦能,英特爾正與生態(tài)伙伴共同構(gòu)建“軟硬一體、普惠高效”的智能計(jì)算生態(tài),推動(dòng)AI算力的普惠發(fā)展。

分享到

lixiangjing

算力豹主編

相關(guān)推薦