“這場革命的核心在于兩點(diǎn):算法的突破與芯片算力的躍升?!鄙虾=煌ù髮W(xué)副教授、無問芯穹聯(lián)合創(chuàng)始人兼首席科學(xué)家戴國浩表示。
正如蒸汽機(jī)需要煤炭驅(qū)動(dòng),大模型的智能同樣依賴海量數(shù)據(jù)和強(qiáng)大算力。但與傳統(tǒng)工業(yè)革命不同,智能革命的迭代速度遠(yuǎn)超想象——技術(shù)更新以“天”為單位推進(jìn),模型參數(shù)量從十億級邁向萬億級,推理需求呈指數(shù)級增長。
更深遠(yuǎn)的影響在于生產(chǎn)關(guān)系的重構(gòu)。過去勞動(dòng)者是人,未來可能是機(jī)器。而機(jī)器的“勞動(dòng)”本質(zhì)是推理——通過模型計(jì)算完成決策、對話、控制等任務(wù)。無論是金融風(fēng)控還是醫(yī)療診斷,大模型推理正在成為各行業(yè)的新生產(chǎn)力。
從預(yù)訓(xùn)練模型到推理模型,對算力的需求也在不斷增加,這為整個(gè)行業(yè)帶來了新的挑戰(zhàn)和機(jī)遇。
一張PPT背后:新技術(shù)催生的算力“剛需”
戴國浩教授引用了英偉達(dá)CEO黃仁勛今年3月在HTC大會(huì)上的一張PPT。在這張PPT中,一條核心定律揭示了AI發(fā)展的密碼——尺度定律(Scaling Law)。模型能力隨著參數(shù)規(guī)模和數(shù)據(jù)量的增加而提升,但這種增長需要付出巨大代價(jià):其中預(yù)訓(xùn)練階段需要用海量數(shù)據(jù)“喂養(yǎng)”模型,耗電量堪比小型城市;在推理階段,模型實(shí)際應(yīng)用時(shí),算力需求不降反增。用戶對實(shí)時(shí)性的期待(如秒級響應(yīng))與模型復(fù)雜度的提升形成矛盾。
戴國浩教授通過實(shí)測發(fā)現(xiàn):運(yùn)行一個(gè)“滿血版”大模型推理,需同時(shí)調(diào)用16張英偉達(dá)H100顯卡,若將同等算力移植到手機(jī),電量僅能支撐10秒。這暴露了一個(gè)殘酷現(xiàn)實(shí)——推理算力成本已成為AI普及的最大瓶頸。
隨著模型參數(shù)量和數(shù)據(jù)量的增加,模型的能力也在不斷增強(qiáng)。從預(yù)訓(xùn)練階段的規(guī)模擴(kuò)展,到補(bǔ)充增強(qiáng)訓(xùn)練和推理階段的規(guī)模擴(kuò)展,每一個(gè)階段都對算力提出了更高的要求。為了滿足這種需求,推理技術(shù)需要不斷創(chuàng)新和優(yōu)化,以提高算力的利用效率。
相關(guān)數(shù)據(jù)顯示,自2020年起,全球人工智能算力需求每3-4個(gè)月便翻一番,遠(yuǎn)超傳統(tǒng)計(jì)算領(lǐng)域發(fā)展速度。這種迅猛的增長態(tài)勢給科技產(chǎn)業(yè)帶來巨大挑戰(zhàn),也促使科研人員和企業(yè)不斷探索新的算力解決方案,以滿足人工智能快速發(fā)展的需求。
存算融合 vs 存算分離:一場技術(shù)路線的對決
推理過程可以分為Prefill、Decode和調(diào)度三個(gè)階段。
在云側(cè)推理中,面臨著如何高效調(diào)度算力資源、存儲(chǔ)資源和網(wǎng)絡(luò)資源等問題。存儲(chǔ)方面,KV Cache的管理和內(nèi)存碎片化問題成為關(guān)鍵挑戰(zhàn)。計(jì)算方面,推理任務(wù)不像訓(xùn)練任務(wù)那樣密集,如何提高計(jì)算利用率成為一個(gè)難題。
目前,推理技術(shù)主要分為存算融合和存算分離兩種路線。存算融合技術(shù),如vLLM,通過統(tǒng)一管理計(jì)算和存儲(chǔ)資源,提高了內(nèi)存利用率,但計(jì)算任務(wù)之間容易產(chǎn)生干擾。存算分離技術(shù),如Mooncake和DeepSeek,將計(jì)算和存儲(chǔ)分開,減少了計(jì)算干擾,但存儲(chǔ)碎片化和冗余存儲(chǔ)問題較為突出。
戴國浩教授團(tuán)隊(duì)提出的半分離式方案(semi-PD),結(jié)合了存算融合和分離的優(yōu)點(diǎn),實(shí)現(xiàn)了高效的推理性能:通過計(jì)算分離,為不同任務(wù)分配獨(dú)立計(jì)算單元,避免資源爭奪;而結(jié)合存儲(chǔ)融合,采用vLLM的分頁緩存技術(shù),將內(nèi)存利用率提升至90%以上。實(shí)測顯示,該方案比主流框架SGLang的端到端延遲降低40%,且代碼即將開源,有望重塑云端推理架構(gòu)。
發(fā)力端側(cè),以SpecEE應(yīng)對資源不足
在端側(cè)推理場景下,資源受限是主要問題。面對終端設(shè)備的算力困局,戴國浩教授團(tuán)隊(duì)另辟蹊徑——如果模型不必完整運(yùn)行,能否提前輸出結(jié)果?戴國浩教授團(tuán)隊(duì)提出了SpecEE技術(shù),通過自適應(yīng)和動(dòng)態(tài)的機(jī)器學(xué)習(xí)模型,在Transformer的級聯(lián)結(jié)構(gòu)中提前判斷是否已經(jīng)輸出正確結(jié)果,從而減少計(jì)算層數(shù),實(shí)現(xiàn)輕量化推理。在不聯(lián)網(wǎng)的情況下,讓手機(jī)或電腦等智能終端設(shè)備充分享受智能能力。
SpecEE的動(dòng)態(tài)性和正交性使其不僅適用于端側(cè)設(shè)備,在單用戶云端場景也能發(fā)揮優(yōu)勢,還可與其他端側(cè)加速方案無感兼容,進(jìn)一步提升模型推理精度和速度。
實(shí)測中,SpecEE在保持95%以上準(zhǔn)確率的同時(shí),將端側(cè)推理速度提升3倍。這項(xiàng)技術(shù)已與聯(lián)想等廠商合作,應(yīng)用于新一代AI PC,讓離線環(huán)境下的智能助手“快如閃電”。
推理革命:一場關(guān)乎每個(gè)人未來的生產(chǎn)力升級
戴國浩教授堅(jiān)信,2025 年是大模型推理至關(guān)重要的一年。推理算力作為智能革命的基本生產(chǎn)資料和生產(chǎn)力,降低成本是關(guān)鍵目標(biāo)。通過團(tuán)隊(duì)的核心技術(shù)和原始創(chuàng)新,他們致力于推動(dòng)大模型推理技術(shù)的發(fā)展和應(yīng)用。
戴國浩教授團(tuán)隊(duì)的研究,正在從兩個(gè)方向推動(dòng)智能革命落地:在云側(cè),他們的技術(shù)已經(jīng)賦能了上海、北京、杭州等地的公共算力平臺(tái)建設(shè),提升了模型推理的服務(wù)能力。在端側(cè),與合作伙伴共同推動(dòng)了聯(lián)想AIPC產(chǎn)品的智能化發(fā)展。無論是在云側(cè)還是端側(cè),他們的實(shí)時(shí)響應(yīng)、彈性擴(kuò)展的推理系統(tǒng)都為人們更好地享受智能能力提供了支持。
戴教授團(tuán)隊(duì)希望通過總結(jié)方法論,與更多合作伙伴共同努力,不斷推進(jìn)模型推理能力的發(fā)展,讓智能革命的浪潮持續(xù)涌動(dòng),為人類社會(huì)帶來更多的變革和機(jī)遇。
這場變革的本質(zhì)是“推理民主化”——當(dāng)算力成本降低至當(dāng)前的1/10,AI將不再局限于科技巨頭,中小企業(yè)和個(gè)人開發(fā)者也能調(diào)用智能能力。正如電力普及讓工廠走進(jìn)千家萬戶,推理技術(shù)的突破將讓智能革命真正滲透到每個(gè)角落。
戴國浩教授最后強(qiáng)調(diào):“30年前,計(jì)算機(jī)從實(shí)驗(yàn)室走向辦公室;今天,我們要讓大模型從云端走進(jìn)每個(gè)人的口袋?!边@場始于算力的革命,終將重塑人類與機(jī)器協(xié)作的方式,而推理技術(shù),正是打開未來之門的鑰匙。