(數(shù)據(jù)來(lái)源:https://api-docs.deepseek.com/zh-cn/quick_start/pricing)
從技術(shù)角度來(lái)看,在大模型API使用場(chǎng)景中,用戶輸入存在相當(dāng)比例的重復(fù)內(nèi)容,比如用戶的提問(wèn)中常有重復(fù)引用部分,多輪對(duì)話中每一輪都需重復(fù)輸入前幾輪內(nèi)容。同時(shí),在很多面向企業(yè)(ToB)的專業(yè)領(lǐng)域里,業(yè)務(wù)信息又多又復(fù)雜,常常是一長(zhǎng)串地輸入。推理時(shí)需要從這些長(zhǎng)上下文的內(nèi)容里找出有用的信息和關(guān)鍵主題,這就需要計(jì)算和存儲(chǔ)相互配合。為此,采用以存代算技術(shù),將預(yù)計(jì)未來(lái)會(huì)重復(fù)使用的內(nèi)容緩存在存儲(chǔ)中,當(dāng)輸入有重復(fù)時(shí),重復(fù)部分只需從緩存讀取,無(wú)需重新計(jì)算。這一技術(shù)不僅顯著降低服務(wù)延遲,還大幅削減最終使用成本。
以多輪對(duì)話場(chǎng)景為例,下一輪對(duì)話會(huì)命中上一輪對(duì)話生成的上下文緩存:
華為數(shù)據(jù)存儲(chǔ)OceanStor A800針對(duì)大模型推理具備Unified Cache多級(jí)緩存技術(shù),與DeepSeek硬盤緩存技術(shù)采用相同的技術(shù)路線,簡(jiǎn)單來(lái)說(shuō),就是提前把和你相關(guān)的歷史信息,比如你們之前聊過(guò)的內(nèi)容、你的喜好這些“記憶”,存到的存儲(chǔ)設(shè)備里。等你要用的時(shí)候,它能快速找到這些相關(guān)信息(相關(guān)KV Cache片段),不用每次都從頭開(kāi)始推理計(jì)算。這樣一來(lái),不僅能快速準(zhǔn)確地處理長(zhǎng)對(duì)話內(nèi)容(長(zhǎng)序列),成本也能降下來(lái),而且還能根據(jù)你的獨(dú)特需求提供更貼心的個(gè)性化服務(wù),讓模型就像專門為你定制的一樣。
華為OceanStor A800是基于數(shù)控分離全交換架構(gòu)的原生AI存儲(chǔ),Unified Cache多級(jí)緩存技術(shù)可應(yīng)用于:
為推理系統(tǒng)提供TB級(jí)性能、PB級(jí)容量、大規(guī)模共享的全局內(nèi)存擴(kuò)展池,實(shí)現(xiàn)高效的上下文KV Cache保存、管理與加載策略,有效提升KV Cache加載效率,可支持的序列長(zhǎng)度從百K擴(kuò)展到無(wú)限長(zhǎng),實(shí)現(xiàn)推理首Token時(shí)延4+倍降低,E2E推理成本2+倍降低,為大模型提供終身記憶和無(wú)限上下文能力。
大模型推理使用華為OceanStor A800高性能分布式文件存儲(chǔ),能夠?qū)崿F(xiàn)PB級(jí)容量的DRAM性能,進(jìn)一步降低大模型推理服務(wù)的延遲,大幅削減最終使用成本,重新定義了AI服務(wù)的性價(jià)比,為大模型在各行業(yè)的廣泛普及與應(yīng)用注入強(qiáng)大動(dòng)力,加速大模型普惠時(shí)代的到來(lái)。