IT之家附 Kimi 開放平臺上下文緩存功能公測詳情如下:
技術(shù)簡介
據(jù)介紹,上下文緩存是一種數(shù)據(jù)管理技術(shù),允許系統(tǒng)預(yù)先存儲會被頻繁請求的大量數(shù)據(jù)或信息。當(dāng)用戶請求相同信息時(shí),系統(tǒng)可以直接從緩存中提供,無需重新計(jì)算或從原始數(shù)據(jù)源中檢索。
適用場景
上下文緩存適用于頻繁請求,重復(fù)引用大量初始上下文場景,可降低長文本模型費(fèi)用,提高效率。官方表示費(fèi)用最高降低 90 %,首 Token 延遲降低 83%。適用業(yè)務(wù)場景如下:
提供大量預(yù)設(shè)內(nèi)容的 QA Bot,例如 Kimi API 小助手
針對固定的文檔集合的頻繁查詢,例如上市公司信息披露問答工具
對靜態(tài)代碼庫或知識庫的周期性分析,例如各類 Copilot Agent
瞬時(shí)流量巨大的爆款 AI 應(yīng)用,例如哄哄模擬器,LLM Riddles
交互規(guī)則復(fù)雜的 Agent 類應(yīng)用等
計(jì)費(fèi)說明
上下文緩存收費(fèi)模式主要分為以下三個(gè)部分:
Cache 創(chuàng)建費(fèi)用
調(diào)用 Cache 創(chuàng)建接口,成功創(chuàng)建 Cache 后,按照 Cache 中 Tokens 按實(shí)際量計(jì)費(fèi)。24 元 / M token
Cache 存儲費(fèi)用
Cache 存活時(shí)間內(nèi),按分鐘收取 Cache 存儲費(fèi)用。10 元 / M token / 分鐘
Cache 調(diào)用費(fèi)用
Cache 調(diào)用增量 token 的收費(fèi):按模型原價(jià)收費(fèi)
Cache 調(diào)用次數(shù)收費(fèi):Cache 存活時(shí)間內(nèi),用戶通過 chat 接口請求已創(chuàng)建成功的 Cache,若 chat message 內(nèi)容與存活中的 Cache 匹配成功,將按調(diào)用次數(shù)收取 Cache 調(diào)用費(fèi)用。0.02 元 / 次
公測時(shí)間和資格說明
公測時(shí)間:功能上線后,公測 3 個(gè)月,公測期價(jià)格可能隨時(shí)調(diào)整。
公測資格:公測期間 Context Caching 功能優(yōu)先開放給 Tier5 等級用戶,其他用戶范圍放開時(shí)間待定。