某社交媒體整合營(yíng)銷平臺(tái),則通過引入ByteHouse向量檢索能力,滿足了輿情監(jiān)測(cè)場(chǎng)景中的以圖搜圖需求。舉個(gè)例子,有一家食品公司是該整合營(yíng)銷平臺(tái)的客戶之一,食品公司上市了一款零食,而某位消費(fèi)者在零食中發(fā)現(xiàn)異物,并發(fā)布在社交媒體中,引發(fā)網(wǎng)絡(luò)討論,輿論不斷發(fā)酵。基于以圖搜圖的輿情監(jiān)測(cè)能力,整合營(yíng)銷平臺(tái)幫助食品公司快速發(fā)現(xiàn)輿情異常,并采取補(bǔ)救措施。
但由于數(shù)據(jù)體量不斷膨脹,該整合營(yíng)銷平臺(tái)雖然匹配了更多資源,依然面臨查詢性能下降的問題。據(jù)介紹,該平臺(tái)的整體數(shù)據(jù)規(guī)模已達(dá)到12億,但公司管理層期望在盡可能低的成本下,達(dá)到秒級(jí)搜索速度。
經(jīng)過一系列測(cè)試和對(duì)比,該平臺(tái)的研發(fā)人員發(fā)現(xiàn),行業(yè)相關(guān)產(chǎn)品的查詢效率在幾秒到十多秒之間,而ByteHouse只需700-800 毫秒。在進(jìn)一步優(yōu)化之后,ByteHouse查詢效率進(jìn)一步降低到150-200 毫秒內(nèi),只需秒級(jí)以下時(shí)間,就能從大規(guī)模數(shù)據(jù)中查找出近似的 1000 張圖片,并完成相似度評(píng)分。
ByteHouse技術(shù)專家介紹道:“為了在有限資源下,最大化向量檢索性能,我們主要在這四個(gè)方面進(jìn)行優(yōu)化,分別是向量檢索計(jì)算下推、過濾操作優(yōu)化、冷讀優(yōu)化、索引限制?!?/p>
具體來(lái)說(shuō),ByteHouse通過將算子拆分,進(jìn)行 Vector Search 再處理,提升延遲速度,實(shí)現(xiàn)計(jì)算下推優(yōu)化,而在過濾操作中,主要針對(duì)標(biāo)量、向量混合查詢場(chǎng)景優(yōu)化。針對(duì)造成性能瓶頸的冷讀問題,ByteHouse將不同資源用index結(jié)構(gòu)載入內(nèi)存的方式,實(shí)現(xiàn)高性能計(jì)算。
除此之外,由于使用向量檢索會(huì)消耗較多 CPU 和內(nèi)存資源,為了進(jìn)一步降低成本,ByteHouse用索引限制并發(fā),并通過壓縮存儲(chǔ)空間、支持增量訓(xùn)練等手段實(shí)現(xiàn)內(nèi)存優(yōu)化。
除了支持向量檢索能力的Vector引擎,ByteHouse還具有全文檢索、GIS等引擎,實(shí)現(xiàn)全場(chǎng)景引擎覆蓋。作為一款具備高性能、極致分析能力的云原生數(shù)據(jù)倉(cāng)庫(kù),早在2022年2月,ByteHouse在字節(jié)跳動(dòng)的部署規(guī)模已超1萬(wàn)8000臺(tái),單集群超2400臺(tái)。未來(lái),它還將持續(xù)為企業(yè)提供極致的數(shù)據(jù)分析能力,助推數(shù)智化轉(zhuǎn)型升級(jí)。