圖1 兩階段語義類型檢測(cè)框架概覽圖
此外,該論文進(jìn)一步設(shè)計(jì)了一種新穎的非對(duì)稱雙塔檢測(cè)模型(Asymmetric Double-Tower Detection,簡稱 ADTD),通過引入多任務(wù)學(xué)習(xí)來支持Taste的兩階段檢測(cè)過程。ADTD模型結(jié)構(gòu)分為Metadata塔和Content塔(如圖2所示),前者是對(duì)元數(shù)據(jù)特征進(jìn)行編碼,后者是結(jié)合元數(shù)據(jù)信息對(duì)列內(nèi)容特征進(jìn)行編碼。在Taste的兩階段檢測(cè)中,第一階段僅利用Metadata塔進(jìn)行推理,并將Metadata塔加入到緩存中,供第二階段使用,以減少重復(fù)推理;第二階段則是結(jié)合Metadata塔的緩存和Content塔進(jìn)行推理。在訓(xùn)練過程中,兩個(gè)階段的輸出可以結(jié)合在一起做多任務(wù)學(xué)習(xí),使得模型只需訓(xùn)練一次,即可應(yīng)用于兩個(gè)階段的推理過程。
圖2 非對(duì)稱雙塔檢測(cè)模型結(jié)構(gòu)圖
該論文的實(shí)驗(yàn)表明,Taste 框架在執(zhí)行效率、準(zhǔn)確性、降低數(shù)據(jù)列掃描侵入性等多個(gè)方面均表現(xiàn)優(yōu)異,且在不同的數(shù)據(jù)隱私設(shè)置下表現(xiàn)出較強(qiáng)的魯棒性,并具備云端大規(guī)模部署的潛力。
目前,Taste框架已在天翼云數(shù)據(jù)管理服務(wù)(DMS)進(jìn)行落地。天翼云DMS是TeleDB的一款數(shù)據(jù)庫工具產(chǎn)品,作為一站式數(shù)據(jù)生命周期管理平臺(tái),其支持多云異構(gòu)數(shù)據(jù)庫統(tǒng)一納管,提供數(shù)據(jù)資產(chǎn)管理、客戶端工具等功能。依托Taste框架的性能優(yōu)勢(shì),天翼云DMS可幫助客戶進(jìn)行高效、靈活的語義類型檢測(cè),實(shí)現(xiàn)更加快捷且智能化的敏感數(shù)據(jù)識(shí)別,顯著提升云端數(shù)據(jù)管理的安全性和穩(wěn)定性,為企業(yè)充分釋放數(shù)據(jù)價(jià)值提供有力支撐。
科技創(chuàng)新是發(fā)展新質(zhì)生產(chǎn)力的核心要素。面向未來,天翼云將秉持央企使命責(zé)任,發(fā)揮數(shù)字中國建設(shè)主力軍作用,持續(xù)推進(jìn)數(shù)據(jù)庫等云計(jì)算技術(shù)攻關(guān),筑牢國云智算底座,以科技創(chuàng)新引領(lǐng)產(chǎn)業(yè)發(fā)展。