可信計(jì)算賽道揭秘

可信計(jì)算的賽題是對(duì)單細(xì)胞轉(zhuǎn)錄組學(xué)數(shù)據(jù)進(jìn)行安全分類(lèi),目標(biāo)是為了檢測(cè)可信執(zhí)行環(huán)境實(shí)施并行訓(xùn)練的可擴(kuò)展性:要求使用多個(gè)飛地(Enclave)來(lái)對(duì)單細(xì)胞數(shù)據(jù)進(jìn)行分類(lèi)訓(xùn)練,并且為了模擬云中的彈性計(jì)算環(huán)境,比賽規(guī)定每個(gè)飛地最多使用8個(gè)線程來(lái)進(jìn)行訓(xùn)練,最后按照分類(lèi)準(zhǔn)確率和耗時(shí)對(duì)各參賽隊(duì)伍進(jìn)行排名;同時(shí)要求在分類(lèi)過(guò)程中,任何輸入、中間和輸出數(shù)據(jù)都不能泄露。本次比賽主要考察可信計(jì)算系統(tǒng)的設(shè)計(jì)與優(yōu)化水平。

為此,Jeddak Team對(duì)現(xiàn)有主流分類(lèi)算法做了調(diào)研,最終選取DPMM算法因其優(yōu)秀的分類(lèi)正確性和計(jì)算效率;同時(shí),創(chuàng)新性地提出了一系列方法手段來(lái)提升分類(lèi)的性能,例如:

· 加解密階段使用共享內(nèi)存。在非可信環(huán)境加密數(shù)據(jù)時(shí),將結(jié)果直接落到共享內(nèi)存中,這樣飛地里的線程便可以直接讀取加密數(shù)據(jù)并解密,節(jié)省了一次OCALL操作和一次內(nèi)存復(fù)制操作。

· 動(dòng)態(tài)加載飛地。分配給飛地的可信內(nèi)存越大,加載飛地的效率就會(huì)越低,于是根據(jù)數(shù)據(jù)集的大小預(yù)估所需可信內(nèi)存的大小,然后從事先生成的、不同大小可信內(nèi)存的二進(jìn)制文件中選取最合適者,實(shí)現(xiàn)動(dòng)態(tài)加載飛地,從而減少加載時(shí)間。

圖片 2.png

· 線程池的使用。在飛地里面的計(jì)算任務(wù)會(huì)被寫(xiě)到一個(gè)任務(wù)隊(duì)列,線程池的線程通過(guò)ECALL進(jìn)入飛地后,便會(huì)一直監(jiān)聽(tīng)任務(wù)隊(duì)列:有任務(wù)則取出來(lái)執(zhí)行、直到算法結(jié)束才將線程銷(xiāo)毀。這樣在分類(lèi)時(shí),便不會(huì)有可信環(huán)境與非可信環(huán)境的轉(zhuǎn)換,同時(shí)避免了頻繁地創(chuàng)建線程。

· 設(shè)計(jì)收斂判斷邏輯。DPMM算法只支持固定輪數(shù)的訓(xùn)練,在一些收斂特別快的數(shù)據(jù)集上會(huì)導(dǎo)致性能變差,于是增加了收斂判斷邏輯,一旦算法判斷收斂便將任務(wù)提前終止。

圖片 3.png

根據(jù)主辦方的評(píng)估,Jeddak Team的方案在僅使用2個(gè)飛地的情況下,耗時(shí)8.8秒就完成18900個(gè)樣本分類(lèi),其ARI也在所有參賽隊(duì)伍中保持了較高水平。此外,需要特別指出的是,Jeddak方案在更大樣本規(guī)模(200k)的測(cè)試條件下,依然可以保證極高的性能和準(zhǔn)確率。

圖片 4.png

憑借著上述創(chuàng)新,最終在該賽道的18支參賽隊(duì)伍中獲得了第2名的好成績(jī)。與螞蟻鏈、阿里安全雙子座實(shí)驗(yàn)室、騰訊Angel PowerFL共同入選Best-Performing Teams。

區(qū)塊鏈賽道揭秘

區(qū)塊鏈賽道的題目和要求是,使用Ethereum Solidity智能合約語(yǔ)言設(shè)計(jì)出高效的數(shù)據(jù)結(jié)構(gòu)和算法,來(lái)存儲(chǔ)和檢索生物醫(yī)學(xué)證書(shū)。證書(shū)在插入時(shí)被劃分為多個(gè)15K的分塊數(shù)據(jù),而這些數(shù)據(jù)和對(duì)應(yīng)的元數(shù)據(jù)都要上鏈;同時(shí),設(shè)置有兩個(gè)查詢函數(shù),分別要求根據(jù)查詢條件來(lái)返回滿足的元數(shù)據(jù)信息和最近的證書(shū)內(nèi)容。最后會(huì)評(píng)估查詢結(jié)果的正確性,以及插入操作和兩個(gè)查詢函數(shù)的性能。

為此,Jeddak Team給出了一系列優(yōu)化設(shè)計(jì)和實(shí)現(xiàn)。例如,在插入證書(shū)元數(shù)據(jù)和證書(shū)內(nèi)容時(shí),均采用哈希表存儲(chǔ)上鏈;另外,為了快速查詢而使用了額外4個(gè)mapping(typeFiles,courseFiles,unameFiles、以及typeCourseFiles),用于存儲(chǔ)查詢字段到證書(shū)文件名列表的映射。

圖片 5.png

查詢優(yōu)化的一個(gè)創(chuàng)新舉措是:根據(jù)證書(shū)數(shù)據(jù)分布,優(yōu)先使用最具標(biāo)識(shí)性的字段進(jìn)行過(guò)濾,從而將多通配符條件下可能的匹配證書(shū)鎖定在一個(gè)較小范圍,提高了查詢匹配效率。此外,對(duì)于給定gaslimit條件下組裝恢復(fù)大文件的挑戰(zhàn),Jeddak Team采用分組拼接、以取替迭代拼接的方式,解決了因內(nèi)存拷貝次數(shù)過(guò)多而導(dǎo)致gas使用超限的問(wèn)題。

圖片 6.png

根據(jù)主辦方的評(píng)估,Jeddak Team方案的平均插入時(shí)間和兩類(lèi)查詢的執(zhí)行時(shí)間均十分高效。最終在該賽道34支參賽隊(duì)伍中獲得了第3名的好成績(jī)。與耶魯大學(xué)、螞蟻鏈共同入選Best-Performing Teams。

圖片 7.png

關(guān)于本次比賽的更多詳細(xì)信息以及對(duì)應(yīng)參賽作品的介紹視頻和幻燈片材料,請(qǐng)大家參考賽事官網(wǎng): http://www.humangenomeprivacy.org/2022/。

Jeddak數(shù)據(jù)安全沙箱

此次Jeddak Team參賽所使用的核心技術(shù)均源于自研的Jeddak數(shù)據(jù)安全沙箱,是構(gòu)建在可信執(zhí)行環(huán)境和區(qū)塊鏈基礎(chǔ)上的數(shù)據(jù)計(jì)算平臺(tái)。適用于多方數(shù)據(jù)融合的隱私計(jì)算應(yīng)用場(chǎng)景:既能夠聯(lián)合多個(gè)數(shù)據(jù)提供方進(jìn)行協(xié)同計(jì)算、打通“數(shù)據(jù)孤島”發(fā)揮數(shù)據(jù)價(jià)值;又能夠滿足數(shù)據(jù)“可用不可見(jiàn)”的安全合規(guī)要求。從而實(shí)現(xiàn)了計(jì)算過(guò)程中數(shù)據(jù)的隱私保護(hù)、審計(jì)溯源和防篡改,為數(shù)據(jù)的可信應(yīng)用及其互聯(lián)互通提供了行之有效的解決方案。

目前,Jeddak數(shù)據(jù)安全沙箱已通過(guò)火山引擎對(duì)外提供服務(wù),包括數(shù)據(jù)復(fù)雜處理、聯(lián)合分析、聯(lián)合建模與預(yù)測(cè),以及隱私集合求交PSI、匿蹤查詢PIR、機(jī)密數(shù)據(jù)庫(kù)查詢SQL等功能應(yīng)用。在云端代理計(jì)算、數(shù)據(jù)合規(guī)計(jì)算、分布式計(jì)算等多類(lèi)場(chǎng)景模式下,為用戶挖掘和創(chuàng)造更多數(shù)據(jù)價(jià)值。

分享到

xiesc

相關(guān)推薦