伴隨著計算力、算法和數(shù)據(jù)量的巨大進(jìn)步,人工智能迎來第三次發(fā)展高潮,開始了各行業(yè)的落地探索。然而,在“大數(shù)據(jù)”興起的同時,數(shù)據(jù)分散的情況也越發(fā)明顯,“數(shù)據(jù)孤島”現(xiàn)象廣泛存在。隨著政策法規(guī)的逐漸完善和公眾隱私保護(hù)意識的加強,隱私安全、數(shù)據(jù)保護(hù)等原因限制著數(shù)據(jù)不能輕易互通,如何在保護(hù)數(shù)據(jù)隱私的前提下實現(xiàn)行業(yè)協(xié)作與協(xié)同治理,是大數(shù)據(jù)時代人工智能行業(yè)應(yīng)用的一大難題。
多方獲益,聯(lián)邦學(xué)習(xí)破解“數(shù)據(jù)孤島”難題
“聯(lián)邦學(xué)習(xí)”(Federated Learning)指的是在滿足隱私保護(hù)和數(shù)據(jù)安全的前提下,設(shè)計一個機器學(xué)習(xí)框架,使各個機構(gòu)在不交換數(shù)據(jù)的情況下進(jìn)行協(xié)作,提升機器學(xué)習(xí)的效果。其核心就是解決數(shù)據(jù)孤島和數(shù)據(jù)隱私保護(hù)的問題,通過建立一個數(shù)據(jù)“聯(lián)邦”,讓參與各方都獲益,推動技術(shù)整體持續(xù)進(jìn)步。大會上,來自微眾銀行AI部門的高級算法工程師黃啟軍也為觀眾展示了聯(lián)邦學(xué)習(xí)的落地案例之一——視覺橫向聯(lián)邦學(xué)習(xí)系統(tǒng)。
黃啟軍提到,在目標(biāo)檢測領(lǐng)域,已標(biāo)注數(shù)據(jù)是非常珍貴的資源,各家公司一般都有各自不同場景的標(biāo)注數(shù)據(jù),但這些數(shù)據(jù)相對散亂,如想利用其它公司已標(biāo)注好的數(shù)據(jù)模型來建立更優(yōu)模型,只能通過拷貝聚攏數(shù)據(jù),但這種行為不符合GDPR、《數(shù)據(jù)安全管理辦法》等法律規(guī)范。而引入橫向聯(lián)邦學(xué)習(xí)機制以后,個體可以在本地設(shè)備中直接標(biāo)注數(shù)據(jù),無需上傳。本地模型的訓(xùn)練數(shù)據(jù)標(biāo)注完成后,客戶端將自動加入聯(lián)邦,等待進(jìn)行訓(xùn)練,當(dāng)有兩臺設(shè)備進(jìn)入到等待訓(xùn)練狀態(tài)時,則開始進(jìn)行聯(lián)邦學(xué)習(xí)訓(xùn)練模式。
視覺橫向聯(lián)邦學(xué)習(xí)系統(tǒng)示意
這一案例真實展現(xiàn)了聯(lián)邦學(xué)習(xí)技術(shù)的價值,相比于單點模型,聯(lián)邦學(xué)習(xí)使得本地設(shè)備的mAP大幅提升,同時Lossless更加穩(wěn)定。mAP平均提升15%的數(shù)據(jù)顯示,整體上聯(lián)邦學(xué)習(xí)遠(yuǎn)比單點模型效果更佳。
深度創(chuàng)新,GPU加速聯(lián)邦學(xué)習(xí)再升級
作為一門具有前景的新興技術(shù),聯(lián)邦學(xué)習(xí)為了完成隱私保護(hù)下的機器學(xué)習(xí),使用了很多與傳統(tǒng)機器學(xué)習(xí)不一樣的方法,也因此迎來了諸多新挑戰(zhàn)。在會上,黃啟軍也分享了微眾銀行AI部門攜手星云Clustar突破的聯(lián)邦學(xué)習(xí)計算三大難題:
首先就是大整數(shù)運算問題,傳統(tǒng)機器學(xué)習(xí)一般使用的是32-bit的基本運算,這些基本運算一般都有芯片指令的直接支持,而聯(lián)邦學(xué)習(xí)中的Paillier/RSA算法依賴的是1024或2048-bit 甚至更長的大整數(shù)運算,但現(xiàn)實情況是,GPU流處理器并不直接支持大整數(shù)運算。面對這一情況,雙方基于分治思想做元素級并行,通過遞歸將大整數(shù)乘法分解成可并行計算的小整數(shù)乘法,從而實現(xiàn)“化繁為簡”,間接完成GPU流處理器的大整數(shù)運算。
通過遞歸將大整數(shù)乘法分解成可并行計算的小整數(shù)乘法示意
其次,大整數(shù)運算中多是模冪、模乘等復(fù)雜運算,即ab mod c (a,b,c均為N比特大整數(shù)),而GPU做模冪等運算的代價極大,傳統(tǒng)的樸素算法會優(yōu)先計算ab,再計算值對c取模,這一算法的缺點是復(fù)雜度高達(dá)O(2^N),且中間乘積結(jié)果很大。而單一的平方乘算法則是通過ak = (ak/2)2 = ((ak/4)2)2實現(xiàn),雖然復(fù)雜度下降至O(N),且中間結(jié)果大小不超過c,但因為需要做2N次取模運算,GPU在此項上花費時間極高。而雙方摘取平方乘算法優(yōu)勢,并加入蒙哥馬利模乘算法計算模乘,就完全避免了取模運算,大幅度降低了GPU的消耗。
最后,在分布式計算時,聯(lián)邦學(xué)習(xí)不止涉及數(shù)據(jù)中心內(nèi)網(wǎng)傳輸,也有廣域網(wǎng)傳輸?shù)膱鼍?,且密文?shù)據(jù)體積要增加幾十倍,傳輸?shù)拇螖?shù)也是傳統(tǒng)機器學(xué)習(xí)的幾倍,雙方通過RDMA網(wǎng)絡(luò)技術(shù)加上自研的動態(tài)參數(shù)聚合模型技術(shù)以及機器學(xué)習(xí)專業(yè)的網(wǎng)絡(luò)傳輸協(xié)議,對聯(lián)邦學(xué)習(xí)在數(shù)據(jù)中心內(nèi)通信場景以及跨廣域網(wǎng)通信場景都進(jìn)行了很好的性能優(yōu)化。
走在前沿,聯(lián)邦學(xué)習(xí)推動AI行業(yè)大變革
聯(lián)邦學(xué)習(xí)近年來在學(xué)術(shù)研究、標(biāo)準(zhǔn)制定和行業(yè)落地等方面發(fā)展迅速,有望成為下一代人工智能協(xié)同算法和協(xié)作網(wǎng)絡(luò)的基礎(chǔ),全球范圍內(nèi)也正在掀起“聯(lián)邦學(xué)習(xí)”的熱潮。從GPU加速聯(lián)邦學(xué)習(xí)這樣的底層技術(shù)研究,到IJCAI 2019首屆聯(lián)邦學(xué)習(xí)國際研討會等學(xué)術(shù)交流,再到IEEE標(biāo)準(zhǔn)制定推動行業(yè)規(guī)范化,聯(lián)邦學(xué)習(xí)在人工智能領(lǐng)域漸露崢嶸,在該領(lǐng)域的影響力顯著提升。而在工具層面,也有諸多企業(yè)機構(gòu)開展研發(fā),如微眾銀行AI團(tuán)隊開源的全球首個工業(yè)級的聯(lián)邦學(xué)習(xí)技術(shù)框架 Federated AI Technology Enabler(FATE),不僅提供一系列開箱即用的聯(lián)邦學(xué)習(xí)算法,更重要的是給開發(fā)者提供了實現(xiàn)聯(lián)邦學(xué)習(xí)算法和系統(tǒng)的范本,使大部分傳統(tǒng)算法可以經(jīng)過改造適配到聯(lián)邦學(xué)習(xí)框架中,從而快速加入聯(lián)邦生態(tài)。
此外,在行業(yè)應(yīng)用落地方面,聯(lián)邦學(xué)習(xí)也扇動了一股“變革”的颶風(fēng):在金融領(lǐng)域,基于該技術(shù)的多家機構(gòu)聯(lián)合風(fēng)控模型能更準(zhǔn)確地識別信貸風(fēng)險,聯(lián)合反欺詐。多家銀行建立的聯(lián)邦反洗錢模型,能解決該領(lǐng)域樣本少、數(shù)據(jù)質(zhì)量低問題,在微眾銀行的實踐中AUC顯著提升12%。
在智慧零售領(lǐng)域,該技術(shù)能有效提升信息和資源匹配的效率。例如,銀行擁有用戶購買能力的特征,社交平臺擁有用戶個人偏好特征,電商平臺則擁有產(chǎn)品特點的特征,聯(lián)邦學(xué)習(xí)能在保護(hù)三方數(shù)據(jù)隱私的基礎(chǔ)上進(jìn)行聯(lián)合建模,為用戶提供更精準(zhǔn)的產(chǎn)品推薦等服務(wù),從而打破數(shù)據(jù)壁壘,構(gòu)建跨領(lǐng)域合作,經(jīng)應(yīng)用實踐,采購備貨準(zhǔn)確率提升可達(dá)21.4%。
聯(lián)邦學(xué)習(xí)是大數(shù)據(jù)使用的未來范式,也是破解數(shù)據(jù)隱私保護(hù)難題的新思路。人工智能不僅是一個工具,更應(yīng)該是讓社會更加公平美好的強大推動力。聯(lián)邦學(xué)習(xí)勢必將在未來助力更多行業(yè)、更多場景發(fā)揮無限潛能,推動AI普惠的實現(xiàn)。而作為致力于在全球范圍內(nèi)引領(lǐng)和推動數(shù)據(jù)隱私保護(hù)下的AI協(xié)作生態(tài)建設(shè)的微眾銀行AI團(tuán)隊,也必將與諸多企業(yè)機構(gòu)一起,共建行業(yè)更美好的未來。