伴隨著計算力、算法和數據量的巨大進步,人工智能迎來第三次發(fā)展高潮,開始了各行業(yè)的落地探索。然而,在“大數據”興起的同時,數據分散的情況也越發(fā)明顯,“數據孤島”現象廣泛存在。隨著政策法規(guī)的逐漸完善和公眾隱私保護意識的加強,隱私安全、數據保護等原因限制著數據不能輕易互通,如何在保護數據隱私的前提下實現行業(yè)協(xié)作與協(xié)同治理,是大數據時代人工智能行業(yè)應用的一大難題。

多方獲益,聯(lián)邦學習破解“數據孤島”難題

“聯(lián)邦學習”(Federated Learning)指的是在滿足隱私保護和數據安全的前提下,設計一個機器學習框架,使各個機構在不交換數據的情況下進行協(xié)作,提升機器學習的效果。其核心就是解決數據孤島和數據隱私保護的問題,通過建立一個數據“聯(lián)邦”,讓參與各方都獲益,推動技術整體持續(xù)進步。大會上,來自微眾銀行AI部門的高級算法工程師黃啟軍也為觀眾展示了聯(lián)邦學習的落地案例之一——視覺橫向聯(lián)邦學習系統(tǒng)。

黃啟軍提到,在目標檢測領域,已標注數據是非常珍貴的資源,各家公司一般都有各自不同場景的標注數據,但這些數據相對散亂,如想利用其它公司已標注好的數據模型來建立更優(yōu)模型,只能通過拷貝聚攏數據,但這種行為不符合GDPR、《數據安全管理辦法》等法律規(guī)范。而引入橫向聯(lián)邦學習機制以后,個體可以在本地設備中直接標注數據,無需上傳。本地模型的訓練數據標注完成后,客戶端將自動加入聯(lián)邦,等待進行訓練,當有兩臺設備進入到等待訓練狀態(tài)時,則開始進行聯(lián)邦學習訓練模式。

視覺橫向聯(lián)邦學習系統(tǒng)示意

這一案例真實展現了聯(lián)邦學習技術的價值,相比于單點模型,聯(lián)邦學習使得本地設備的mAP大幅提升,同時Lossless更加穩(wěn)定。mAP平均提升15%的數據顯示,整體上聯(lián)邦學習遠比單點模型效果更佳。

深度創(chuàng)新,GPU加速聯(lián)邦學習再升級

作為一門具有前景的新興技術,聯(lián)邦學習為了完成隱私保護下的機器學習,使用了很多與傳統(tǒng)機器學習不一樣的方法,也因此迎來了諸多新挑戰(zhàn)。在會上,黃啟軍也分享了微眾銀行AI部門攜手星云Clustar突破的聯(lián)邦學習計算三大難題:

首先就是大整數運算問題,傳統(tǒng)機器學習一般使用的是32-bit的基本運算,這些基本運算一般都有芯片指令的直接支持,而聯(lián)邦學習中的Paillier/RSA算法依賴的是1024或2048-bit 甚至更長的大整數運算,但現實情況是,GPU流處理器并不直接支持大整數運算。面對這一情況,雙方基于分治思想做元素級并行,通過遞歸將大整數乘法分解成可并行計算的小整數乘法,從而實現“化繁為簡”,間接完成GPU流處理器的大整數運算。

通過遞歸將大整數乘法分解成可并行計算的小整數乘法示意

其次,大整數運算中多是模冪、模乘等復雜運算,即ab mod c (a,b,c均為N比特大整數),而GPU做模冪等運算的代價極大,傳統(tǒng)的樸素算法會優(yōu)先計算ab,再計算值對c取模,這一算法的缺點是復雜度高達O(2^N),且中間乘積結果很大。而單一的平方乘算法則是通過ak = (ak/2)2 = ((ak/4)2)2實現,雖然復雜度下降至O(N),且中間結果大小不超過c,但因為需要做2N次取模運算,GPU在此項上花費時間極高。而雙方摘取平方乘算法優(yōu)勢,并加入蒙哥馬利模乘算法計算模乘,就完全避免了取模運算,大幅度降低了GPU的消耗。

最后,在分布式計算時,聯(lián)邦學習不止涉及數據中心內網傳輸,也有廣域網傳輸的場景,且密文數據體積要增加幾十倍,傳輸的次數也是傳統(tǒng)機器學習的幾倍,雙方通過RDMA網絡技術加上自研的動態(tài)參數聚合模型技術以及機器學習專業(yè)的網絡傳輸協(xié)議,對聯(lián)邦學習在數據中心內通信場景以及跨廣域網通信場景都進行了很好的性能優(yōu)化。

走在前沿,聯(lián)邦學習推動AI行業(yè)大變革

聯(lián)邦學習近年來在學術研究、標準制定和行業(yè)落地等方面發(fā)展迅速,有望成為下一代人工智能協(xié)同算法和協(xié)作網絡的基礎,全球范圍內也正在掀起“聯(lián)邦學習”的熱潮。從GPU加速聯(lián)邦學習這樣的底層技術研究,到IJCAI 2019首屆聯(lián)邦學習國際研討會等學術交流,再到IEEE標準制定推動行業(yè)規(guī)范化,聯(lián)邦學習在人工智能領域漸露崢嶸,在該領域的影響力顯著提升。而在工具層面,也有諸多企業(yè)機構開展研發(fā),如微眾銀行AI團隊開源的全球首個工業(yè)級的聯(lián)邦學習技術框架 Federated AI Technology Enabler(FATE),不僅提供一系列開箱即用的聯(lián)邦學習算法,更重要的是給開發(fā)者提供了實現聯(lián)邦學習算法和系統(tǒng)的范本,使大部分傳統(tǒng)算法可以經過改造適配到聯(lián)邦學習框架中,從而快速加入聯(lián)邦生態(tài)。

此外,在行業(yè)應用落地方面,聯(lián)邦學習也扇動了一股“變革”的颶風:在金融領域,基于該技術的多家機構聯(lián)合風控模型能更準確地識別信貸風險,聯(lián)合反欺詐。多家銀行建立的聯(lián)邦反洗錢模型,能解決該領域樣本少、數據質量低問題,在微眾銀行的實踐中AUC顯著提升12%。

在智慧零售領域,該技術能有效提升信息和資源匹配的效率。例如,銀行擁有用戶購買能力的特征,社交平臺擁有用戶個人偏好特征,電商平臺則擁有產品特點的特征,聯(lián)邦學習能在保護三方數據隱私的基礎上進行聯(lián)合建模,為用戶提供更精準的產品推薦等服務,從而打破數據壁壘,構建跨領域合作,經應用實踐,采購備貨準確率提升可達21.4%。

聯(lián)邦學習是大數據使用的未來范式,也是破解數據隱私保護難題的新思路。人工智能不僅是一個工具,更應該是讓社會更加公平美好的強大推動力。聯(lián)邦學習勢必將在未來助力更多行業(yè)、更多場景發(fā)揮無限潛能,推動AI普惠的實現。而作為致力于在全球范圍內引領和推動數據隱私保護下的AI協(xié)作生態(tài)建設的微眾銀行AI團隊,也必將與諸多企業(yè)機構一起,共建行業(yè)更美好的未來。

分享到

songjy

相關推薦