8月29日,2019世界人工智能大會(WAIC)于上海世博中心拉開帷幕,海內(nèi)外大咖齊聚,學(xué)術(shù)界工業(yè)界交匯,共話人工智能未來。微眾銀行首席人工智能官楊強教授在大會主論壇——“科學(xué)前沿”演講時表示,聯(lián)邦學(xué)習(xí)已經(jīng)成為AI在學(xué)術(shù)界和工業(yè)界的新趨勢,未來行業(yè)面臨的社會大眾的要求和監(jiān)管會越來越嚴(yán)格,聯(lián)邦學(xué)習(xí)能夠在滿足用戶隱私保護(hù)和數(shù)據(jù)安全需求的同時,實現(xiàn)多方共贏。
微眾銀行作為聯(lián)邦學(xué)習(xí)的國內(nèi)首倡者和領(lǐng)導(dǎo)者,在楊強教授的帶領(lǐng)下首次提出了“聯(lián)邦遷移學(xué)習(xí)”,并通過領(lǐng)銜聯(lián)邦學(xué)習(xí)國際標(biāo)準(zhǔn)(IEEE標(biāo)準(zhǔn))制定、開源自研聯(lián)邦學(xué)習(xí)框架Federated AI Technology Enabler(簡稱FATE)等來推動聯(lián)邦學(xué)習(xí)技術(shù)在行業(yè)中的落地。
以下為微眾銀行首席人工智能官楊強教授演講全文:
大家好,今天非常高興跟大家討論這樣一個題目——人工智能最后一公里。為什么會起這樣一個題目呢?現(xiàn)在我在微眾銀行負(fù)責(zé)人工智能的工作,接觸到很多人工智能的應(yīng)用場景。像微眾銀行這樣一個互聯(lián)網(wǎng)銀行,它服務(wù)的用戶數(shù)已經(jīng)超過了1.7億,提供服務(wù)主要借助的手段就是人工智能和機器人。在服務(wù)過程中有很多環(huán)節(jié),比方說業(yè)務(wù)咨詢、審核批準(zhǔn)貸款文件、對申請人進(jìn)行人臉識別、語音識別等身份核驗、客服問答等。在金融領(lǐng)域,不僅要建立用戶畫像和模型找到用戶,更要建立一整條長鏈路來服務(wù)廣大的用戶。
我們已經(jīng)很熟悉這些人工智能領(lǐng)域的應(yīng)用,但我想說的是,這些應(yīng)用都離不開一個元素——數(shù)據(jù),尤其是大數(shù)據(jù)。但是我們看看我們的周邊,卻發(fā)現(xiàn)數(shù)據(jù)非常有限。在法律領(lǐng)域,積累一條有效的數(shù)據(jù)是需要很長時間的;在金融領(lǐng)域,尤其是大額貸款、理財領(lǐng)域,有效的數(shù)據(jù)也是非常少的;在醫(yī)療領(lǐng)域面臨的是數(shù)據(jù)割裂的現(xiàn)象,每個醫(yī)院都有很多的醫(yī)療影像數(shù)據(jù),卻出于監(jiān)管、安全、利益等原因不能夠互相傳遞,無法形成合力。
在這種情況下,數(shù)據(jù)聚合的需求十分強烈,卻很難得到滿足。其中有一個很重要的原因是社會對于用戶隱私的要求越來越高。現(xiàn)在世界各地的監(jiān)管機構(gòu)紛紛出臺強有力的法規(guī),比方說歐盟在去年正式提出《通用數(shù)據(jù)保護(hù)條例》(GDPR),對個人隱私、個人數(shù)據(jù)的擁有權(quán),包括模型的使用和可解釋性都提出了非常嚴(yán)格的要求。中國的法律也在快步推進(jìn),連續(xù)出臺了一系列關(guān)于用戶隱私、用戶數(shù)據(jù)安全和擁有權(quán)的法規(guī),也將會嚴(yán)格限制企業(yè)之間的數(shù)據(jù)交換。
我們一方面面臨數(shù)據(jù)割裂,沒有大數(shù)據(jù)來訓(xùn)練人工智能;另一方面,法律法規(guī)和社會對安全的嚴(yán)格要求又限制了數(shù)據(jù)的融合。大數(shù)據(jù)變成了人工智能的挑戰(zhàn)。
我們?nèi)绾螒?yīng)對這個挑戰(zhàn)?放棄人工智能嗎?僅允許擁有大數(shù)據(jù)的公司來做人工智能嗎?這都不對,我們的回答是,要積極地尋找一些新的技術(shù)方向來解決數(shù)據(jù)挑戰(zhàn)。
我們提出的方法和方向叫做“聯(lián)邦學(xué)習(xí)”,英文叫“Federated Learning”。數(shù)據(jù)的各個擁有方,在各自數(shù)據(jù)不出本地的情況下建立模型,并且讓這個模型能夠共享,那么在建立模型的過程中便不會侵犯用戶的隱私,整個建模的過程就叫聯(lián)邦學(xué)習(xí)的框架和算法。
Google在2016年就開始進(jìn)行一個項目,在安卓系統(tǒng)的手機用戶中建立聯(lián)邦學(xué)習(xí),解決用戶個人終端設(shè)備的數(shù)據(jù)隱私問題。首先初始化模型下載到各終端,各終端根據(jù)自己本身的數(shù)據(jù)更新模型參數(shù),不同的終端就會產(chǎn)生不同的更新結(jié)果,這些更新被送到云端進(jìn)行聚合,匯總后的模型參數(shù)將作為下一次更新的初始參數(shù),這樣一直迭代直到收斂。用這樣的一個方法既能保證用戶隱私,同時又能共享一個通用模型,利用群體智能在云端不斷更新。
這樣的模型不僅需要一個機器學(xué)習(xí)算法,更需要一個分布式的機器學(xué)習(xí)算法。在分布式的機器學(xué)習(xí)算法之上,還要有各種加密的算法。在這個基礎(chǔ)上,我們仔細(xì)地分析了一下,發(fā)現(xiàn)一共有三種模式來進(jìn)行聯(lián)邦學(xué)習(xí)。
第一種模式叫橫向聯(lián)邦學(xué)習(xí),是指當(dāng)兩個數(shù)據(jù)集的用戶不同,重疊較少,但用戶特征重疊較多時,我們把數(shù)據(jù)集按照橫向 (即用戶維度) 切分,并取出雙方用戶特征相同而用戶不完全相同的那部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練。
第二種叫做縱向聯(lián)邦學(xué)習(xí),是說兩個數(shù)據(jù)集的用戶特征重疊較少,但它們卻有較多的重疊用戶,那么我們就把數(shù)據(jù)集按照縱向 (即特征維度) 切分,并取出雙方用戶相同而用戶特征不完全相同的那部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練。
最后,如果兩個數(shù)據(jù)集既不重疊用戶特征,又不重疊用戶,那么在這個場景下,我們也提出一個新的算法,叫做聯(lián)邦遷移學(xué)習(xí)。它可以利用遷移學(xué)習(xí)的算法,把這兩方數(shù)據(jù)模型的本質(zhì)挖掘出來,把抽象的模型加以聚合,在聚合的過程中保護(hù)用戶隱私,也取得非常大的成功。
雖然聯(lián)邦學(xué)習(xí)的框架最近才提出來,但是它在產(chǎn)業(yè)界的應(yīng)用已經(jīng)有成熟的進(jìn)展。比方說我們最近在一個金融信貸的場景下就取得了非常成功的應(yīng)用:一方是互聯(lián)網(wǎng)企業(yè),有很多用戶的行為數(shù)據(jù);另一方是金融企業(yè)——銀行,需要建立一個更準(zhǔn)確的用戶信貸模型。這時利用縱向聯(lián)邦學(xué)習(xí),把兩邊的模型加以共享,進(jìn)行更新,這樣模型就能夠更有利,隨著數(shù)據(jù)量的增加,效果也大為增加。以下是效果圖。
同時,我們也嘗試了很多不同的應(yīng)用場景,比方說在城市管理領(lǐng)域,利用散落在各地的割裂的計算機視覺數(shù)據(jù)來建立一個安全、共享的模型;在語音識別領(lǐng)域,不同的機構(gòu)有不同的語音數(shù)據(jù),不同的服務(wù)中心,它們也可以建立一個聯(lián)邦學(xué)習(xí)來解決用戶隱私的問題。
剛剛講的這些應(yīng)用都離不開一個概念,叫做生態(tài)。聯(lián)邦學(xué)習(xí)生態(tài)的建立需要我們不斷地去倡導(dǎo)。我們在學(xué)術(shù)界和工業(yè)界也做了一系列的推動工作,包括在剛剛結(jié)束的第28屆國際人工智能聯(lián)合會議(IJCAI 2019)上舉辦了首屆國際聯(lián)邦學(xué)習(xí)研討會;在Linux?Foundation開放了全球首個聯(lián)邦學(xué)習(xí)的開源項目,叫FATE(Federated AI Technology Enabler),和更多的開發(fā)者一起為聯(lián)邦學(xué)習(xí)開源做出積極貢獻(xiàn)。同時,我們也正在建立一個聯(lián)邦學(xué)習(xí)國際標(biāo)準(zhǔn)(IEEE標(biāo)準(zhǔn)),讓不同的機構(gòu)之間可以有共同的語言,在建立聯(lián)邦學(xué)習(xí)共同模型的時候大家的溝通會更敏捷;在國內(nèi),我們也取得了很大的成就,牽頭建立國內(nèi)首個關(guān)于聯(lián)邦學(xué)習(xí)的團(tuán)體規(guī)范標(biāo)準(zhǔn)——《信息技術(shù)服務(wù) 聯(lián)邦學(xué)習(xí) 參考架構(gòu)》團(tuán)體標(biāo)準(zhǔn)。
最后,機器學(xué)習(xí)離不開大數(shù)據(jù),大數(shù)據(jù)離不開安全和保護(hù)隱私的考慮。聯(lián)邦學(xué)習(xí)是一個既能建立大數(shù)據(jù)模型,又能保護(hù)數(shù)據(jù)安全和用戶隱私的有利的工具,希望更多的人能加入我們一起建立聯(lián)邦學(xué)習(xí)生態(tài)。謝謝大家!