人工智能經(jīng)過漫長發(fā)展,近些年在算法、算力、數(shù)據(jù)上取得巨大突破,得以在行業(yè)應(yīng)用中嶄露頭角,發(fā)揮著舉足輕重的作用。不過隨之而來是一系列的新問題——比如大多數(shù)行業(yè)中數(shù)據(jù)分散形成的「數(shù)據(jù)孤島」,以及越來越受到關(guān)注的「數(shù)據(jù)隱私保護(hù)」問題。針對數(shù)據(jù)孤島和數(shù)據(jù)隱私的兩難困境, 微眾銀行AI團(tuán)隊提出了基于“聯(lián)邦學(xué)習(xí)”的系統(tǒng)性的通用解決方案,并在GitHub上開源工業(yè)級的聯(lián)邦學(xué)習(xí)技術(shù)框架FATE,能有效幫助多個機(jī)構(gòu)在滿足用戶隱私保護(hù)、數(shù)據(jù)安全和政府法規(guī)的前提下,進(jìn)行多方數(shù)據(jù)使用和聯(lián)合建模。目前微眾AI已經(jīng)推動FATE在信貸風(fēng)控、監(jiān)管科技、零售、保險等領(lǐng)域的一系列應(yīng)用落地。
聯(lián)邦學(xué)習(xí)的時代背景
陳天健指出,深度學(xué)習(xí)是技術(shù)的選擇,聯(lián)邦學(xué)習(xí)是歷史的選擇。隨著經(jīng)濟(jì)全球化的發(fā)展,互聯(lián)網(wǎng)時代的到來,產(chǎn)生了海量的數(shù)據(jù),深刻地影響著各行各業(yè)。但是伴隨著國外GDPR(《通用數(shù)據(jù)保護(hù)條例》,General Data Protection Regulation)等一系列數(shù)據(jù)隱私保護(hù)法律法規(guī)出臺,數(shù)據(jù)隱私保護(hù)與數(shù)據(jù)安全問題愈發(fā)受到關(guān)注。
國內(nèi)數(shù)據(jù)監(jiān)管法律體系研究
同時,國內(nèi)數(shù)據(jù)監(jiān)管法律體系也在不斷完善中,并且體現(xiàn)出了兩個特點:
l 嚴(yán)格化:數(shù)據(jù)監(jiān)管越來越嚴(yán)格,處罰手段越來越嚴(yán)厲;
l 全面化:從個人信息數(shù)據(jù)的保護(hù),到科學(xué)數(shù)據(jù)、醫(yī)療數(shù)據(jù)、電商數(shù)據(jù)等多種數(shù)據(jù)的保護(hù)。
在這種背景下,如何合理合法地運(yùn)用大數(shù)據(jù),讓業(yè)務(wù)可以持續(xù)運(yùn)行下去,就需要聯(lián)邦學(xué)習(xí)技術(shù)。
微眾銀行 AI部門副總經(jīng)理 陳天健
陳天健表示,聯(lián)邦學(xué)習(xí)是一種面向安全合規(guī)的大數(shù)據(jù)合作機(jī)器學(xué)習(xí)技術(shù),和其他技術(shù)最本質(zhì)的區(qū)別在于:聯(lián)邦學(xué)習(xí)是大數(shù)據(jù)合作過程中權(quán)責(zé)和利益的調(diào)整工具,是順應(yīng)當(dāng)前時代背景而產(chǎn)生的。聯(lián)邦學(xué)習(xí)的應(yīng)用場景也十分廣泛,并沒有特別的領(lǐng)域或者具體算法限制,微眾銀行已經(jīng)在信貸風(fēng)控、智慧城市管理、機(jī)器視覺、裝備故障檢測等各行各樣的應(yīng)用中和領(lǐng)域合作伙伴開展技術(shù)合作,推動聯(lián)邦學(xué)習(xí)社區(qū)進(jìn)一步發(fā)展。
無論是中國人工智能開源軟件發(fā)展聯(lián)盟(AIOSS)發(fā)布國內(nèi)首個聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn),還是越來越多合作咨詢紛至沓來,大量企業(yè)機(jī)構(gòu)都已關(guān)注到了聯(lián)邦學(xué)習(xí)。現(xiàn)已有多個行業(yè)機(jī)構(gòu)與我們進(jìn)一步探討聯(lián)邦學(xué)習(xí)的應(yīng)用落地,解決數(shù)據(jù)隱私這一越來越嚴(yán)重且全世界人類都在關(guān)注的問題。聯(lián)邦學(xué)習(xí)未來可期。
FATE:新一代聯(lián)邦學(xué)習(xí)技術(shù)及應(yīng)用實踐
人工智能技術(shù)的應(yīng)用和落地,現(xiàn)實和理想往往有很大差距:
理想:數(shù)據(jù)質(zhì)量好、標(biāo)簽數(shù)據(jù)充足、數(shù)據(jù)集中;
現(xiàn)實:數(shù)據(jù)質(zhì)量差、缺乏標(biāo)簽數(shù)據(jù)、數(shù)據(jù)分散隔離,80%以上的企業(yè)存在數(shù)據(jù)孤島問題。
聯(lián)邦學(xué)習(xí)的分類體系
范濤指出,聯(lián)邦學(xué)習(xí)是解決上述問題的關(guān)鍵技術(shù)。其具有:數(shù)據(jù)隔離數(shù)據(jù)孤島、無損、對等、共同獲益等特點,根據(jù)使用場景的不同,聯(lián)邦學(xué)習(xí)可以分為:縱向聯(lián)邦學(xué)習(xí)、橫向聯(lián)邦學(xué)習(xí)以及聯(lián)邦遷移學(xué)習(xí)。
微眾銀行 高級研究員 范濤
目前聯(lián)邦學(xué)習(xí)已經(jīng)賦能多個領(lǐng)域:
l 銀行+監(jiān)管:聯(lián)合反洗錢建模
l 互聯(lián)網(wǎng)+銀行:聯(lián)合信貸風(fēng)控建模
l 互聯(lián)網(wǎng)+保險:聯(lián)合權(quán)益定價建模
l 互聯(lián)網(wǎng)+零售:聯(lián)合客戶價值建模
遇見 FATE
最后,范濤為大家介紹了微眾銀行主導(dǎo)的聯(lián)邦學(xué)習(xí)開源項目FATE(Federated AI Technology Enabler)。其核心功能有:
l FATE-Serving:聯(lián)邦在線模型服務(wù)
l FATE-Flow & FATE-Board:聯(lián)邦建模Pipeline和可視化
l FATE FederatedML:聯(lián)邦學(xué)習(xí)算法各個功能組件
l EggRoll:分布式計算和存儲抽象
l Federated Network:跨站點網(wǎng)絡(luò)通信抽象
構(gòu)建端到端的聯(lián)邦學(xué)習(xí) Pipeline 生產(chǎn)服務(wù)
聯(lián)邦學(xué)習(xí)的優(yōu)勢在于能夠保證參與各方在數(shù)據(jù)不出本地,保持?jǐn)?shù)據(jù)獨(dú)立性的情況下,多方共建模型,共同提升機(jī)器學(xué)習(xí)效果。聯(lián)邦機(jī)制下,安全隱私有了優(yōu)勢,但技術(shù)上也會面臨更多挑戰(zhàn)。作為一個工業(yè)級的框架,端到端的聯(lián)邦學(xué)習(xí)Pipeline致力于完成高彈性、高性能的聯(lián)邦學(xué)習(xí)任務(wù),主要包括建模、訓(xùn)練、模型管理、生產(chǎn)發(fā)布和在線推理幾個方面。
端到端的聯(lián)邦學(xué)習(xí)Pipeline
曾紀(jì)策分享了如何靈活調(diào)度管理復(fù)雜的聯(lián)邦學(xué)習(xí)任務(wù)、可視化聯(lián)邦建模的實現(xiàn)以及在線聯(lián)邦推理服務(wù)的思考與實踐,解決實驗性機(jī)器學(xué)習(xí)到實際生產(chǎn)應(yīng)用落地的難點。
微眾銀行 AI系統(tǒng)架構(gòu)師 曾紀(jì)策
曾紀(jì)策重點介紹了:FATE-Flow,端到端的聯(lián)邦學(xué)習(xí)Pipeline調(diào)度平臺。包括如下特性:
l DAG定義聯(lián)邦學(xué)習(xí)Pipeline:多方非對稱Pipeline DAG、通用json格式DAG DSL、DSL-Parser
l 聯(lián)邦任務(wù)協(xié)同調(diào)度:多方任務(wù)隊列管理、協(xié)同分發(fā)任務(wù)、任務(wù)一致性保證、多方狀態(tài)同步等
l 聯(lián)邦模型管理:聯(lián)邦模型存取、聯(lián)邦模型一致性、版本管理、發(fā)布管理等
l 聯(lián)邦任務(wù)生命周期管理:多方啟停、狀態(tài)檢測等
l 聯(lián)邦任務(wù)輸入輸出實時追蹤:數(shù)據(jù)、模型、自定義指標(biāo)、日志等實時記錄存儲
分享的最后,曾紀(jì)策呼吁大家一起:“Join FATE,Let’s Federated Everything!”
神盾沙箱:數(shù)據(jù)合作與安全多方計算揭秘
在數(shù)字賦能的浪潮中,機(jī)器學(xué)習(xí)的應(yīng)用場景非常多。而機(jī)器學(xué)習(xí)又是對數(shù)據(jù)質(zhì)量要求極高的應(yīng)用,產(chǎn)生了較大的數(shù)據(jù)流通性。無論是特征工程,還是模型訓(xùn)練和預(yù)測,當(dāng)需要數(shù)據(jù)合作并保護(hù)數(shù)據(jù)的安全隱私時,安全多方計算技術(shù)、聯(lián)邦學(xué)習(xí)等就有了很大的用武之地。騰訊云神盾數(shù)據(jù)沙箱基于騰訊現(xiàn)有數(shù)字生態(tài),為數(shù)據(jù)合作提供安全可信的機(jī)器學(xué)習(xí)平臺,覆蓋業(yè)務(wù)拉新、聯(lián)合建模與上線服務(wù)等場景。
沙箱分布式合作建模
張雄指出:安全多方計算MPC是指針對無可信第三方情況下,安全的進(jìn)行多方協(xié)同的計算問題。
常用安全多方計算技術(shù)有:
l 秘密分享
l 混淆電路
l 不經(jīng)意傳輸
l 同態(tài)加密
騰訊 神盾沙箱產(chǎn)品技術(shù)負(fù)責(zé)人 張雄
在分享環(huán)節(jié),張雄首先為大家介紹了MPC中的四個基礎(chǔ)技術(shù)。然后從小到大的業(yè)務(wù)場景,系統(tǒng)的講解了神盾沙箱的數(shù)據(jù)合作業(yè)務(wù)中,如何應(yīng)用MPC技術(shù)和聯(lián)邦機(jī)器學(xué)習(xí)保護(hù)兩個合作方之間的數(shù)據(jù)安全問題。張雄表示,聯(lián)邦學(xué)習(xí)框架FATE,可以讓沙箱做到不交互數(shù)據(jù)資產(chǎn)方和業(yè)務(wù)方的原始數(shù)據(jù),達(dá)到數(shù)據(jù)隱私保護(hù)的目的又可以完成業(yè)務(wù)上的數(shù)據(jù)合作。
最后,張雄講到,神盾沙箱的目標(biāo)是以騰訊云公有云上現(xiàn)有的大數(shù)據(jù)生態(tài)為基礎(chǔ),為那些具備計算或者存儲能力的大數(shù)據(jù)集群提供一個數(shù)據(jù)合作的環(huán)境,助力騰訊云上的各行各業(yè)更好的體會到“科技向善,數(shù)字賦能”的優(yōu)勢。在未來的規(guī)劃中,會從兩個方面來推進(jìn)FATE在深度沙箱中的應(yīng)用。一方面,神盾沙箱會推動公有云上現(xiàn)有的數(shù)據(jù)資產(chǎn)方使用沙箱部署FATE,幫助那些在己方行業(yè)維度上有數(shù)據(jù)優(yōu)勢的企業(yè),更深入的挖掘數(shù)據(jù)的價值,融入到互聯(lián)網(wǎng)數(shù)字生態(tài)中。另一方面,神盾數(shù)據(jù)沙箱希望借助FATE打造騰訊云上的數(shù)字生態(tài),吸引那些需要更多數(shù)據(jù)來提高業(yè)務(wù)轉(zhuǎn)化率的企業(yè),遷移到騰訊云上,實際體會數(shù)字賦能的魅力。
此次沙龍為我們揭示了聯(lián)邦學(xué)習(xí)作為一種可行的辦法如何打破數(shù)據(jù)孤島。對于聯(lián)邦學(xué)習(xí)的研究與落地探索不會停止,F(xiàn)ATE也將不斷提升。面對聯(lián)邦學(xué)習(xí)的未來,陳天健表示:“目前聯(lián)邦學(xué)習(xí)的應(yīng)用主要受限于網(wǎng)絡(luò)帶寬與芯片的計算力,我們現(xiàn)在主要還是在數(shù)據(jù)中心做聯(lián)邦學(xué)習(xí),這兩者都能比較好地滿足。如果未來需要在手機(jī)等邊緣設(shè)備上做聯(lián)邦學(xué)習(xí),那么更大帶寬的通訊技術(shù)和更強(qiáng)勁的邊緣算力必不可少。我非??春?5G 通訊技術(shù),它能為聯(lián)邦學(xué)習(xí)帶來足夠的帶寬,同時隨著手機(jī)芯片越來越強(qiáng),聯(lián)邦學(xué)習(xí)落地到廣大移動端設(shè)備并不會太遠(yuǎn)。”