曲率空間學(xué)習(xí)框架開源:AI換軌,坐上曲率飛船
曲率是一個(gè)衡量空間彎曲程度的量,曲率越接近零,空間越平坦。在科幻小說(shuō)《三體》中,人類正是利用空間曲率的變化建造出曲率飛船。
AI所需的海量數(shù)據(jù)與計(jì)算往往基于曲率為零的歐氏空間,這潛在制約了表達(dá)能力。阿里媽媽技術(shù)團(tuán)隊(duì)發(fā)現(xiàn),曲率空間能更精準(zhǔn)的建模圖數(shù)據(jù)結(jié)構(gòu),此次開源的曲率空間學(xué)習(xí)框架,包含流形、算子、模型及黎曼優(yōu)化器整套深度學(xué)習(xí)流程,用戶可便捷的將模型遷移到曲率空間中,從而給AI的發(fā)展打開一條新通路。
想象一下,使用曲率空間建模就像“吹起一個(gè)氣球”。假設(shè)一個(gè)干癟的氣球表面上有十億個(gè)節(jié)點(diǎn),這會(huì)是非常致密的狀態(tài)。隨著氣球逐漸充氣變大,氣球表面越來(lái)越“彎曲”,節(jié)點(diǎn)之間就分的越開,構(gòu)成的形狀也越立體,我們就能越好的觀察這些節(jié)點(diǎn)并進(jìn)行區(qū)分。
曲率空間正如一個(gè)膨脹的氣球表面,相對(duì)于同樣大小的歐氏空間,它能容納的數(shù)據(jù)更多,而且對(duì)樹、環(huán)等幾何特性展現(xiàn)的更全面精準(zhǔn)。基于圖數(shù)據(jù)Cora的實(shí)驗(yàn)證明,替換歐氏空間為曲率空間,模型能提升約8%的預(yù)測(cè)精度。
阿里媽媽技術(shù)人士表示,該技術(shù)已經(jīng)在阿里媽媽業(yè)務(wù)中展現(xiàn)出很高的應(yīng)用潛力?;谔詫毸阉鲝V告場(chǎng)景,曲率空間能精準(zhǔn)建模十億級(jí)商家與用戶的交互行為,利用空間曲率變化實(shí)現(xiàn)數(shù)據(jù)的“定向放大”與“精準(zhǔn)分割”。系統(tǒng)全量上線后,存儲(chǔ)消耗量降低80%,用戶側(cè)請(qǐng)求匹配精準(zhǔn)度相對(duì)提升15%。
該技術(shù)有望廣泛應(yīng)用到其他行業(yè),引領(lǐng)新一輪的AI落地浪潮。業(yè)內(nèi)專家表示,曲率空間可以建模地球表面的云層運(yùn)動(dòng)軌跡,航空航海路線等,也能表征物流運(yùn)輸圖、資源流動(dòng)圖等。從更及時(shí)的天氣預(yù)報(bào)、更精準(zhǔn)的地圖導(dǎo)航,到更高效的物流運(yùn)輸、更公平的社會(huì)資源分配,此項(xiàng)新技術(shù)能切實(shí)改善人們的生活。
聯(lián)邦學(xué)習(xí)解決方案開源:兼收并蓄,開放共建
聯(lián)邦學(xué)習(xí)是2016年由谷歌提出,在保護(hù)終端隱私的前提下進(jìn)行機(jī)器學(xué)習(xí),幫助廣告主實(shí)現(xiàn)跨公司多端投放的解決方案。通俗一點(diǎn)講,聯(lián)邦學(xué)習(xí)就像幾位老師傅共同訓(xùn)練一個(gè)徒弟,老師傅們各有所長(zhǎng),卻互相防備不能共享,而徒弟則兼收并蓄,融會(huì)貫通,集合各家所長(zhǎng),終學(xué)有所成。
據(jù)了解,阿里媽媽此次開源的聯(lián)邦學(xué)習(xí)解決方案,更加關(guān)注隱私保護(hù)和加密計(jì)算,并在此基礎(chǔ)上建立APP孤島的信息鏈接,構(gòu)建機(jī)器學(xué)習(xí)模型,在高并發(fā)、加密性、易用性和產(chǎn)品化等方面提供更好支持,方便多方在超大規(guī)模稀疏場(chǎng)景下進(jìn)行聯(lián)邦學(xué)習(xí)的合作與實(shí)踐。
具體而言,聯(lián)邦學(xué)習(xí)解決方案具備以下特點(diǎn):
1. 大規(guī)模高可用:云原生實(shí)現(xiàn)方案支持百億規(guī)模數(shù)據(jù)求交;多種驗(yàn)證方式保證最終結(jié)果的完整性和正確性;精簡(jiǎn)的訓(xùn)練交互協(xié)議與高效的底層實(shí)現(xiàn),保證分布式訓(xùn)練的高吞吐;精細(xì)的狀態(tài)恢復(fù)與模型校驗(yàn),確保分布式容災(zāi)的正確性。
2.加密保護(hù)隱私:通過(guò)數(shù)據(jù)安全與計(jì)算安全兩種手段以保障用戶隱私,支持多種隱私保護(hù)方案以提供安全和性能的最佳平衡。
3.更強(qiáng)大更便捷:首次開源了基于水平聚合、層次聚合的兩種模型,并通過(guò)可視化web界面方便任務(wù)流程的開發(fā)、配對(duì)、調(diào)度和管理,極大地提升迭代效率。
依托于聯(lián)邦學(xué)習(xí)解決方案,阿里媽媽Unidesk產(chǎn)品已助力珀萊雅、卡姿蘭、薇諾娜、花西子、修正等多個(gè)企業(yè)實(shí)現(xiàn)品牌和業(yè)務(wù)雙豐收。據(jù)了解,花西子采用Unidesk產(chǎn)品以后,經(jīng)營(yíng)效果提升明顯,短短2個(gè)月時(shí)間,品牌ROI提升15%,且放量也在逐步提高。
未來(lái),該技術(shù)可以擴(kuò)展到金融、醫(yī)療共建等場(chǎng)景,普適性較高。
將開源進(jìn)行到底
此次開源,延續(xù)了阿里媽媽“將開源進(jìn)行到底”的一貫做法。從2015年開始,阿里媽媽技術(shù)團(tuán)隊(duì)將大規(guī)模深度學(xué)習(xí)、圖學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等多項(xiàng)AI技術(shù)深度應(yīng)用到業(yè)務(wù),引領(lǐng)了AI在互聯(lián)網(wǎng)廣告領(lǐng)域的探索和大規(guī)模應(yīng)用,并沉淀出多個(gè)業(yè)內(nèi)領(lǐng)先的AI工程系統(tǒng)。
2018年11月,阿里媽媽對(duì)外開源了業(yè)界首個(gè)面向高維稀疏場(chǎng)景的大規(guī)模工業(yè)級(jí)訓(xùn)練引擎XDL,并同時(shí)開源包含深度興趣網(wǎng)絡(luò)(DIN)、深度興趣進(jìn)化網(wǎng)絡(luò)(DIEN)、深度樹匹配(TDM)在內(nèi)的多個(gè)工業(yè)級(jí)創(chuàng)新算法。在GitHub上,XDL項(xiàng)目開源一個(gè)月內(nèi)所獲星贊數(shù)超過(guò)1000個(gè),到現(xiàn)在已有4000多星贊,近1000次復(fù)制使用。
2019年1月,阿里媽媽的大規(guī)模圖深度學(xué)習(xí)框架Euler正式對(duì)外開源,在工業(yè)界引起巨大反響的同時(shí),也引起學(xué)術(shù)界關(guān)注。2021年4月,Euler2.0發(fā)布,通用性和靈活性得到進(jìn)一步提升。在GitHub網(wǎng)站上,Euler項(xiàng)目現(xiàn)在已經(jīng)有超過(guò)2500個(gè)星贊和500次復(fù)制使用。