神經(jīng)網(wǎng)絡(luò)強(qiáng)大的表示學(xué)習(xí)能力真的在結(jié)構(gòu)化數(shù)據(jù)上無法展現(xiàn)威力嗎?近日由國(guó)內(nèi)的數(shù)據(jù)科學(xué)平臺(tái)領(lǐng)導(dǎo)廠商——九章云極發(fā)布的開源項(xiàng)目DeepTables正在打破這個(gè)局面。DeepTables(簡(jiǎn)稱DT)經(jīng)過大量的測(cè)試驗(yàn)證,在使用相同數(shù)據(jù)訓(xùn)練模型的條件下,DT在70%以上的測(cè)試數(shù)據(jù)集上超越XGBoost和LightGBM,DT團(tuán)隊(duì)后續(xù)會(huì)發(fā)布詳細(xì)的測(cè)試報(bào)告。在3月31日剛剛結(jié)束的Kaggle競(jìng)賽Categorical Feature Encoding Challenge II 中DT團(tuán)隊(duì)獲得了第1名的成績(jī),其中DT的一個(gè)單模型得到第3名,這在Kaggle比賽動(dòng)則用數(shù)十?dāng)?shù)百個(gè)模型Ensemble的標(biāo)準(zhǔn)動(dòng)作下,單模型取得如此突出的成績(jī)實(shí)屬不易。

Public Leaderboard

Private Leaderboard

本屆比賽來自全球的參賽隊(duì)伍超過1100支,其中不乏Bojan Tunguz, Sergey Yurgenson, KazAnova 這些Kaggle頂級(jí)大神的身影,Google的Auto Tables也參加了本場(chǎng)比賽但排名在300以外,所以雖然是Playground類競(jìng)賽,但這個(gè)冠軍的含金量依然不低,DeepTables正在為深度學(xué)習(xí)正名。

實(shí)際近年來深度學(xué)習(xí)在結(jié)構(gòu)化的一些細(xì)分領(lǐng)域里已經(jīng)開始嶄露頭角,在CTR預(yù)測(cè)和推薦系統(tǒng)方面,神經(jīng)網(wǎng)絡(luò)算法利用其在高維稀疏特征上先進(jìn)的表示學(xué)習(xí)能力逐步超越了傳統(tǒng)機(jī)器學(xué)習(xí)算法。

◆ 從2015年Google公司的Wide&Deep網(wǎng)絡(luò)開始,到Deep&Cross、PNN、DeepFM、xDeepFM這些模型不斷刷新在公開數(shù)據(jù)集上的紀(jì)錄。研究人員也在不斷嘗試將CV、NLP上的技術(shù)引入到結(jié)構(gòu)化領(lǐng)域。

◆ 2019年北京大學(xué)的研究團(tuán)隊(duì)提出的AutoInt網(wǎng)絡(luò)應(yīng)用了大名鼎鼎的BERT中Multi-head Attention 思想,有效的提升了結(jié)構(gòu)化數(shù)據(jù)自動(dòng)特征生成和提取的效率,并且一定程度上解決了深度學(xué)習(xí)缺乏解釋性的問題。

◆ 華為諾亞實(shí)驗(yàn)室提出的FGCNN在利用卷積神經(jīng)網(wǎng)絡(luò)的同時(shí)創(chuàng)新性的提出Recombination Layer將局部特征組合進(jìn)一步重組,有效的避免了CNN過于關(guān)注局部特征交互的短板,F(xiàn)GCNN在華為AppStore的推薦系統(tǒng)中大幅提升原有算法的表現(xiàn)。

以上成果確實(shí)足以讓業(yè)界重拾深度學(xué)習(xí)在結(jié)構(gòu)化數(shù)據(jù)上的信心,但目前這些成果主要在少數(shù)的互聯(lián)網(wǎng)巨頭企業(yè)中發(fā)揮價(jià)值,對(duì)于大多數(shù)企業(yè)和數(shù)據(jù)科學(xué)家來說只是看上去很美,想要應(yīng)用到實(shí)際的建模工作中面臨著不小的代價(jià)。

1)這些模型大多落在論文層面,部分論文雖然提供了用于驗(yàn)證模型的源碼,但想把這些源碼應(yīng)用到實(shí)際業(yè)務(wù)上,代碼改造的工作量和難度都不小。

2)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)之間最明顯的區(qū)別是在結(jié)構(gòu)化領(lǐng)域每一個(gè)數(shù)據(jù)集的語義空間和數(shù)值的物理含義都有所不同,同一個(gè)模型在不同數(shù)據(jù)集上的表現(xiàn)有時(shí)天差地別,常常需要同時(shí)評(píng)估各種不同模型才能找到最優(yōu)方案,這也進(jìn)一步放大了第1點(diǎn)中提到的工程代價(jià)。

3)上面提到的大部分模型重點(diǎn)解決的是高維稀疏的類別型特征的學(xué)習(xí)能力,對(duì)于連續(xù)型的數(shù)值特征關(guān)注有限,這個(gè)部分恰恰是GBM模型的殺手锏,因此遇到以連續(xù)型特征為主的數(shù)據(jù)集這些模型往往不盡人意。

九章云極的研發(fā)團(tuán)隊(duì)基于以上痛點(diǎn),加上長(zhǎng)期服務(wù)于金融行業(yè)所積累的經(jīng)驗(yàn)開發(fā)并且開源了DeepTables深度學(xué)習(xí)工具包,目前后端計(jì)算框架支持Tensorflow2.0以上版本。

DT極其易用,僅5行代碼即可完成任意一個(gè)數(shù)據(jù)集的建模工作,數(shù)據(jù)不做任何的預(yù)處理和加工也可以完成建模,不管是專家型的數(shù)據(jù)科學(xué)家還是沒有建模能力的業(yè)務(wù)分析人員,DT都能夠提供開箱即用的卓越性能,這是高度依賴手工特征工程的傳統(tǒng)機(jī)器學(xué)習(xí)算法難以實(shí)現(xiàn)的。

另外,DT有著非常開放的架構(gòu)設(shè)計(jì),DT把近年來最優(yōu)秀的研究成果中的關(guān)鍵網(wǎng)絡(luò)架構(gòu)抽取出一組神經(jīng)網(wǎng)絡(luò)構(gòu)件(nets),這些構(gòu)件可以任意組合出一個(gè)新的網(wǎng)絡(luò)架構(gòu),可以非常簡(jiǎn)便的在不同數(shù)據(jù)集上探索最優(yōu)的網(wǎng)絡(luò)組合。

同時(shí),DT支持插件式的擴(kuò)展方式,用戶可以按DT的接口開發(fā)自己的構(gòu)件和內(nèi)置的構(gòu)件融合在一起構(gòu)成一個(gè)新的模型。之前需要幾周甚至上月的時(shí)間完成的工作,在DT的助力下幾個(gè)小時(shí)甚至幾分鐘就可以完成。

DT項(xiàng)目地址

https://github.com/DataCanvasIO/deeptables

DT官方文檔

https://deeptables.readthedocs.io/

DT目前還處于相對(duì)早期的階段,剛剛發(fā)布了0.1.9。DT下一個(gè)計(jì)劃是開放神經(jīng)架構(gòu)搜索(NAS)引擎,用AI算法實(shí)現(xiàn)在不同的數(shù)據(jù)集上自動(dòng)搜索最佳的網(wǎng)絡(luò)架構(gòu),實(shí)現(xiàn)真正智能的AutoDL。

擁抱開源的九章云極,旗下的分布式機(jī)器學(xué)習(xí)平臺(tái)APS,其開放的技術(shù)架構(gòu)和開源生態(tài)完美融合,受到廣大企業(yè)客戶的青睞。九章云極受益于開源社區(qū),同時(shí)也在持續(xù)大力回饋于開源社區(qū)。

分享到

zhangnn

相關(guān)推薦