此次大賽以“挖掘更多的技術(shù)及人才,賦能整個(gè)營(yíng)銷生態(tài)”目標(biāo),賽程包括了初賽、復(fù)賽和決賽三個(gè)階段。而賽題也是隨著賽程的推進(jìn)逐步深入開放數(shù)據(jù),難度也逐步增加。
此次大賽的賽題采用的數(shù)據(jù)均來自于真實(shí)業(yè)務(wù)場(chǎng)景,作為阿里巴巴旗下的大數(shù)據(jù)營(yíng)銷平臺(tái),阿里媽媽擁有阿里集團(tuán)的核心商業(yè)數(shù)據(jù),這些數(shù)據(jù)一直被用于采用深度學(xué)習(xí)、在線學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等人工智能技術(shù)來高效精準(zhǔn)預(yù)測(cè)用戶購(gòu)買意向。但是,電商平臺(tái)是一個(gè)復(fù)雜的生態(tài)系統(tǒng),用戶行為偏好、商品長(zhǎng)尾分布、熱點(diǎn)事件營(yíng)銷等因素都會(huì)給轉(zhuǎn)化率預(yù)估帶來了巨大挑戰(zhàn)。如何更好地利用海量的交易數(shù)據(jù)來高效準(zhǔn)確地預(yù)測(cè)用戶的購(gòu)買意向,是人工智能和大數(shù)據(jù)在電子商務(wù)場(chǎng)景中需要繼續(xù)解決的技術(shù)難題。
本次比賽以阿里電商廣告為研究對(duì)象,提供平臺(tái)的海量真實(shí)交易數(shù)據(jù),參賽選手通過人工智能技術(shù)構(gòu)建預(yù)測(cè)模型預(yù)估用戶的購(gòu)買意向,即給定廣告點(diǎn)擊相關(guān)的用戶(user)、廣告商品(ad)、檢索詞(query)、上下文內(nèi)容(context)、商店(shop)等信息的條件下預(yù)測(cè)廣告產(chǎn)生購(gòu)買行為的概率(pCVR),形式化定義為:
pCVR=P(conversion=1 | query, user, ad, context, shop)。結(jié)合淘寶平臺(tái)的業(yè)務(wù)場(chǎng)景和不同的流量特點(diǎn),定義了“日常的轉(zhuǎn)化率預(yù)估”和“特殊日期的轉(zhuǎn)化率預(yù)估”兩類挑戰(zhàn)。
而通過選手的介紹也會(huì)發(fā)現(xiàn)此次的賽題難度所在,初賽時(shí)提供了前七天的數(shù)據(jù)預(yù)測(cè)第八天,而復(fù)賽則是提供了第八天上午的數(shù)據(jù)預(yù)測(cè)下午,相應(yīng)的數(shù)據(jù)量也在增加,在初賽時(shí)訓(xùn)練數(shù)據(jù)集為 48 萬,測(cè)試數(shù)據(jù)集為 6 萬;復(fù)賽時(shí),訓(xùn)練數(shù)據(jù)集為 1000 萬,測(cè)試數(shù)據(jù)集為 173 萬。
在通過層層篩選之后,有 8 支隊(duì)伍進(jìn)入了最終決賽。這些隊(duì)伍的成員均是來自大學(xué)、科研機(jī)構(gòu)或者科技公司,實(shí)力與經(jīng)驗(yàn)兼?zhèn)洹?/p>
決賽的爭(zhēng)奪顯得異常激烈,最終奪得桂冠的是由來自產(chǎn)業(yè)界的花志祥單人組成的 DOG 隊(duì)。
花志祥先解釋了之前初賽和復(fù)賽的解題思路。前七天的數(shù)據(jù)比較平穩(wěn),而第八天出現(xiàn)了較大的波動(dòng),因此根據(jù) 1 到 7 天的數(shù)據(jù)同時(shí)預(yù)測(cè)第八天上午和下午的數(shù)據(jù),這其實(shí)就是使用了遷移學(xué)習(xí)的方法,在普通的場(chǎng)景下預(yù)測(cè)促銷場(chǎng)景的情景。然后再結(jié)合第八天促銷當(dāng)日上午的銷量訓(xùn)練模型來獲取結(jié)果,即預(yù)測(cè)當(dāng)日下午的數(shù)據(jù)。而這個(gè)整個(gè)模型只利用 Lightgbm 來做。
在模型特征方面使用了四種。統(tǒng)計(jì)特征方面包括了用戶點(diǎn)擊商品 item 個(gè)數(shù)、最后一次搜索時(shí)間、看的最大頁數(shù)、搜索小時(shí)平均、交互時(shí)間等;時(shí)差特征方面主要考慮了兩次交互之間的時(shí)長(zhǎng),在真實(shí)場(chǎng)景中就包括了用戶、商品 item 交互、商品品類 item_category、商品品牌 item_brand_id 兩次交互的時(shí)長(zhǎng)等,這些因素在排序特征中則表現(xiàn)為用戶與商品的交互次數(shù)。
在表征特征方面,使用了詞袋統(tǒng)計(jì)了 property 是否存在、統(tǒng)計(jì)用戶的所有查看在特征上的占比、統(tǒng)計(jì) item 被查看的用戶在這些特征上的占比的平均情況,而借用這些特征建模以實(shí)現(xiàn)對(duì)用戶行為的精準(zhǔn)預(yù)測(cè)。在核心代碼方面,選手只用了一頁就成功展現(xiàn),簡(jiǎn)潔的代碼也是幫助其取得勝利的原因。
評(píng)委們對(duì) DOG 隊(duì)的評(píng)價(jià)為“遷移學(xué)習(xí)的使用讓人眼前一亮,整個(gè)的方法簡(jiǎn)單,有效,思路清晰”。
決賽獲得亞軍的是由來自產(chǎn)業(yè)界的 BRYAN、桑楡、李困困三人組成的藍(lán)鯨燒香隊(duì)。
主講人首先把賽題進(jìn)行了分析,業(yè)務(wù)場(chǎng)景、搜索和轉(zhuǎn)化預(yù)估是其中重點(diǎn);數(shù)據(jù)分析方面,每天的樣本和交易數(shù)、每天交易率、每小時(shí)的轉(zhuǎn)化率進(jìn)行整體趨勢(shì)預(yù)估;數(shù)據(jù)類型進(jìn)行劃分,缺失數(shù)據(jù)采用平均數(shù)填充和眾數(shù)填充的方式填充;用戶分析方面,借助用戶點(diǎn)擊次數(shù)發(fā)現(xiàn)低頻訴求,購(gòu)買次數(shù)發(fā)現(xiàn)長(zhǎng)尾分布,二者結(jié)合可發(fā)現(xiàn)即時(shí)興趣和目標(biāo)明確用戶;然后深入分析后找到數(shù)據(jù)里的隱藏信息,最后可以繪制每天的點(diǎn)擊數(shù)趨勢(shì)。
為提升優(yōu)化算法的效率,減少線上成績(jī)的運(yùn)氣性成分,同時(shí)避免算法過度依賴于線上數(shù)據(jù)集的問題,因此采用了線下測(cè)試的方法,線上驗(yàn)證的優(yōu)化在線下有顯著的提升。在模型設(shè)計(jì)方面,團(tuán)隊(duì)設(shè)計(jì)了主模型、全局?jǐn)?shù)據(jù)模型、時(shí)間信息模型等三個(gè)模型來實(shí)現(xiàn)精準(zhǔn)預(yù)測(cè)。
在特征方面,藍(lán)鯨燒香把特征群分成了三類特征群,一類原始特征包括了基礎(chǔ)特征;二類簡(jiǎn)單特征包括了轉(zhuǎn)化率特征、排名特征、占比特征、趨勢(shì)特征等;三類復(fù)雜特征則包括了 query 交互特征、用戶交互特征、競(jìng)爭(zhēng)特征、業(yè)務(wù)特征等。利用多種特征進(jìn)行線下測(cè)試后找到不同特征群對(duì)預(yù)測(cè)準(zhǔn)確度的提升,以找到重要的特征。而在模型融合方面,則是采用了簡(jiǎn)單加權(quán)融合的方式來融合 LightGBM 模型。
評(píng)委對(duì)藍(lán)鯨燒香隊(duì)的評(píng)價(jià)為“演講令人印象深刻,整個(gè)的模型數(shù)據(jù)等各方面都非常全面和完整,也取得了非常好的效果”。
獲得季軍的隊(duì)伍是由浙江工業(yè)大學(xué)陳波成、中南大學(xué)羅賓理和天津大學(xué)吳昊三人組成的躺分隊(duì)。
躺分隊(duì)先對(duì)賽題進(jìn)行了解析,他們認(rèn)為賽題的難點(diǎn),一方面在于如何在正常流量數(shù)據(jù)中,找到適合表達(dá)促銷或突變的特征;另一方面如何在模型選擇上,如何找到盡快落地于工業(yè)界的輕量級(jí)框架。通過分析后發(fā)現(xiàn),最后一天為大促日,因此建模方向可以分成兩種,一種是常規(guī)思路針對(duì) User 和各項(xiàng)交互建模,另一種則是針對(duì)促銷時(shí)探求變化進(jìn)行建模。
因此,躺分隊(duì)提初了四套訓(xùn)練方案,分辨是針對(duì)變化的 Only-7、全量數(shù)據(jù)的 All-day、全量數(shù)據(jù)的采樣 Sample-All、全量統(tǒng)計(jì)特征提取 Day7 特征 All-to-7。分別對(duì)賽題進(jìn)行了驗(yàn)證。
在特征工程方面,躺分隊(duì)先對(duì)基礎(chǔ)特征進(jìn)行分列,然后去掉取值變化小的列,再去掉缺失值過多的列。在用戶特征方面,通過基礎(chǔ)數(shù)據(jù)確定用戶偏好行為;再通過時(shí)間差等推出用戶的近期行為情況。然后對(duì)店鋪吸引的人群狀況和廣告吸引的人群狀況等進(jìn)行畫像。
借助這些特征可以使用前 7 天的數(shù)據(jù)來預(yù)測(cè)第八天的概率值,推算 Item_property_list 與 predict_category_property 的匹配程度,因?yàn)榭紤]到賽題實(shí)際場(chǎng)景,當(dāng)用戶檢索時(shí),查詢?cè)~的預(yù)測(cè)的類目有與檢索詞相匹配,用戶更有機(jī)會(huì)購(gòu)買。
在模型選擇方面選擇了神經(jīng)網(wǎng)絡(luò),這樣可以將 ID 特征放入交叉層連續(xù)特征 Embedding。總結(jié)后發(fā)現(xiàn),首先是應(yīng)當(dāng)對(duì)促銷時(shí)期應(yīng)考慮變化特征,其次合理的特征提取框架是致勝之道,再者多模型的融合可以提升精度較多。
評(píng)委對(duì)躺分隊(duì)的評(píng)價(jià)為“對(duì)整個(gè)的系統(tǒng)思考非常的完整,業(yè)務(wù)理解深刻,業(yè)務(wù)分析到位”。
在原本的計(jì)劃中,決賽將會(huì)產(chǎn)生兩支特別獎(jiǎng)的隊(duì)伍,但是禁止實(shí)習(xí)咋找工作啊隊(duì)與強(qiáng)東隊(duì)兩支隊(duì)伍的表現(xiàn)讓評(píng)委組臨時(shí)決定把獎(jiǎng)項(xiàng)修改為創(chuàng)新獎(jiǎng),去鼓勵(lì)在過程中有創(chuàng)新想法的這兩支隊(duì)伍。
禁止實(shí)習(xí)咋找工作啊隊(duì)由中科院莊曉敏、中科院計(jì)算所張衛(wèi)民、香港科技大學(xué)李昊陽三人組成。他們首先將數(shù)據(jù)區(qū)分了時(shí)間區(qū)間,有效的利用了不同特點(diǎn)的歷史數(shù)據(jù),以統(tǒng)計(jì)特征分析用戶行為;這樣做發(fā)現(xiàn)了兩個(gè)用戶的行為特點(diǎn),第一 User 數(shù)據(jù)稀疏大部分用戶只在一天出現(xiàn),第二數(shù)據(jù)少的用戶轉(zhuǎn)化率反而高。
因此,對(duì)數(shù)據(jù)少的用戶采用構(gòu)造特征區(qū)分出來,便于模型總體判斷;而對(duì)數(shù)據(jù)較多的用戶則直接用構(gòu)造特征具體表現(xiàn)用戶行為。時(shí)間特征方面包括了小時(shí)熱點(diǎn)、趨勢(shì)特征、窗口等很多都是強(qiáng)特征;而比較特殊的一點(diǎn)在于 Embedding 特征,同一個(gè)用戶點(diǎn)擊過的 item 按照時(shí)間順序排序,作為一個(gè) doc, 這樣一個(gè) doc 實(shí)際表示的是用戶的點(diǎn)擊序列。Doc 中的每個(gè)”word”(item) 的上下文, 表示的是用戶關(guān)注的跟這個(gè) item 類似的 item;同理還能推算出 Shop 和 User 的特;而 Embedding 特征在幾個(gè)模型上實(shí)驗(yàn),線下提升萬分之 3+~ 萬分之 6+;此外,因?yàn)楸辉蕉鄡?yōu)質(zhì)的網(wǎng)頁所指的網(wǎng)頁,它是優(yōu)質(zhì)的概率就越大,用戶點(diǎn)擊的 PageRank 值也一樣重要。
模型算法方面,組合特征模型需要不同單模型特征拼接做一定篩選;Kfold-average 模型的話,單模型做 10fold,9 個(gè) fold 訓(xùn)練,預(yù)測(cè) test 集合,10fold 做 avg。能有效降低 variance,結(jié)果有提升且更加穩(wěn)定。最終選定的模型便如上圖所示。
評(píng)委對(duì)禁止實(shí)習(xí)咋找工作啊隊(duì)的評(píng)價(jià)為“團(tuán)隊(duì)比較有特色,充分的挖掘了用戶序列化行為信息、用戶表達(dá),提升了效果”。
強(qiáng)東隊(duì)則是由吉林大學(xué)李強(qiáng)、山東大學(xué)沈冬冬、中南大學(xué)蔣浩然三人組成。他們首先對(duì)賽題進(jìn)行了分析,發(fā)現(xiàn)購(gòu)物交互中 98% 的用戶點(diǎn)擊次數(shù)是在 10 次以下的。對(duì)此做出一些特征點(diǎn),比如首次點(diǎn)擊、點(diǎn)擊次數(shù)總和、最愛商品等。但是真正對(duì)此次比賽有用的是深度學(xué)習(xí)的一些特征,這其中主要有三種,單種類特征的 encoding、連續(xù)特征的分桶之后的 encoding、多特征的 pad 之后使用 attention 加權(quán)。
多特征能夠通過 pad 能輸入到 Embedding 層,隊(duì)伍借鑒了 DIN 網(wǎng)絡(luò)的思路,創(chuàng)建 attention 層對(duì)多特征加權(quán)。深度學(xué)習(xí)領(lǐng)域的 ctr 模型中大部分模型都在優(yōu)化特征的二階組合。在一階和二階使用 lr 層和 fm 層,fm 層優(yōu)化到線性,多階特征也可以使用 cin 層或者 mvm 層,考慮到 cin 層的復(fù)雜度過高,使用了簡(jiǎn)便的 mvm 層組合無限階特征。
在 deep 層可以獲取特征間的非線性關(guān)系,輸入分別為離散特征的 embdding,連續(xù)特征分桶后的 embdding,多特征 attention 之后的加權(quán)向量。將 lgb 的葉子進(jìn)行 encoding 放入 deep 層,可以更加顯性的獲得特征的組合信息。
值得注意的是,在 DL 模型調(diào)試時(shí),應(yīng)當(dāng)盡量使用矩陣運(yùn)算;對(duì) embedding 層使用一維的 dropout 會(huì)減少過擬合風(fēng)險(xiǎn);NN 特征隨機(jī)性比較大,每次訓(xùn)練出來的模型有隨機(jī)性,可以多次取平均;使用 hashtrick 大大減少資源的損耗。評(píng)委對(duì)強(qiáng)東隊(duì)的評(píng)價(jià)為“利用深度學(xué)習(xí)方法進(jìn)行端到端的學(xué)習(xí),里面涉及了工業(yè)模型,在所有選手中非常亮眼”。