作為一場(chǎng)含金量非常高的公開(kāi)技術(shù)賽事,“中國(guó)人工智能大賽”由國(guó)家互聯(lián)網(wǎng)信息辦公室、工業(yè)和信息化部、公安部、國(guó)家廣播電視總局、廈門市人民政府聯(lián)合主辦,至今已成功舉辦兩屆,累計(jì)一千余支團(tuán)隊(duì)參賽報(bào)名,囊括了海內(nèi)外頂尖的技術(shù)企業(yè)、高??蒲性核_(tái)競(jìng)技。

本屆大賽亦是高手如云,競(jìng)爭(zhēng)異常激烈?!熬W(wǎng)絡(luò)安全”作為三大賽題方向之一,吸引了國(guó)內(nèi)大部分的頭部安全公司和安全創(chuàng)新企業(yè)參賽,代表了業(yè)內(nèi)的領(lǐng)先水平。

令人意外的是,作為冠軍戰(zhàn)隊(duì),瑞數(shù)信息AI團(tuán)隊(duì)竟然是第一次參與公開(kāi)賽事。這支神秘的冠軍戰(zhàn)隊(duì)是如何誕生的?他們采用了哪些技術(shù)和策略成功破題?又是如何看待AI技術(shù)在網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用?接下來(lái)就讓我們?yōu)榇蠹医颐卮筚惐澈蟮墓适隆?/p>

賽事回顧:以AI技術(shù)檢測(cè)識(shí)別Webshell攻擊

本屆大賽網(wǎng)絡(luò)安全方向的比賽任務(wù)是“檢測(cè)文件數(shù)據(jù)是否為可用于網(wǎng)絡(luò)攻擊的Webshell文件”。主辦方會(huì)提供不少于10萬(wàn)條的文件樣本數(shù)據(jù)集,以供參賽戰(zhàn)隊(duì)比拼對(duì)樣本數(shù)據(jù)集中Webshell文件的檢測(cè)能力,通過(guò)檢出評(píng)價(jià)+誤報(bào)評(píng)價(jià)兩大評(píng)判標(biāo)準(zhǔn)數(shù)值相加,按總分高低排序決定最終名次。

熟悉網(wǎng)絡(luò)安全領(lǐng)域的人都知道,Webshell是威脅Web應(yīng)用安全的一大頑疾?;陔[秘性、基于腳本、靈活便捷、功能強(qiáng)大等特點(diǎn),Webshell被網(wǎng)絡(luò)攻擊者當(dāng)作網(wǎng)站后門工具使用,以實(shí)現(xiàn)維持對(duì)攻陷服務(wù)器的長(zhǎng)期遠(yuǎn)程接入能力。因此,及時(shí)檢測(cè)和發(fā)現(xiàn)Webshell能有效阻斷很多潛在攻擊,大大提升網(wǎng)絡(luò)安全,Webshell檢測(cè)識(shí)別能力也由此成為企業(yè)安全防御的重點(diǎn)。

正因如此,本屆大賽將“Webshell的檢測(cè)能力”作為賽題,具有非常強(qiáng)的現(xiàn)實(shí)意義。而這樣的賽題,對(duì)于活躍在網(wǎng)絡(luò)安全領(lǐng)域的各大廠商而言,也是一個(gè)常規(guī)題。目前幾乎所有的安全廠商都已跟進(jìn)了以AI檢測(cè)Webshell的技術(shù),但如何答好這道題,則顯示了廠商背后的AI實(shí)力。

據(jù)瑞數(shù)信息AI團(tuán)隊(duì)介紹,AI檢測(cè)技術(shù)主要涉及到三個(gè)方面:特征提取、模型構(gòu)建和訓(xùn)練調(diào)參。

特征提?。?/strong>包括數(shù)據(jù)清洗和特征工程,主要難點(diǎn)在于從已知樣本數(shù)據(jù)中提取合適的數(shù)據(jù)特征作為模型輸入,特征工程是影響模型效果最關(guān)鍵的因素。

模型構(gòu)建:需要根據(jù)實(shí)踐經(jīng)歷了解不同模型的使用場(chǎng)景和優(yōu)劣特征,難點(diǎn)在于針對(duì)不同特點(diǎn)的數(shù)據(jù)構(gòu)建合適的模型,更有效地學(xué)習(xí)數(shù)據(jù)內(nèi)在特征,發(fā)揮模型優(yōu)勢(shì)。

訓(xùn)練調(diào)參:針對(duì)模型構(gòu)建結(jié)束后,訓(xùn)練過(guò)程中設(shè)定合適的模型超參數(shù),難點(diǎn)在于需要通過(guò)不斷的經(jīng)驗(yàn)積累,設(shè)定的超參數(shù)使模型在特定數(shù)據(jù)集下達(dá)到最優(yōu)效果。

游刃有余:瑞數(shù)AI融合深度學(xué)習(xí)模型

在本次比賽中,由于主辦方提供的檢測(cè)目標(biāo)為PHP和JSP腳本混合數(shù)據(jù),不同語(yǔ)言腳本特征不一樣,需要設(shè)計(jì)不同算法進(jìn)行檢測(cè),因此,瑞數(shù)信息AI團(tuán)隊(duì)在構(gòu)建Webshell檢測(cè)模型時(shí),結(jié)合不同的數(shù)據(jù)類型,采用了將不同模型相結(jié)合的融合深度學(xué)習(xí)模型。在檢測(cè)前會(huì)對(duì)腳本進(jìn)行區(qū)分,再通過(guò)合適的模型進(jìn)行檢測(cè)。

事實(shí)上,瑞數(shù)信息AI團(tuán)隊(duì)日常研究的Webshell腳本遠(yuǎn)不止PHP和JSP兩種,這也成為AI團(tuán)隊(duì)在比賽中游刃有余的底氣。

此外,主辦方提供的測(cè)試集數(shù)據(jù)量遠(yuǎn)大于本地訓(xùn)練集,容易出現(xiàn)過(guò)擬合情況,導(dǎo)致檢測(cè)效果較差。同時(shí),在實(shí)際比賽中,主辦方只提供了少量黑白樣本,這使得各大戰(zhàn)隊(duì)構(gòu)建的模型幾乎沒(méi)有調(diào)優(yōu)空間,只能根據(jù)主辦方黑白樣本的大致比例做相應(yīng)的判斷調(diào)整。因此在模型調(diào)優(yōu)上也需要足夠的實(shí)戰(zhàn)經(jīng)驗(yàn)。

對(duì)此,瑞數(shù)信息AI團(tuán)隊(duì)的方案是在訓(xùn)練數(shù)據(jù)集上通過(guò)增加模擬數(shù)據(jù)集,對(duì)數(shù)據(jù)集進(jìn)行增強(qiáng)處理;在模型上,盡量簡(jiǎn)化模型結(jié)構(gòu),在網(wǎng)絡(luò)結(jié)構(gòu)中不設(shè)計(jì)過(guò)深的層級(jí),加入dropout層并調(diào)整合適比例,加入正則化等提升模型泛化效果。

在瑞數(shù)信息AI團(tuán)隊(duì)看來(lái),這次大賽比拼的是綜合能力,模型效果的呈現(xiàn)是多方面結(jié)合的成果:

首先,在數(shù)據(jù)量上,通過(guò)在實(shí)踐中不斷積累,收集更多更完備的訓(xùn)練數(shù)據(jù)集,使模型學(xué)習(xí)的數(shù)據(jù)更具代表性,具備更強(qiáng)的泛化效果;其次,在經(jīng)驗(yàn)上,通過(guò)對(duì)Webshell腳本更深入的理解和實(shí)踐,對(duì)樣本數(shù)據(jù)進(jìn)行更有效的特征工程,強(qiáng)化模型效果;最后,在算法模型上,構(gòu)建合適的模型結(jié)構(gòu),調(diào)整合適的模型超參數(shù),使模型在訓(xùn)練集上有最優(yōu)的效果。

實(shí)戰(zhàn)價(jià)值:進(jìn)階的瑞數(shù)AI檢測(cè)技術(shù)

考慮到賽事提供的樣本可能有一定局限性,那么瑞數(shù)信息在本次比賽中展現(xiàn)的AI檢測(cè)能力,是否具備實(shí)戰(zhàn)價(jià)值,能否在實(shí)際攻防中得以應(yīng)用?

據(jù)瑞數(shù)信息AI團(tuán)隊(duì)介紹,本次賽事主辦方提供的PHP和JSP兩種類型的Webshell腳本,在實(shí)際攻擊中都是常見(jiàn)且具有代表性的腳本。因此,本次大賽各大戰(zhàn)隊(duì)展現(xiàn)的AI檢測(cè)能力,完全能夠應(yīng)用到網(wǎng)絡(luò)攻防實(shí)戰(zhàn)中。

事實(shí)上,通過(guò)AI算法對(duì)Webshell進(jìn)行檢測(cè),是近年來(lái)網(wǎng)絡(luò)安全領(lǐng)域一種領(lǐng)先的技術(shù)應(yīng)用,通過(guò)大量的訓(xùn)練樣本,針對(duì)提取的特征自動(dòng)發(fā)現(xiàn)其內(nèi)在聯(lián)系,自動(dòng)學(xué)習(xí)Webshell和正常樣本的分布差異。

AI檢測(cè)方法的誕生,很大程度源于網(wǎng)絡(luò)威脅不斷升級(jí),傳統(tǒng)Webshell檢測(cè)方法已捉襟見(jiàn)肘。常見(jiàn)的Webshell檢測(cè)方法有兩種:靜態(tài)檢測(cè)和動(dòng)態(tài)檢測(cè)。其中,靜態(tài)檢測(cè)是先建立一個(gè)惡意字符串特征庫(kù),通過(guò)與特征庫(kù)的比對(duì)檢索出高危腳本文件。但這種方法容易誤報(bào),無(wú)法對(duì)加密或者經(jīng)過(guò)特殊處理的Webshell文件進(jìn)行檢測(cè)。動(dòng)態(tài)檢測(cè)則是通過(guò)行為模式深度檢測(cè)腳本文件的安全性,對(duì)于新型變種腳本有一定的檢測(cè)能力,但針對(duì)特定用途的后門較難檢測(cè)。

瑞數(shù)信息AI團(tuán)隊(duì)表示,靜態(tài)檢測(cè)和動(dòng)態(tài)檢測(cè)大部分是建立在安全專家對(duì)Webshell腳本深入理解的情況下提煉的關(guān)鍵特征,這項(xiàng)工作非常耗時(shí),同時(shí)維護(hù)起來(lái)也是一項(xiàng)極其繁瑣的工作。即便如此,依然有檢測(cè)不到的時(shí)候。

但是基于AI檢測(cè)Webshell能克服傳統(tǒng)Webshell檢測(cè)方式的單一性和滯后性,對(duì)未知數(shù)據(jù)具備一定的識(shí)別效果,同時(shí)能很好處理通過(guò)加密編碼等繞過(guò)靜態(tài)檢測(cè)的Webshell,因此作為現(xiàn)有檢測(cè)方式的有力補(bǔ)充,可以有效提升實(shí)際檢測(cè)效果。

實(shí)至名歸的AI冠軍團(tuán)隊(duì)

瑞數(shù)信息在AI技術(shù)上已有近六年的積累,團(tuán)隊(duì)成員來(lái)自北京大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)、武漢大學(xué)、西南大學(xué)等國(guó)內(nèi)一流名校的本科和碩士研究生,在安全領(lǐng)域有著豐富的經(jīng)驗(yàn)積累和實(shí)踐經(jīng)歷。此外,瑞數(shù)信息還積極與國(guó)內(nèi)頂級(jí)高校北京理工大學(xué)在網(wǎng)絡(luò)安全領(lǐng)域展開(kāi)深度研究和合作,推動(dòng)網(wǎng)絡(luò)安全“產(chǎn)、學(xué)、研、用”的一體化發(fā)展,不斷提升網(wǎng)絡(luò)空間安全水平。

除了“AI+安全”的高端人才配置,瑞數(shù)信息AI團(tuán)隊(duì)也非常重視技術(shù)研究和實(shí)戰(zhàn)演練的相互印證。在為大型企業(yè)客戶提供安全防護(hù)中已經(jīng)很好地驗(yàn)證其模型效果,并不斷優(yōu)化提升實(shí)戰(zhàn)效果。

這也就不難理解,為什么瑞數(shù)信息AI團(tuán)隊(duì)初次參賽就斬獲冠軍,既能“抬頭看天”,緊跟學(xué)術(shù)前沿不斷創(chuàng)新,又能“低頭走路”,以實(shí)戰(zhàn)為基準(zhǔn)做好當(dāng)下每一件事,瑞數(shù)信息冠軍戰(zhàn)隊(duì)可謂實(shí)至名歸。

對(duì)于AI檢測(cè)技術(shù)的未來(lái),瑞數(shù)信息AI團(tuán)隊(duì)認(rèn)為,現(xiàn)階段AI檢測(cè)應(yīng)用還不夠廣泛,一方面受限于大規(guī)模算力的支持,另一方面也需要降低人為提取模型數(shù)據(jù)特征的比例。在數(shù)據(jù)方面,高質(zhì)量的Webshell數(shù)據(jù)量較為稀缺,一定程度上也影響了AI檢測(cè)效果的提升。

但是,AI檢測(cè)作為一種處在早期發(fā)展階段的技術(shù),相信其未來(lái)一定能夠得到更加廣泛的應(yīng)用,用于發(fā)現(xiàn)更為隱蔽的攻擊手段;同時(shí),隨著AI算法從傳統(tǒng)算法—深度學(xué)習(xí)—強(qiáng)化學(xué)習(xí)的不斷進(jìn)化,也將對(duì)安全產(chǎn)生更大的助力。

AI檢測(cè)是一個(gè)進(jìn)化發(fā)展的過(guò)程,瑞數(shù)信息將通過(guò)不斷推動(dòng)人工智能與行業(yè)深度融合及跨界應(yīng)用,加速人工智能在網(wǎng)絡(luò)安全技術(shù)的發(fā)展和應(yīng)用創(chuàng)新!

分享到

zhupb

相關(guān)推薦