數(shù)據(jù)探索流程

阿里云機(jī)器學(xué)習(xí)平臺(tái)采用拖拉算法組件拼接實(shí)驗(yàn)的操作方式,先來(lái)看下整個(gè)實(shí)驗(yàn)流程:
123

我們把整個(gè)實(shí)驗(yàn)拆解成四個(gè)部分,分別是數(shù)據(jù)導(dǎo)入及預(yù)處理、統(tǒng)計(jì)分析、隨機(jī)森林預(yù)測(cè)及分析、邏輯回歸預(yù)測(cè)及分析。下面我們分別介紹一下這四個(gè)模塊的邏輯。

1.數(shù)據(jù)導(dǎo)入及預(yù)處理

(1)數(shù)據(jù)導(dǎo)入:在“數(shù)據(jù)源”中選擇“新建表”,可以把本地txt文件上傳。數(shù)據(jù)導(dǎo)入后查看:

124
(2)數(shù)據(jù)預(yù)處理:通過(guò)類型轉(zhuǎn)換把string型的數(shù)據(jù)轉(zhuǎn)double。把pm2這一列作為目標(biāo)列,數(shù)值超過(guò)200的情況作為重度霧霾天氣打標(biāo)為1,低于200標(biāo)為0,實(shí)現(xiàn)的SQL語(yǔ)句如下:

select time,hour,(case when pm2>200 then 1 else 0 end),pm10,so2,co,no2 from ${t1};

(3)歸一化

歸一化主要是去除量綱的作用,把不同指標(biāo)的污染物單位統(tǒng)一。

125
統(tǒng)計(jì)分析

我們?cè)诮y(tǒng)計(jì)分析的模塊用了兩個(gè)組件:

(1)直方圖:通過(guò)直方圖可以可視化的查看不同數(shù)據(jù)在不同區(qū)間下的分布。通過(guò)這組數(shù)據(jù)的可視化展現(xiàn),我們可以了解到每一個(gè)字段數(shù)據(jù)的分布情況,以PM2.5為例,數(shù)值區(qū)間出現(xiàn)最多的是11.74~15.61,一共出現(xiàn)了430次。

126(2)數(shù)據(jù)視圖:通過(guò)數(shù)據(jù)視圖可以查看不同指標(biāo)的不同區(qū)間對(duì)于結(jié)果的影響。

以二氧化氮為例,在112.33~113.9這個(gè)區(qū)間產(chǎn)生了7個(gè)目標(biāo)列為0的目標(biāo),產(chǎn)生了9個(gè)目標(biāo)列為1的目標(biāo)。也就是說(shuō)當(dāng)二氧化氮為112.33~113.9區(qū)間的情況下,出現(xiàn)重度霧霾的天氣的概率是非常大的。熵和基尼系數(shù)是表示這個(gè)特征區(qū)間對(duì)于目標(biāo)值的影響,數(shù)值越大影響越大,這個(gè)是從信息量層面的影響。

127

3.隨機(jī)森林預(yù)測(cè)及分析

本案其實(shí)是采用了兩種不同的算法對(duì)于結(jié)果進(jìn)行預(yù)測(cè),我們先來(lái)看看隨機(jī)森林這一分支。我們通過(guò)將數(shù)據(jù)集拆分,百分之八十的數(shù)據(jù)訓(xùn)練模型,百分之二十的數(shù)據(jù)預(yù)測(cè)。最終模型的呈現(xiàn)可以可視化的顯示出來(lái),在左邊模型菜單下查看,隨機(jī)森林是樹(shù)狀模型。

128
通過(guò)這個(gè)模型預(yù)測(cè)結(jié)果的準(zhǔn)確率:

129

我們看到AUC是0.99,也就是說(shuō)如果我們有了本文用到的天氣指標(biāo)數(shù)據(jù),就可以預(yù)測(cè)天氣是否霧霾,而且準(zhǔn)確率可以達(dá)到百分之九十以上。

4.邏輯回歸預(yù)測(cè)及分析

再來(lái)看下邏輯回歸這一分支的預(yù)測(cè)模型,邏輯回歸是線性模型:

130

模型預(yù)測(cè)準(zhǔn)確率:

131

邏輯回歸的AUC為0.98,比用隨機(jī)森林計(jì)算得到的結(jié)果略低一點(diǎn)。如果排除調(diào)參對(duì)于結(jié)果的影響因素,可以說(shuō)明針對(duì)這個(gè)數(shù)據(jù)集,隨機(jī)森林的訓(xùn)練效果會(huì)更好一點(diǎn)。

結(jié)果評(píng)估

上面介紹了如何通過(guò)搭建實(shí)驗(yàn)來(lái)搭建針對(duì)PM2.5的預(yù)測(cè)流程,準(zhǔn)確率達(dá)到百分之九十以上。下面我們來(lái)分析一下哪種空氣指標(biāo)對(duì)于PM2.5影響最大,首先來(lái)看下邏輯回歸的生成模型:

132
因?yàn)榻?jīng)過(guò)歸一化計(jì)算的邏輯回歸算法有這樣的特點(diǎn),模型系數(shù)越大表示對(duì)于結(jié)果的影響越大,系數(shù)符號(hào)為正號(hào)表示正相關(guān),負(fù)號(hào)表示負(fù)相關(guān)。我們看一下正號(hào)系數(shù)里pm10和二氧化氮最大。pm10和pm2只是顆粒尺寸大小不同,是一個(gè)包含關(guān)系,這里不考慮。剩下的二氧化氮對(duì)于pm2.5的影響最大。我們只要查閱一下相關(guān)文檔,了解下哪些因素會(huì)造成二氧化氮的大量排放即可找出影響pm2.5的主要因素。

以下是網(wǎng)上是找到的關(guān)于二氧化氮排放的論述,文中說(shuō)明了二氧化氮主要來(lái)自電廠和汽車尾氣:《減少二氧化氮與氨或是抑制中國(guó)霧霾形成的關(guān)鍵》

 

分享到

xiesc

相關(guān)推薦