這是衡量線性相關性的經典公式,但是,變量之間是非線性的呢?

舉個栗子,下圖中溫度和冰激凌銷量幾乎為0,你能說兩者沒有相關性嗎?

真實世界中很少有線性關系,大多數(shù)的都是非線性關系,比如GDP增長與時間的關系、收入與幸福的關系等等,都是呈現(xiàn)log的曲線形狀,用相關系數(shù)來衡量,會發(fā)現(xiàn)呈現(xiàn)弱相關。

這里有幾個辦法:1.數(shù)據(jù)可視化觀察。畫出圖來,實際分析一下,是否與得到的量化值是一致的? 如上述的例子,實際通過圖來分析就知道,實際是非線性相關。這也是數(shù)據(jù)分析領域很重要的一塊內容:數(shù)據(jù)可視化。

2.偏相關。原理類似于求偏導數(shù),基本思路是固定其他維度來分析當前維度與目標的相關性。網(wǎng)絡規(guī)劃優(yōu)化中絕大部分都是屬于這種情況,比如,分析宏觀的吞吐率和用戶數(shù)的關系,需要在覆蓋、干擾、用戶行為一致或者差不多的情況下來分析,這也是網(wǎng)絡規(guī)劃優(yōu)化難的地方。再回到剛才溫度和冰激凌的例子,高于35度,冰激凌銷量和溫度是負相關,可能是有其他因素沒有考慮到,比如:溫度過高大家都不出門了,選擇在家里避暑,而冰激凌本身也不適合網(wǎng)購,從而影響冰激凌銷量。如果用偏相關的方法做,那就是要分析在出門次數(shù)這個特征差不多的情況下,分析冰激凌銷量和溫度的關系。

數(shù)據(jù)的分布真的有那么重要嗎?

非常重要!

過于重視算法本身而忽略數(shù)據(jù)本身是錯誤的,數(shù)據(jù)處理和分析這個過程在大數(shù)據(jù)建模的過程中耗時至少要達到一半及以上。

還是舉幾個栗子:

第一個栗子,還是剛才聊的相關系數(shù):

按照相關系數(shù)計算公式,x和y的相關系數(shù)比較高,原因是因為一個異常點的存在,如果去除掉這個異常值,則x和y沒有相關性可言。但如果沒有進行數(shù)據(jù)分布的分析(可以參考離群點檢測的一些方法,這里不展開),則認為x和y是強相關了。

第二個栗子,分類:

假如你通過某種算法得到了一種模型進行分類,分類準確率有80%。

假設檢驗樣本的分布是下圖,那么80%的分類準確性還是比較理想的。

假設檢驗樣本的分布是下圖:

也就是說,我的模型隨便蒙一個,比如,無論檢驗樣本是什么,我都認為樣本是藍色的,這樣模型的分類準確性也在80%以上。

這只是個例子,真實的網(wǎng)絡中進行目標和特征的回歸有很多這樣的現(xiàn)象,需要做一些額外的樣本平衡的處理,平衡樣本處理是一塊單獨的內容,簡單描述一下,主要是兩個大類。

1、過采樣。過采樣的原理是將樣本較少的一類的樣本數(shù)目填充起來,填充的辦法很多,最簡單的就是重復采樣,高級一點的就是通過一定的衡量準則(如距離)利用幾個樣本生成新的樣本(如距離平均)。

2、欠采樣。欠采樣是對樣本較多的一類的樣本數(shù)目通過采樣的方法降低,采樣也有一些方法,最簡單的就是隨機采樣,高級一點的是根據(jù)一定衡量準則(如信息熵)來采樣。

另外還有一整套的分析模型的方法,如回歸診斷,在里面可以對數(shù)據(jù)進行很多分析,如正態(tài)性、獨立性、線性、同方差性等等,這些都是后續(xù)分析和建模最基礎的,這里不展開描述,有機會可以單獨寫寫。

順便說一下,大數(shù)據(jù)的建模最后的公式可能只有一個,但是得到這個公式需要大量的嘗試、觀察、分析。那個很經典的例子,福特的流水線出問題,斯坦門茨畫了一條線解決了這個問題,開價10萬美元,看結果貌似很簡單,但是背后是支撐他畫這條線的技能儲備,這個儲備價值99999美元。

想了解大數(shù)據(jù)分析的更多知識嗎?10月10日-12日在上海世博展覽中心舉行的華為全聯(lián)接大會將有多場大數(shù)據(jù)分論壇滿足你的需要。趁現(xiàn)在,最低單日票價只要150,快來點擊華為官網(wǎng)售票頁面,開啟未來通道吧!

分享到

xiesc

相關推薦