騰訊首席科學(xué)家孫國政

大數(shù)據(jù)的挑戰(zhàn)

現(xiàn)在這個(gè)世界是一個(gè)互聯(lián)網(wǎng)時(shí)代,也可以說是一個(gè)大數(shù)據(jù)時(shí)代。比如說我們現(xiàn)在每天能出現(xiàn)2.5Q的數(shù)據(jù),如果現(xiàn)在開始每年能夠在將來10年中有50倍數(shù)據(jù)增長量,這就給大家?guī)硪粋€(gè)挑戰(zhàn),這些數(shù)據(jù)怎么辦?現(xiàn)在世界五百強(qiáng)每個(gè)公司都有一個(gè)新的計(jì)劃就是怎么來收集大數(shù)據(jù),可見大數(shù)據(jù)現(xiàn)在很重要。

究竟大數(shù)據(jù)問題是個(gè)煩惱還是商機(jī),這是所有公司和開發(fā)者思考的一個(gè)重要問題。我們現(xiàn)在所看到的好多公司一些管理層把大數(shù)據(jù)都當(dāng)成煩惱,怎么來處理?美國健康總署表示,如果把現(xiàn)在的數(shù)據(jù)都用好了,相當(dāng)于每年收入300萬美元,這相當(dāng)于大數(shù)據(jù)帶來很大商機(jī)。

KDD-CUP 2012 Solutions剖析

現(xiàn)在我們面臨的挑戰(zhàn)一方面是大數(shù)據(jù)如何能夠存儲和處理,更重要的是大數(shù)據(jù)怎么為我們造福!現(xiàn)在就有一個(gè)為用戶、為廣大網(wǎng)民服務(wù)怎么發(fā)展數(shù)據(jù)的問題。在這樣的背景下,就出現(xiàn)了KDD-CUP比賽。今年KDD—CUP選的題目有兩個(gè),一個(gè)是根據(jù)騰訊微博數(shù)據(jù),讓你算一下用戶收聽推薦的名人機(jī)率。第二個(gè)是根據(jù)搜搜商業(yè)搜索的數(shù)據(jù),推薦有用的廣告。

KDD—CUP有三個(gè)基本特點(diǎn):第一,數(shù)據(jù)比往年量大,直接來自真實(shí)產(chǎn)品運(yùn)營日志,沒有經(jīng)過任何改變;第二,參加人數(shù)與往年比也是最多的,track1三千多人,track2五千多人;第三,數(shù)據(jù)集非常復(fù)雜,參賽者需要自己進(jìn)行處理,形成所需的特征變量,且變量的最終數(shù)目還取決于參賽者處理方法,沒有標(biāo)準(zhǔn)答案。

推薦系統(tǒng)的意義和挑戰(zhàn)

現(xiàn)在數(shù)據(jù)用途從廣告搜索、娛樂、內(nèi)容等等都要服務(wù)用戶,所以推薦技術(shù)應(yīng)運(yùn)而生。但是推薦系統(tǒng)有幾個(gè)要關(guān)注的問題:

第一個(gè)是Context aware處理,Context包括時(shí)間、地點(diǎn)、涉及公司和用戶的情緒、屬性、社交網(wǎng)絡(luò)等等屬性。這個(gè)問題是我們要很好研究的課題,現(xiàn)在微博推薦也是這樣,就是不同場景下收聽率是不一樣的。

其次是Heterogenity,有不同形式不同渠道的,你怎么統(tǒng)一到一塊兒。另外你推薦應(yīng)該跟它的內(nèi)容,比如你了解不了解這個(gè)人的背景等等。

第三個(gè)做推薦必須以用戶為中心,最重要的是用戶接不接受,你別推薦了半天人家不接受,那也沒用啊。在這里有很多算法來研究,我們怎么能讓用戶感到滿意,這樣界面交互很重要,你顯示不好人家不接受,或者寫的詞跟內(nèi)容不搭界人家也不接受。

推薦方面有很多挑戰(zhàn),我總結(jié)了這幾點(diǎn):主動推薦不光是推薦什么,怎么推薦也很重要,另外隱私保護(hù)性也很重要,每個(gè)人都有個(gè)人行為,你每次推薦都是個(gè)性化的,怎么個(gè)性化又怎么保護(hù)隱私這是一個(gè)對立的問題,在移動互聯(lián)網(wǎng)下怎么推薦這對我們提出很多挑戰(zhàn)。

分享到

wangyao

相關(guān)推薦