目前網(wǎng)易花田對(duì)數(shù)據(jù)的挖掘體現(xiàn)在三個(gè)方面:

1、基于用戶公開(kāi)顯示的基本資料,在后臺(tái)為用戶貼標(biāo)簽。

年齡、身高、職業(yè)、收入、擇偶要求等這些用戶公開(kāi)顯示的資料,最直接反映用戶的個(gè)人現(xiàn)狀和擇偶期望,但讓用戶自己去發(fā)掘的時(shí)間成本很高。網(wǎng)易花田通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行挖掘分析,為全平臺(tái)的用戶主動(dòng)推薦匹配度較高的人選。另一方面,由于用戶規(guī)模足夠大,數(shù)據(jù)分析結(jié)果還能夠基本反映出大眾的擇偶要求,比如:年齡22歲的男性用戶尋找的異性年齡段一般在18-22歲之間——這些普遍性數(shù)據(jù)也在用戶匹配中占有部分比重。

2、挖掘用戶的行為數(shù)據(jù),建立用戶的。

網(wǎng)易花田每日活躍用戶中超過(guò)30%會(huì)產(chǎn)生互動(dòng)行為:例如點(diǎn)擊感興趣異性的頁(yè)面,對(duì)異性動(dòng)態(tài)發(fā)表“贊”或評(píng)論等。用戶互動(dòng)作為一種隱式反饋,相比用戶填寫(xiě)的資料更加細(xì)致,能夠更精準(zhǔn)的反映出用戶對(duì)什么類型的異性更感興趣。一般情況下,雖然用戶的擇偶要求較明確,但基于比較泛的篩選條件,一些隱含要求比如購(gòu)房、購(gòu)車、名企、名校等沒(méi)有表達(dá)出來(lái),而網(wǎng)易花田通過(guò)對(duì)用戶行為數(shù)據(jù)的分析能夠得到更精準(zhǔn)的用戶興趣模型。

3、分析用戶Q&A數(shù)據(jù),為你推薦真正情投意合的人。

Q&A是網(wǎng)易花田推出的一個(gè)問(wèn)答題庫(kù)系統(tǒng),通過(guò)設(shè)置價(jià)值觀、興趣愛(ài)好、生活習(xí)慣、愛(ài)情觀等分類問(wèn)題,讓用戶參與答題。目前花田平臺(tái)預(yù)設(shè)300道QA題,已經(jīng)有20%左右的用戶擁有Q&A數(shù)據(jù),平臺(tái)用戶答題量數(shù)據(jù)達(dá)到千萬(wàn)級(jí)。網(wǎng)易花田對(duì)Q&A數(shù)據(jù)的分析,能夠發(fā)現(xiàn)兩個(gè)異性之間在生活習(xí)慣、價(jià)值觀、興趣愛(ài)好等方面的契合度,建立數(shù)據(jù)模型,促使用戶快速找到溝通的話題。

此外,花田技術(shù)團(tuán)隊(duì)正試圖通過(guò)自然語(yǔ)言處理技術(shù)和語(yǔ)義分析方法來(lái)解碼用戶性格,實(shí)現(xiàn)“軟硬兼施”的精準(zhǔn)推薦。首先,他們運(yùn)用切分詞方法,從用戶的“內(nèi)心獨(dú)白”中提取出現(xiàn)頻率較高的關(guān)鍵詞;再將這些關(guān)鍵詞分類,如感性詞匯或理性詞匯;最后,通過(guò)文本分析、語(yǔ)義分析,從中挖掘出用戶的性格是內(nèi)向、外向、理想化還是現(xiàn)實(shí)派等等。這一技術(shù)目前還在測(cè)試中,2013年下半年會(huì)逐步投入使用。屆時(shí),宅男“定制”女友將擁有除3D打印機(jī)之外的另外一條可行之路。

分享到

wangxueyang

相關(guān)推薦