李申申:大家好,我是知乎的李申申。剛剛主持人說有一段時間大家討論知乎上的內(nèi)容,從我們看到的情況來說,大家討論的趨勢越來越熱烈了。前面各位老師就行業(yè)趨勢產(chǎn)業(yè)大勢說了一些東西,今天我的分享和演講,可能會說一些跟知乎具體有關(guān)的一些信息。首先我想跟主辦方七牛說一下謝邀,感謝他們提供這么一個專業(yè)的平臺。果然在座的知乎用戶很多。
 
       感謝他們提供這樣一個平臺,討論這樣一個有趣的話題。但是其實剛剛接到邀請的時候,到我腦海里面的第一反映是這句話,所以想跟大家說的是,我們知乎也在做一些跟大數(shù)據(jù)有關(guān)的事情。說這個話的人其實是怪誕行為學(xué)的作者,他本身是行為經(jīng)濟(jì)學(xué)的教授。我為什么想到這句話呢?其實整體對于大數(shù)據(jù)的感覺是我們現(xiàn)在確實是處在比較早期的階段,知乎在這方面應(yīng)該是處在剛剛起步的階段,今天借這個平臺跟大家學(xué)習(xí)。說到大數(shù)據(jù),這個話題很熱,于是我在知乎上看了一下整個討論的熱度和趨勢,綠色的線,就是討論大數(shù)據(jù)的整體,在知乎上的趨勢。然后我又拿了另外一個很熱的詞,O2O,相對比較平的線是討論O2O的趨勢。我又在谷歌上看了一下討論這兩個方面的趨勢。我們發(fā)現(xiàn)11年初的時候,整個大數(shù)據(jù)關(guān)注熱度也在持續(xù)的升溫,對于O2O和共享經(jīng)濟(jì)相關(guān)的關(guān)注,反而遠(yuǎn)遠(yuǎn)不如大數(shù)據(jù)的。于是我比較好奇,我又看了另外一個大量人群的用戶,百度,我發(fā)現(xiàn)百度很有個性,它跟知乎跟谷歌都不太一樣,他們的用戶關(guān)注O2O的更多一些,關(guān)注大數(shù)據(jù)的會少一些。我不知道是不是今天百度的用戶是不是比谷歌的用戶更少一些。
 
       好的,下面開始跟知乎有關(guān)的一些話題,首先我會介紹一下知乎的一些基本面的數(shù)據(jù),從10年到現(xiàn)在已經(jīng)有兩千九百萬的用戶。這些用戶創(chuàng)造了接近620萬的問題,同時還創(chuàng)建了接近兩千萬的答案,每個月差不多有1.1億的人群使用知乎。每個月我們頁面訪問量達(dá)到三個億,所有的答案匯總起來總量達(dá)到了41億,這就相當(dāng)于一百部大不列顛百科全書,如果這個還沒有概念,鹿鼎記都看過吧?差不多相當(dāng)于2600部鹿鼎記的字?jǐn)?shù),就是在四五年前創(chuàng)建的規(guī)模吧。
 
       在知乎上,我們下面看的兩個數(shù)據(jù),應(yīng)該說也是代表了,剛才我所說的,大家的討論其實是越來越熱烈的趨勢。我們來看兩個,一個是千字以上的答案,另外一個是得到一千個贊同的答案。這里要說明的是,我們并不是以這兩個指標(biāo)來衡量作為高質(zhì)量的一個標(biāo)準(zhǔn)。但是確實如果用戶他可以寫千字的用戶,說明他的態(tài)度是認(rèn)真的。這也符合知乎的理念。另外他如果能在知乎上得到一千個贊同,說明回答質(zhì)量是比較高的。整體趨勢一直在上漲。總監(jiān)可能會有小幅的波動,那個主要是因為,可能在二月份過年的時候,應(yīng)該是互聯(lián)網(wǎng)集體的靜默期,這是得到一千個贊同回答的整體的增勢。
 
       在知乎上面其實我們討論的話題是多種多樣的,每個人腦海里面,其實都有著非常有價值的信息。知乎想做的事情是想讓每個人腦海里面有的專業(yè)知識、生活經(jīng)驗、人生見解都寫出來,這樣可以發(fā)揮更大的價值。在知乎上既可以聽到前一段時間天津爆炸的時候,有一位工程師就回答了一個問題,當(dāng)時爆炸的時候,他當(dāng)時正在附近,他當(dāng)時就想要把他剛剛修復(fù)的bug保存起來。然后你可以跟北美的人討論一些比較有趣的話題,就是在新鮮的傷口上撒一些嫩肉粉會有什么后果,當(dāng)然也可以討論各種各樣的問題,目前在知乎上討論的話題已經(jīng)達(dá)到了十萬。我們以一些知乎上的話題來說明一個情況,我們看到這里面列出了心理學(xué)的話題,互聯(lián)網(wǎng)話題以及經(jīng)濟(jì)學(xué)話題,在知乎上討論比較常見的話題,我們也可以看得出來討論的熱度,一直是比較均衡,微微上揚。這時候突然出現(xiàn)一個熱點事件,會突然抓住更多人的眼球,但是并沒有影響其他話題領(lǐng)域的討論,并且它會帶動一些相關(guān)話題,比如天津爆炸,會跟后續(xù)的討論,會有一些跟心理學(xué)有關(guān)的討論,所以我們會看到心理學(xué)的討論也微微的被帶起來了。知乎現(xiàn)在就像一個廣場,廣場中心有個噴泉,這個噴泉是大家關(guān)心的時事熱點內(nèi)容,廣場周邊有咖啡館、茶館,不同的用戶可以在不同的茶館、咖啡館里面討論他們喜歡的話題。
 
       我之前經(jīng)常被問到的一個問題,就是后加入的知乎用戶,是不是相對早期的用戶,他們在知乎上更難以存活?他們更不容易獲得別人的贊同和認(rèn)同?我這里有一組數(shù)據(jù)來說明這個問題。我們?nèi)×嗽谥跎汐@得贊同前一萬的用戶,他們的散點用戶圖,總體是比較均勻的,這個不是很清楚,我們來看一個清楚的,總體是非常均勻的,所以后加入的用戶,同樣可以產(chǎn)生,你可以獲得給更多的贊同。這個圖是指剛才的那群用戶,他們每天獲得的贊同數(shù)的情況。我們可以看到整體也是比較均勻的,所以你在知乎得到的贊同得到關(guān)注,沒有別的辦法,只有一個,在你擅長的領(lǐng)域,認(rèn)真的討論,貢獻(xiàn)你的答案。
 
       在知乎,認(rèn)真你就會贏。知乎上面其實是內(nèi)容的流動,其實是靠著很多的社交行為帶動的。我這里舉了一個例子,說明知乎流動的機(jī)制。我舉的例子是天津爆炸的時候,這上面有一些問題產(chǎn)生之后,會有用戶關(guān)注它,關(guān)注的行為會進(jìn)一步的擴(kuò)散和傳播這里面的問題。后面會有一些親歷者,比如我剛剛說到的這位工程師會去回答,以及有人邀請,還會關(guān)注,等等一系列的行為,會把它的傳播范圍不斷的擴(kuò)大,另外的用戶對應(yīng)的內(nèi)容會進(jìn)行感謝、投票、評論,他們還會相互討論,整個討論的氛圍就形成了,這個是在優(yōu)質(zhì)內(nèi)容和社交行為之間不斷的滾動。越關(guān)越大。
 
       這個就是知乎內(nèi)容流動的機(jī)制,如果沒有這些社交行為,那知乎的內(nèi)容流動起來其實是非常受限的。
 
       下面我給大家介紹的是,我們基于知乎已有的數(shù)據(jù),已經(jīng)做了哪一些基礎(chǔ)的動作。我希望借用這樣一個平臺,與大家有一個更深入的探討。在知乎上,其實剛剛說到了,有大量的用戶行為,還不止有這些行為,還有一些文本信息,這些里面其實也有分輕重,輕的每個人的閱讀,應(yīng)該是大家最常見的行為,相對重一點的是贊同,因為你贊同一個答案的時候,會或多或少想一下。還有更重的,回答。這些不同的行為,會耗費用戶不同的時間,他對這個事情的關(guān)注度。除此之外,知乎上還有大量的文本信息。這么多的信息,其實對于用戶的興趣點,以及它擅長的領(lǐng)域,我們的挖掘應(yīng)該是更準(zhǔn)確的。下面我就以知乎的CEO周源同志的數(shù)據(jù)跟大家具體講講,我們挖掘出哪一些信息。
 
       這個是周源過去半年主要的感興趣的話題領(lǐng)域。我們一眼看過去,有很多跟金融、股市相關(guān)的話題。我覺得這個可以理解。作為CEO,一定要了解市場的大勢,現(xiàn)在外面發(fā)生著一些什么,給知乎帶來哪一些影響。這里面也看到有一本書,創(chuàng)業(yè)維艱,這個我也知道,基本上跟周源吃飯,都會提到這本書里面的某一些細(xì)節(jié)。這個有機(jī)蔬菜是什么呢?其實我后來專門問過他,他說他記不太清了,其實我大概知道,他有一段時間跟我大概提起了,從上面化療那個詞開始,大家不要誤會,就是開復(fù)中間有一段時間出了一個短片,所以周源對這個感興趣,我估計有機(jī)蔬菜跟這個有關(guān)系。
 
       我們再看一下前半年關(guān)注的一些事情,稍微有一些不一樣,因為前半年的時候,我們有在硅谷辦過招聘宣講會,所以我們可以看到周源在辦宣講會的時候,可以看到他對于斯坦福大學(xué)等比較感興趣。一年半前他覺得Kindle是沒有用的東西,他說用ipad看數(shù)多好,還可以看彩色的圖。半年前他已經(jīng)買了Kindle了,現(xiàn)在每天帶著香客,不帶ipad了。
 
       接下來我們來看一下他擅長的領(lǐng)域的挖掘。我覺得總體是對于他背景的認(rèn)知是準(zhǔn)確的,不過中間有一個,我一直跟我們的工程師說,我說你們是不是算錯了?就是育兒,因為明明很多育兒的知識都是我對周源說的。我們基于這些數(shù)據(jù),其實能夠?qū)τ谟脩舻纳瞄L的與有更準(zhǔn)確的認(rèn)知,知乎有一個基礎(chǔ)數(shù)據(jù)非常重要的,我們計算了每位用戶在不同的話題下專業(yè)權(quán)重,后面會講到這個是知乎非常重要的一個數(shù)據(jù),在現(xiàn)實生活當(dāng)中,我們也可以想到,沒有全才,一定有你擅長的,一定有你不擅長的。我們來看一下周源在這一些權(quán)重里面的分布。好在育兒還是排在最后的。這個權(quán)重其實是,我們?yōu)槊總€用戶都有計算,而且計算的量是非常大的,知乎現(xiàn)在有三千萬的用戶,我們會對每個用戶不同的話題都在計算,我們現(xiàn)在有十萬個話題。而且大家可以算一下,這個量是千萬億級的量。這個數(shù)據(jù)我們以周為單位,會更新一次。
 
       我另外經(jīng)常被問到的,知乎的答案排序,有什么不一樣。因為我們后面的答案排序讓有一些人看不懂,答案排序,知乎非常關(guān)鍵的一個點。早期的知乎答案排序非常簡單,就是贊同減去反對,這個是最早期的知乎,當(dāng)時其實遇到了一些問題,就是友情票太多了,會讓不專業(yè)的一些內(nèi)容上去。然后我們做了一些調(diào)整。基于專業(yè)權(quán)重,對于每個贊同會有一些加權(quán)計算。這樣會有一些比較早的高票的回答,后面的有質(zhì)量的內(nèi)容不容易得到曝光,就會一直被壓在下面。另外一些煽動性的回答,也會吸引一些眼球,對于它的反對票如果不夠多的話,它一樣可以在比較高的位置。這兩個問題,我們繼續(xù)做了一些優(yōu)化和改進(jìn)。我們基于威爾遜智性空間,自己做了一些調(diào)整。這個算法最大的優(yōu)勢在哪里呢?我們對于每個答案分析都有一些預(yù)測,得到真實的分?jǐn)?shù),真實的分?jǐn)?shù)會讓答案在更準(zhǔn)確的位置。做知乎的改進(jìn),我們做的不同的改進(jìn),能得到不同的用戶的反饋。我們新方法上線之后,得到了用戶的不同的反饋,幫助我們后續(xù)優(yōu)化。
 
       知乎的用戶增加,對應(yīng)的我們被關(guān)注的度也會增加。知乎內(nèi)部有個強(qiáng)大的系統(tǒng),叫空,悟空,它會產(chǎn)生垃圾信息。截止到目前,它已經(jīng)處理了1.3億次垃圾請求。截止到去年才清理了1億。
 
       知乎首頁是非常重要的功能。知乎首頁這一塊,我們投入了相應(yīng)的資源進(jìn)行算法的優(yōu)化。這里我們針對不同的用戶做了非常構(gòu)型化的推薦。所以沒有兩個用戶是一模一樣的。這里面我們考慮了三個因素,第一個每個條目與用戶的關(guān)聯(lián)度,第二個用戶的行為跟看到的關(guān)聯(lián)度,還有時間是一個非常重要的因素,事件是衰減的趨勢。
 
       其他應(yīng)用的領(lǐng)域有邀請回答。邀請回答,我們希望給每個問題都找到一個合適的回答者,目前知乎上的邀請回答,90%都是來自于我們的算法推薦。剩下的10%是用戶自己的搜索,還有大家能搜到的每周精選,我們這個也做了個性化。這個個性化,目前郵件我們打開率已經(jīng)達(dá)到了30%,點擊率是14%,這個是相對于所有的edm的郵件來說是很高的。另外是相關(guān)問題,相關(guān)問題我這里特別要講一下,之前我們用的相關(guān)問題做法是直覺上基于文本的一些分析,后來我們發(fā)現(xiàn)這個是有限的,隨著知乎用戶量不斷的增大,我們換了一個思路,我們不考慮文本本身的問題,我們用協(xié)同,看用戶相似的行為,效果非常好。通過這件事,其實能看得出來,大數(shù)據(jù)基礎(chǔ)上簡單的算法,其實比小數(shù)據(jù)基礎(chǔ)上的一些復(fù)雜的算法會更有效。
 
       最后給大家分享一個其他維度的數(shù)據(jù),就是知乎團(tuán)隊的數(shù)據(jù),目前知乎團(tuán)隊的男女比例是2比1,總重一萬一千公斤,總體來說還是一個比較年輕的團(tuán)隊,平均年齡接近27歲,還有一表就是男生擁有清晰腹肌的比例接近20%,最后,知乎在做一些有趣的事情,不管你對于我們的回答感興趣,還是對于我們有腹肌的團(tuán)隊感興趣,都?xì)g迎聯(lián)系我們,謝謝大家。

分享到

zhoub

相關(guān)推薦