點(diǎn)擊查看DOIT直播專(zhuān)題

6月6日上午,中國(guó)電子學(xué)會(huì)云計(jì)算專(zhuān)家委員會(huì)委員、百度公司副總裁范麗發(fā)表主題為“百度大數(shù)據(jù)與云計(jì)算”的演講。

在演講中,范麗回顧了百度過(guò)去一年在大數(shù)據(jù)和云計(jì)算方面取得的成績(jī),包括基礎(chǔ)設(shè)施和架構(gòu)的進(jìn)步、百度移動(dòng)云在基礎(chǔ)設(shè)施上的應(yīng)用,以及網(wǎng)頁(yè)搜索的改革。


中國(guó)電子學(xué)會(huì)云計(jì)算專(zhuān)家委員會(huì)委員、百度公司副總裁范麗

在基礎(chǔ)設(shè)施和架構(gòu)的進(jìn)步方面,范麗談道,百度一直是全球前五大互聯(lián)網(wǎng)公司之一,用戶(hù)量也是前五大。存儲(chǔ)能力是大于2千PB,處理量是10到100萬(wàn)PB每天,收錄的網(wǎng)頁(yè)有千億和萬(wàn)億。百度做云計(jì)算有一個(gè)很大的目標(biāo),就是盡量降低成本,提高效率。在過(guò)去的10個(gè)月,從去年7月到今年4月,每GB的存儲(chǔ)空間成本降低超過(guò)50%。當(dāng)然,這是硬件和軟件同時(shí)進(jìn)步的結(jié)果。除此之外,百度還通過(guò)GPU提高到34倍的計(jì)算能力。整機(jī)柜服務(wù)器已經(jīng)在南京機(jī)房上柜,自主研發(fā)的萬(wàn)兆設(shè)備可以使接入成本下降83%。這些都是百度在基礎(chǔ)設(shè)施和架構(gòu)方面取得的進(jìn)步。

據(jù)范麗介紹,百度在北京的數(shù)據(jù)中心達(dá)到了年平均PUE1.36,最佳平均1.18,在北京這樣的條件能達(dá)到全年約一半的時(shí)間完全免費(fèi)冷卻。

談到大數(shù)據(jù)和云計(jì)算的發(fā)展,范麗認(rèn)為大數(shù)據(jù)在云計(jì)算時(shí)代真正火起來(lái)需要一定的條件,從百度的時(shí)間過(guò)程中看到,大數(shù)據(jù)還需要很多的技術(shù)才能真正發(fā)揮作用。

百度最新一代搜索將加入“智能推薦”

百度從09年開(kāi)始研究新一代搜索——即搜即得、即搜即用、不搜即得。最新一代的搜索百度做了更深度的數(shù)據(jù)挖掘,用數(shù)據(jù)圖譜的關(guān)系挖掘出更深層次的知識(shí)關(guān)聯(lián),能夠在網(wǎng)頁(yè)的右側(cè)給用戶(hù)帶來(lái)一些嶄新的興趣激發(fā)。

范麗舉例解釋道,例如在百度上搜李德毅院士,左側(cè)是所有關(guān)于李院士的各種信息,李院士的百度百科,包括他最新的新聞,他的圖片,他寫(xiě)的著作在百度文庫(kù)上的存儲(chǔ)等等,這是很自然的搜索,沒(méi)有加入任何處理。右側(cè)我們想推介一些關(guān)聯(lián)性的信息,比如說(shuō)有哪些李院士的同事是工程院院士?有哪些李院士涉及比較多的領(lǐng)域?最有趣的是推廣鏈接,是關(guān)于李院士自己著作的一些書(shū)籍的廣告,這些是綜合的整合和深度的挖掘,這是我們下半年做的“智能推薦”。

以下是演講全文:

范麗:在座的各位專(zhuān)家,各位領(lǐng)導(dǎo),大家早上好!很高興今天有機(jī)會(huì)跟大家分享一下百度在這一年來(lái)在云計(jì)算和大數(shù)據(jù)上的工作和成績(jī)。同時(shí),我也想借此機(jī)會(huì)闡述一下我在百度負(fù)責(zé)云計(jì)算和大數(shù)據(jù)的感想和觀點(diǎn)。

今天我的演講主要分三個(gè)部分:第一部分,跟大家一起回顧一下這一年來(lái)百度云計(jì)算和大數(shù)據(jù)的成績(jī)。取得的成績(jī)主要分三個(gè)部分,一部分是基礎(chǔ)設(shè)施和架構(gòu)上所做的工作。第二部分是百度移動(dòng)云在架構(gòu)和基礎(chǔ)設(shè)施上的應(yīng)用。第三部分介紹一下我最新負(fù)責(zé)的網(wǎng)頁(yè)搜索的改革。

第二部分我想介紹一下云計(jì)算的厚積和薄發(fā)。我之所以選擇這個(gè)標(biāo)題,是想跟大家探討一下云計(jì)算經(jīng)過(guò)這么多年的積累是不是已經(jīng)到了薄發(fā)的階段,我覺(jué)得很快到了,但還有很多問(wèn)題需要解決,才能真正爆發(fā)出它的威力。

第三部分,我總結(jié)一下我個(gè)人認(rèn)為大數(shù)據(jù)在云計(jì)算時(shí)代真正火起來(lái)需要的條件。聽(tīng)了懷校長(zhǎng)的講話,我覺(jué)得很多觀點(diǎn)都是相似的,大數(shù)據(jù)還要很多的技術(shù)提升才能讓大數(shù)據(jù)真正發(fā)揮作用。

先簡(jiǎn)單回顧一下百度在基礎(chǔ)架構(gòu)和設(shè)施方面的發(fā)展。我們的存儲(chǔ)能力是大于2千PB,處理量是10到100萬(wàn)PB每天,收錄的網(wǎng)頁(yè)有千億和萬(wàn)億。這些數(shù)據(jù)是跟世界一流的互聯(lián)網(wǎng)公司媲美的,百度一直是全球前五大互聯(lián)網(wǎng)公司之一,用戶(hù)量也是前五大。

我們過(guò)去做云計(jì)算有一個(gè)很大的目標(biāo),就是盡量降低成本,提高效率。在過(guò)去的10個(gè)月,去年7月到今年4月,每GB的存儲(chǔ)空間成本降低超過(guò)50%。當(dāng)然,這是硬件和軟件同時(shí)進(jìn)步的結(jié)果。

這些是我們?cè)诨A(chǔ)設(shè)施方面取得的進(jìn)步。今天下午還有專(zhuān)題的報(bào)告,我們的GPU可以提高34倍的計(jì)算能力。整機(jī)柜服務(wù)器已經(jīng)在南京機(jī)房上柜,自主研發(fā)的萬(wàn)兆設(shè)備可以使接入成本下降83%。

我們的國(guó)內(nèi)大型數(shù)據(jù)中心PUE的最佳實(shí)踐,在北京的數(shù)據(jù)中心達(dá)到了年平均PUE1.36,最佳平均1.18。在座的一些領(lǐng)導(dǎo)應(yīng)該跟我們的團(tuán)隊(duì)一起參觀過(guò),我本人也多次去數(shù)據(jù)中心。在北京這樣的條件能達(dá)到全年約一半的時(shí)間完全免費(fèi)冷卻。

在基礎(chǔ)方面有了這么好的架構(gòu)和設(shè)施,我們也做了非常多的大數(shù)據(jù)工作。百度做大數(shù)據(jù)是天然的,必須做,而且能做得好的工作。首先我們有非常多的數(shù)據(jù),不管是用戶(hù)數(shù)據(jù)、網(wǎng)頁(yè)數(shù)據(jù),還是互聯(lián)網(wǎng)上各種各樣的暗網(wǎng)數(shù)據(jù),百度在十多年的積累中已經(jīng)存儲(chǔ)了很多、處理了很多,這幾年更要做到非常智能的分析,能夠在分析處理計(jì)算中給用戶(hù)帶來(lái)更多的價(jià)值。

下面我再簡(jiǎn)單介紹一下移動(dòng)云應(yīng)用。如果在座各位參加了去年的百度云開(kāi)發(fā)者大會(huì),已經(jīng)看到過(guò)我們的七種武器。下面我簡(jiǎn)單介紹一下百度移動(dòng)云的思路,它是依托在傳統(tǒng)云計(jì)算上的優(yōu)勢(shì),給用戶(hù)提供個(gè)人云,以個(gè)人需求為中心,讓用戶(hù)擁有計(jì)算、存儲(chǔ)的能力。你不需要擔(dān)心存儲(chǔ)空間,不需要擔(dān)心安全和備份。當(dāng)我們的生活中有多種設(shè)備,Pad也好,手機(jī)也好,一處修改,多端同步。

今天的主題并不是講移動(dòng)云,我只是簡(jiǎn)單介紹一下。其實(shí)我們的移動(dòng)云還有多種多樣的武器,有興趣的同學(xué)可以再看一下。

總體來(lái)說(shuō),百度的思路就是我們有云能力,我們建設(shè)云平臺(tái),我們希望開(kāi)發(fā)者用最少的成本獲取用戶(hù)流量,獲取收益。也希望用戶(hù)有更多的個(gè)性化的創(chuàng)意云服務(wù)。我們之所以能做這些,是因?yàn)榘俣裙驹谧鏊阉饕娴臅r(shí)候積累了很多技術(shù),也積累了很多自己的想法。

我們的個(gè)人云服務(wù)產(chǎn)品在短短的一年多時(shí)間獲得了非常多的好評(píng),使用率、品牌影響力都是名列前茅的。

有一個(gè)數(shù)字可以分享,我們的開(kāi)發(fā)者注冊(cè)量到5月初已經(jīng)突破了20萬(wàn),這些都是在百度云平臺(tái)上,希望能夠面向用戶(hù)的非常有創(chuàng)意的開(kāi)發(fā)者。

最后一點(diǎn)是我想介紹一下百度下半年開(kāi)始研究的新一代搜索。即搜即得、即搜即用、不搜即得,不僅是給你帶來(lái)很好的信息,同時(shí)應(yīng)用也好,各種暗網(wǎng)信息也好,都能夠非常便捷。這個(gè)是從09年開(kāi)始研究的。

最新一代我們做了更深度的數(shù)數(shù)據(jù)挖掘,用數(shù)據(jù)圖譜的關(guān)系挖掘出更深層次的知識(shí)關(guān)聯(lián),能夠在網(wǎng)頁(yè)的右側(cè)給大家?guī)?lái)一些嶄新的興趣激發(fā)。這是我舉的一個(gè)例子。如果你在百度上搜李德毅院士,左側(cè)是所有關(guān)于李院士的各種信息,這個(gè)是很自然的,沒(méi)有經(jīng)過(guò)任何處理。我也搜過(guò)懷校長(zhǎng),也搜過(guò)吳部長(zhǎng),基本上是類(lèi)似的。李院士的百度百科,包括他最新的新聞,他的圖片,包括他寫(xiě)的著作在百度文庫(kù)上的存儲(chǔ)。右側(cè)更多的并不是主需求,而是我們想推介一些關(guān)聯(lián)性的信息,比如說(shuō)有哪些李院士的同事是工程院院士,另外還有哪些李院士涉及比較多的領(lǐng)域。我覺(jué)得最有趣的是推廣鏈接,是關(guān)于李院士自己著作的一些書(shū)籍的廣告,我自己感覺(jué)還是很相關(guān)的。這些是綜合的整合和深度的挖掘,這是我們下半年做的智能推薦。

第二步是整體的百科知識(shí)。我自己也有小孩,他們非常關(guān)心各種各樣的博物館。我舉一個(gè)例子,上海博物館,在左側(cè)有關(guān)于上海博物館這個(gè)主體的各種信息。在右側(cè),我們看到了有幾層不同的信息展現(xiàn)。第一層是博物館的展品。第二層是上海市區(qū)比較熱門(mén)的展覽景點(diǎn),如果你去上海博物館,有可能關(guān)心附近的其他熱門(mén)展點(diǎn)。第三層,有些人到上??赡芸床┪镳^,也可能去城隍廟,也可能去新天地。

第三個(gè)例子是醫(yī)療。最近我們?cè)卺t(yī)療上有很多改革,這是我們的積累。百度百科積累了很多用戶(hù)信息,我們做的是進(jìn)一步整合,將一個(gè)癥狀拓展到其他病人提出的問(wèn)題,也拓展到這個(gè)癥狀可能帶來(lái)的其他疾病,也拓展到因?yàn)槟阆胫尾《枰尼t(yī)生和醫(yī)院。

以上是百度在過(guò)去幾年中在云計(jì)算和大數(shù)據(jù)方面的實(shí)踐。今天我還想跟大家探討一下云計(jì)算是否到了厚積薄發(fā)的階段。我覺(jué)得在相關(guān)領(lǐng)導(dǎo)的關(guān)心和行業(yè)努力下,已經(jīng)積累了很多的能力,但有沒(méi)有薄發(fā),我要跟大家探討一下。

我個(gè)人認(rèn)為互聯(lián)網(wǎng)的發(fā)展一直到了98年、99年,有了谷歌、百度這樣的搜索引擎才真正爆發(fā)。在沒(méi)有搜索引擎之前,用戶(hù)看不到很多網(wǎng)上的內(nèi)容,你非常困難地知道原來(lái)互聯(lián)網(wǎng)有這么多的信息,這么多有用的東西。有了搜索引擎,讓人們更多、更快、更便捷、更整合地看到這些信息,因?yàn)橛脩?hù)看到了它的價(jià)值,商家看到了它的價(jià)值。搜索引擎發(fā)展到現(xiàn)在,我們經(jīng)歷了SNS,也經(jīng)歷了移動(dòng)互聯(lián)網(wǎng)設(shè)備的變遷,用戶(hù)不僅可以通過(guò)PC接觸互聯(lián)網(wǎng),你的Pad、手機(jī)、智能電視,可以隨時(shí)隨地接觸到互聯(lián)網(wǎng),整體的威力應(yīng)該更大。是不是已經(jīng)爆發(fā)出來(lái)了?云計(jì)算本身已經(jīng)打好了非常深厚的基礎(chǔ),但這個(gè)引爆點(diǎn)有沒(méi)有到來(lái)?我覺(jué)得還需要做更多的努力。

為什么這么說(shuō)?我想舉幾個(gè)例子。在今年年初,江浙地區(qū)爆發(fā)了禽流感,引起了全國(guó)的恐慌。從正面來(lái)看這個(gè)例子,比起十年前的SARS,政府、社會(huì)的反饋都是非常正面,而且迅速的。百度做了什么?應(yīng)該說(shuō)這就是今天禽流感的結(jié)果,我們?cè)谧髠?cè)整合了很多跟禽流感的信息,在右側(cè)推薦了預(yù)防方法和與疫情相關(guān)的內(nèi)容。

再比如雅安地震。在當(dāng)天,百度公司所有產(chǎn)品人員都聚集在公司,我們整合了很多信息,比如全網(wǎng)尋人、其他互聯(lián)網(wǎng)尋人的平臺(tái),還包括地圖實(shí)時(shí)的救援路線。

我個(gè)人覺(jué)得我們可以做得更多。有哪些呢?比如剛才懷校長(zhǎng)講到了,如果數(shù)據(jù)分析達(dá)到一定的水平,是不是可以預(yù)測(cè)流感的趨勢(shì)?如果百度可以非常迅速地把信息整合起來(lái)給用戶(hù)看,能不能做到預(yù)測(cè)?包括余震的時(shí)間,百度也是盡我們的所能在第一時(shí)間發(fā)布。但是,我覺(jué)得從時(shí)間的發(fā)布到百度公司能夠拿到信息,由于線上和線下的阻礙,時(shí)間會(huì)比較慢。還有就是余震的路線,在雅安救災(zāi)的過(guò)程中有很多不必要的阻礙,比如救援的路線、高速的擁堵,很多互聯(lián)網(wǎng)公司已經(jīng)獲得了這些信息,但我可以想象救援的隊(duì)員懷著一腔熱忱去救援的時(shí)候,他身邊沒(méi)有能力及時(shí)的拿上PC上百度或者是其他互聯(lián)網(wǎng)。如果我們能夠及時(shí)整合到手機(jī)里面,一旦我們意識(shí)到你的路線在下一步會(huì)有所擁堵,我們會(huì)通知你換一條路,給一線的救援人員讓路。我覺(jué)得這些信息都散落在各地,但是把它串聯(lián)起來(lái)的工作還需要做。

接下來(lái)的例子是我們一直說(shuō)的醫(yī)療。在5月初,百度上了一個(gè)新的交互模式,比如你搜小兒咳嗽,我們會(huì)根據(jù)癥狀來(lái)分析有可能是小兒支氣管炎,也有可能是小兒肺炎。同時(shí),如果你想治病,向你推薦在你這個(gè)地區(qū)有哪些知名的醫(yī)院,有哪些權(quán)威的醫(yī)生。如果點(diǎn)這個(gè)權(quán)威的醫(yī)生,下面的詞條會(huì)展開(kāi)說(shuō)這個(gè)醫(yī)生有可能幫助你。這已經(jīng)不是我們簡(jiǎn)單地告訴用戶(hù)一些簡(jiǎn)單的詞條,而是可以直接告訴你下一步想知道的信息。

醫(yī)療是民生的剛需,在座各位都知道在中國(guó)看病非常難,像協(xié)和、北醫(yī)三院這樣的好資源非常少。每一個(gè)人看病,不管是給父母,還是給孩子,我相信都經(jīng)歷過(guò)掛號(hào)難、咨詢(xún)難,想找到靠譜的醫(yī)生難。在這些方面,我們能做哪些工作。百度在這個(gè)方面已經(jīng)有很多的積累和研究,下一步會(huì)做更多的。在網(wǎng)上賣(mài)藥品的時(shí)候,是不是能迅速判斷藥品的真?zhèn)?我們已經(jīng)推出了藥監(jiān)局和我們聯(lián)合發(fā)布的權(quán)威數(shù)據(jù),如果你有藥品的名字,它的號(hào)碼能夠查到藥監(jiān)局審批的時(shí)間和信息。

如果是用戶(hù)的情況,有一些小毛病,比如我孩子身上找一些瘊子,網(wǎng)上一查,如果整合得好會(huì)發(fā)現(xiàn)如果經(jīng)常游泳,孩子就容易長(zhǎng)瘊子,有一些很基本的自我治療的方法,你就不需要擠到醫(yī)院去排隊(duì)兩個(gè)小時(shí)問(wèn)醫(yī)生5分鐘。

我們也會(huì)積極地整合一些社區(qū),比如你家里有一個(gè)常年中風(fēng)的老人,有哪些基本的預(yù)防措施和護(hù)理措施,百度經(jīng)過(guò)多年的產(chǎn)品積累,這些服務(wù)是可以給大家提供的。

我們?cè)诨ヂ?lián)網(wǎng)積累了這么多數(shù)據(jù)的情況下,還有很多工作可以做,而且能夠切實(shí)地幫到我們的用戶(hù)。

再看一下交通,很多人為了參加大會(huì),今天又是北京的霧霾天,肯定需要提前設(shè)計(jì)好路線,能夠提早到達(dá)會(huì)場(chǎng)。在交通中,我們已經(jīng)做了很多,比如百度地圖會(huì)提供實(shí)時(shí)的交通擁堵路線圖。有一些開(kāi)車(chē)的人知道,可能過(guò)了半個(gè)小時(shí),中間有一個(gè)交通的管制或者是事故,綠色可能就變成紅色。當(dāng)時(shí)你已經(jīng)在路上了,你怎么辦?在這一點(diǎn)上,你可以想到,我們今天有云計(jì)算,多個(gè)設(shè)備信息同步,這些技術(shù)都是有的,只是我們的產(chǎn)品開(kāi)發(fā)者還沒(méi)有想得更深、更透,能夠把用戶(hù)的需求串聯(lián)起來(lái)。剛才我講到交通擁堵的實(shí)時(shí)變化情況。如果你開(kāi)在一條路線上,是這個(gè)應(yīng)用的用戶(hù),這個(gè)應(yīng)用完全可以跟百度地圖結(jié)合起來(lái),發(fā)現(xiàn)一個(gè)事故的時(shí)候,它會(huì)告訴你可以選擇另一條路線。像這樣的例子,我們從技術(shù)上和云計(jì)算的能力上已經(jīng)準(zhǔn)備好了。但是,從產(chǎn)品理念上,過(guò)去還是更多關(guān)注企業(yè)的效率、成本,還沒(méi)有關(guān)注到民生,將用戶(hù)在生活中的每一步串聯(lián)起來(lái)。

最后再介紹一下教育。這個(gè)是2013年的在線教育趨勢(shì)。這幾年,美國(guó)在線教育的發(fā)展規(guī)模一直在穩(wěn)步上升。在中國(guó)也有一個(gè)緩慢上升的趨勢(shì),但這個(gè)趨勢(shì)比起美國(guó)來(lái)說(shuō)還是比較緩慢。另外就是教育的民主化。

在中國(guó)的教育行業(yè),我們都是在中國(guó)的教育體制下成長(zhǎng)起來(lái)的,很多人都知道入學(xué)難、擇校難,我們要做各種各樣的選擇,很多信息是缺失的。我舉一個(gè)例子,百度公司有一位非常有名的科學(xué)家,最近他的小孩是小升初,他原來(lái)在市中心念一個(gè)非常好的名牌小學(xué),他希望他的小孩既能夠有嚴(yán)謹(jǐn)?shù)膶W(xué)業(yè),也能夠獲得開(kāi)放的心態(tài)。他自己是做搜索引擎的,經(jīng)歷了多輪的搜索,很痛苦的折磨,最后他告訴我找到了所有的信息,但基本上是太太全職在家搜索了一個(gè)多月,才把所有的信息匯總起來(lái)。

從這個(gè)例子可以看到信息的不整齊、不透明、不公開(kāi),使用戶(hù)在生活中進(jìn)行選擇的時(shí)候有很多困難。但這些信息本身完全可以公開(kāi),我相信我們的政府、我們的各位專(zhuān)家堅(jiān)信是可以公開(kāi)的,是可以給用戶(hù)帶來(lái)價(jià)值的,但我們還沒(méi)有做到這一步。我希望在座的開(kāi)發(fā)者們能夠跟百度公司一起多想一想用戶(hù)真正的剛需,他生活中的衣食住行需要的。把我們這么多年積累的智能化的數(shù)據(jù)分析、智能化的數(shù)據(jù)理解、云計(jì)算的能力發(fā)揮出來(lái)。

最后我總結(jié)一下,如果想讓大數(shù)據(jù)真正活起來(lái),第一,非常欣喜的是在我們這么多年的積累過(guò)程中,云計(jì)算已經(jīng)有了整合處理分析大數(shù)據(jù)的能力。但是,要改變生活,首先要改變意識(shí)。不僅僅是成本的問(wèn)題,不僅僅是效率的問(wèn)題,還有便捷性、連貫性和整合的問(wèn)題。在我剛才舉的很多例子當(dāng)中,我們的信息是碎片化的。

我們也有很多在線教育、醫(yī)療信息化的工作,我剛才在臺(tái)下讀了云計(jì)算大會(huì)的安排,包括有一個(gè)醫(yī)療信息化的專(zhuān)題。就像這些教育、醫(yī)療,我們每個(gè)人都真心關(guān)切,是云計(jì)算和大數(shù)據(jù)要真正做到的,要真正改變的。很多例子的瓶頸在于線下到線上,我們有那么多的數(shù)據(jù),全國(guó)有那么多優(yōu)秀的醫(yī)生、優(yōu)秀的醫(yī)院、優(yōu)秀的老師,他們的精力、他們所特長(zhǎng)的、他們對(duì)教育、醫(yī)療的觀點(diǎn)有很多,從線上到線還沒(méi)有做到。還有一點(diǎn)是我一直強(qiáng)調(diào)的,就是要?jiǎng)傂琛T谏钪胁豢苫乇艿囊欢ㄊ墙逃?、醫(yī)療、出行。數(shù)據(jù)的信息化、公開(kāi)化、實(shí)時(shí)化是大數(shù)據(jù)要活起來(lái)的基本要素。大數(shù)據(jù)活起來(lái)了,使用的靈活了,我們才能真正用技術(shù)改變生活、改變社會(huì)、改變自己。

謝謝大家!

分享到

tangrong

相關(guān)推薦