余凱
以下為百度深度學習實驗室主任余凱演講實錄:
余凱:各位來賓、各位同行、各位朋友,歡迎來到百度大數(shù)據(jù)論壇,剛才祥云醫(yī)療胡總舉的例子,其中拍照識別皮膚病技術(shù)是我們IDL的小伙伴們開發(fā)的基于深度學習的圖象識別技術(shù),通過我們的技術(shù)創(chuàng)新讓大家的生活更加健康,更加美好,這就是我們工作的意義所在。下面我給大家分享一下我們從事深度學習構(gòu)建百度大腦的思考。
人工智能很重要
這個是麻省理工學院科技理工雜志在三天前提供的一個文章,他講的是介紹百度的人工智能之夢,介紹百度技術(shù)、人才方面的積累。百度從它誕生的第一天開始它就是一個人工智能公司,一方面我們通過搜索引擎滿足用戶每天的搜索請求,產(chǎn)生大量的用戶數(shù)據(jù)。另一方面我們提供價值,連接人和廣告,讓千千萬萬的商家能夠找到他的顧客資源,這種從數(shù)據(jù)到價值之間有一個橋梁,這個橋梁在百度就是基于百度大數(shù)據(jù)人工智能,包括自然語言的理解,包括機器學習,也包括今天Robin和勁都提到語音識別圖象識別等方方面面的技術(shù),使得百度能夠把大量的海量數(shù)據(jù)轉(zhuǎn)化成商業(yè)價值。
在座某些朋友可能知道這個著名的曲線,這個是Gartner每年都要發(fā)表的趨勢表,顯示出科技往前發(fā)展的趨勢,這個HYPE是什么意思,可以理解為我們中國人講的“忽悠”,所以比如說3D打印到現(xiàn)在到一個期望的頂點。但是當前的技術(shù)并不是那么成熟,因此大家對他的期待會降低。但是市場不斷往前推進,同時技術(shù)也會逐漸成熟,慢慢真正的市場機會來臨,比如語音識別,圖像識別就是。
這個圖表里面大量的技術(shù),比如說語音識別,虛擬現(xiàn)實,機器人,智能推薦,都是跟人工智能有關(guān)。人工智能就是如此重要,包括最近我們看到在美國的Google,F(xiàn)acebook,他們都相當重視人工智能。在中國,百度是最重視人工智能研發(fā)的互聯(lián)網(wǎng)公司。前不久,我們的國家領(lǐng)導人習總書記在院士大會上也提及人工智能是第三代產(chǎn)業(yè)革命。
核心戰(zhàn)略——深度學習
人工智能取得最突破性的進展并且迅速在工業(yè)界產(chǎn)生影響的一個極為成功的例子,就是深度學習。同樣這也是麻省理工學院科技評論雜志將深度學習技術(shù)列為十大通用技術(shù)之首的原因,這個最初來自學術(shù)界的研究成果影響到各大高科技公司的速度和廣度是非常罕見的。我們有幸把包括Google大腦之父吳恩達在內(nèi)的世界最頂級專家吸引到百度,他是在這個領(lǐng)域赫赫有名的人物。
百度在整個互聯(lián)網(wǎng)業(yè)和高科技行業(yè)是領(lǐng)先者,因為我們是最早把深度學習做為公司的核心戰(zhàn)略方向的高科技公司。我們在去年年初宣布成立IDL,這是百度歷史上第一次宣布成立研究機構(gòu),核心目標是研究基于大數(shù)據(jù)的人工智能。
機器學習在過去30多年的時間里大致分為兩個階段,第一個階段是淺層學習。第二個階段從2006年開始進行更深層的學習。深度學習最吸引大家的一個原因在于它在很大程度上模擬了人腦神經(jīng)網(wǎng)絡的結(jié)構(gòu)和行為,這里面的細節(jié)不多講,但是就我們目前所知道的比如說對于圖象的處理,我們通過訓練得到的深度卷積網(wǎng)絡,跟我們目前所知道的對人的視覺皮層神經(jīng)元的行為有驚人的類似,我們同樣發(fā)現(xiàn)人對聽覺感知也有類似的情況。
百度大腦經(jīng)過過去一年多的時間,它經(jīng)歷了一個高速發(fā)展的階段。今天,百度大腦無時無刻不在學習,就像人腦一樣,今天和昨天是不一樣的,會越來越聰明。我們現(xiàn)在能構(gòu)建世界上最大的深度神經(jīng)網(wǎng)絡,達到百億級參數(shù)。剛剛永忠提到我們的GPU,我們的數(shù)據(jù)中心,方方面面的能力不是一朝一夕能夠積累的,百度過去在大數(shù)據(jù)方方面面的積累,通過這種能力我們才能更好的開發(fā)各自不同的深度學習模型,應用于圖像和語音識別,搜索,和廣告推薦技術(shù)等等。
百度大腦智能連接
百度大腦讓連接更智能。首先人來到百度這個平臺,表達他的搜索需求,這個搜索需求有可能是關(guān)鍵詞,有可能是一段話,有可能是拍個照片,就要靠百度大腦來識別用戶的意圖,在精確識別用戶搜索意圖后,我們用深度學習來對網(wǎng)頁語義相關(guān)性排序,從而匹配用戶需求,這就完成了人與信息的連接。另一方面是連接人與廣告和服務,我們通過大規(guī)模的深度學習,去估計和優(yōu)化點擊率和轉(zhuǎn)化率,進而把人連接到所需要的廣告和服務。我們的深度學習已經(jīng)用在百度核心業(yè)務的方方面面,真正實現(xiàn)智能連接人和信息,智能連接人和服務。
深入百度大腦,百度大腦里用到一種叫深度語義神經(jīng)網(wǎng)絡的模型,它是百度大腦用于自然語言,去匹配query和網(wǎng)頁的語義相關(guān)性,這是業(yè)界第一次把深度學習用于提升搜索精度的成功案例,也是迄今為止深度學習用于語言文本信息最成功的應用。另外,我們的鳳巢廣告系統(tǒng),它背后基于機器學習的點擊率預估模型,從第一代淺層的機器學習模型,已經(jīng)過度到到用更復雜的模型、更深的模型的時代。
同樣我們不斷的講到大數(shù)據(jù),大數(shù)據(jù)實際上給深度學習給人工智能帶來很大的機會。但如何處理大數(shù)據(jù)、如何獲得大知識、給我們帶來了新的技術(shù)挑戰(zhàn)。怎么樣去處理?我們是世界上最早大規(guī)模的利用GPU做深度學習的高科技公司,我們通過各種各樣的數(shù)據(jù)并行,模型并行去處理這些海量數(shù)據(jù)。我們還可以支持,生成,配置針對不同的應用、不同的場景和不一樣的網(wǎng)絡結(jié)構(gòu)。在今天Robin也提到了,在中文語音移動搜索的方面,在基于內(nèi)容的圖像搜索方面,我們現(xiàn)在做到了世界領(lǐng)先,這個是跟我們在大數(shù)據(jù)訓練深度神經(jīng)網(wǎng)絡所取得的進展分不開的。
基于深度學習的OCR技術(shù),還可以像人一樣讀懂文字。比如一個實際的例子,我一個外國朋友在上??吹侥硞€菜單,他想知道這個菜單中是否滿足他想要的菜品需求,他拍照用百度翻譯,識別菜單上道菜是牛肉拉面,通過識別后翻譯成英文,并有語音的合成,所以這一款小小的APP,體現(xiàn)了百度在方方面面的人工智能領(lǐng)域都有非常深的積累。
我們剛剛上線的拍照答題,在一款產(chǎn)品叫作業(yè)幫里。我估計在小朋友們的暑假中可得到廣泛應用,如果假期玩得很開心,但臨近開學還沒有做作業(yè)怎么辦。就像這頁PPT顯示的例子,他們可以用這款產(chǎn)品拍下題目,我們的作業(yè)幫馬上就識別題目,并能找到答案。小朋友們該多開心啊。當然,也許這個對于家長就不那么喜歡了。
不僅是中文OCR,在英文OCR識別方面,我們也都做到世界領(lǐng)先。這里展現(xiàn)的這些例子,人不一定都認清的英文,但是我們的機器能夠識別。
百度擁有世界領(lǐng)先的基于內(nèi)容的圖像搜索技術(shù),比如跟我們的競爭對手比,無論是識別結(jié)果還是搜索相關(guān)性都大幅度領(lǐng)先。希望機器能夠像人一樣去理解圖片,這個是很有挑戰(zhàn)性的。在兩個禮拜前百度推出了百度移動搜索APP 5.5版本,這個是歷史的進步。這是世界上第一款基于深度學習的拍照實物搜索??催@些例子:拍書可以知道這個書的價格,知道它在哪里能夠買到;小朋友拿著爸爸媽媽的手機,看著好玩的玩具直接下單,這是多么開心的一件事情;再比如說你要是看見朋友的衣服或者包包非常好看,拍了直接可以下單。
我們在這里看看百度大腦的全景圖。我們以前是獲取互聯(lián)網(wǎng)信息,然后做搜索做廣告,所有一切都是在虛擬世界完成。但是現(xiàn)在所有的服務離現(xiàn)實世界越來越近,離人越來越近,所以我們通過自然交互,通過穿戴式,了解人的需求,另外物理世界的信息,比如商店,場景,街道,天氣等等,都跟我們推送的服務的相關(guān)性息息相關(guān),我們現(xiàn)在需要通過智能感知技術(shù)獲取人和場景的信息,才能推薦更加相關(guān)的服務。還有,我們看服務的執(zhí)行階段,以前互聯(lián)網(wǎng)上完成一個預測,做出一個決策,之后是由人去執(zhí)行,從而完成整個互聯(lián)網(wǎng)服務環(huán)節(jié)。未來的互聯(lián)網(wǎng)服務,需要機器,或者說機器人,自動的完成這服務的最后一公里。比如說某一個人想吃披薩,在網(wǎng)上下單后,一般是要由人來完成制作披薩,然后遞送到家的。但是,這個體驗不一定最好,因為如果機器知道個性化的口味需求,能千人千面的私人定制這個披薩,而且,自動駕駛能更高效便捷的將披薩送到家里。所以說,互聯(lián)網(wǎng)的人工智能一定會從數(shù)字世界的智能延伸到物理世界的智能,機器人是大勢所趨。
王勁也講到了,自動駕駛項目,需要建立感知能力,決策能力,還有不斷自主學習的能力,可以說是人工智能技術(shù)的集大成者。從這里的畫面可以看到,我們的團隊是非常精神飽滿的去做這個項目,不光是硬件,我們需要算法做各種條件下面的路面目標檢測,比如車和行人,我們還需用OCR技術(shù)識別交通標志,還有集成配準各種傳感器的信息,形成統(tǒng)一的路況感知。所以你們能夠看到今天早上在勁的演講里的視頻,車能夠在路面對各種路況做精確識別和理解。
更多深刻學習的思考
此外,我們還能做哪些基于人工智能的產(chǎn)品去影響人的生活?我們看到過去移動設(shè)備發(fā)展的趨勢,現(xiàn)在每個人每天都會用移動設(shè)備進行大量拍照,移動攝像頭已經(jīng)成為人眼的延伸,順著這個趨勢,2014年后會發(fā)生什么事情,會有什么樣的智能硬件,我們不斷的在思考??催@頁ppt, 人眼的延伸的這款智能設(shè)備,是這樣的一種形態(tài)嗎?我們看過去在智能穿戴行業(yè),智能眼鏡成為智能穿戴設(shè)備的一個品類,大家都在探討它的應用場景,應該怎么樣往前。但我們覺得它可能是要糾正,我們覺得它應該是人眼的“自然”延伸,我們覺得這個自然非常非常重要。大家看,這款設(shè)備叫BaiduEye,就是我們思考的一個結(jié)果,我們非常強調(diào)它是Eye,而不是Glass,因為Eye是自然的人的身體的一部分,Glass是附帶外加的。它就像一個助手一樣,它真的知道你無時無刻在看什么東西,從而真的把互聯(lián)網(wǎng)后臺的服務變成你的大腦,讓你知道如何去更加精準的決策。
這樣的設(shè)備戴在人的腦袋上面是怎么樣一個情況?那我們大家來感受一下,看這頁PPT。
大家可能也關(guān)心,在一個真實的場景下面,人們戴著BaiduEye是不是足夠帥。下面我們請百度的少帥學者顧嘉唯先生上來 …[一段互動和演示]。謝謝嘉唯。我們看看在更多的場景下,大家用BaiduEye可以干什么,請大家來看一段視頻。
看了這段視頻,我們體會到,科技讓我們發(fā)現(xiàn)這個世界更加精采。正如今天上午王勁的那句話,有了這么樣一款設(shè)備,我們整個世界都變成一個大的櫥窗。這里實際上透露了我們對BaiduEye的應用場景的一個思考。下面我想跟大家介紹下一位演講嘉賓。在過去不長的時間里面,我有幸認識到一個朋友,這個朋友他帶領(lǐng)著中國家喻戶曉的一個非常高端、非常成功的一個商業(yè)集團,但是真正吸引我的,他不但是商界領(lǐng)袖,更是對未來的一個思考者。他跟我分享未來科技會在線下的場景給零售服務業(yè)帶來革命,他有很多的思考,讓我覺得非常受啟發(fā)。我現(xiàn)在給大家隆重介紹這位朋友,他就是銀泰投資有限公司,銀泰商業(yè)集團的CEO陳曉東先生。在陳總上做精彩分享之前,我們先看一段視頻,看看BaiduEye對于商家來說它意味著什么,它跟商業(yè)零售在線下結(jié)合,它會引發(fā)什么樣的事情,請看視頻。謝謝!