ZDNet 發(fā)表于:14年09月10日 11:12 [來稿] DOIT.com.cn
2014百度世界大數(shù)據(jù)論壇在北京大飯店舉行,百度研究院副院長(zhǎng)余凱給大家分享了對(duì)深度學(xué)習(xí)構(gòu)建百度大腦的思考,下面是余凱的演講內(nèi)容。
余凱
以下為百度深度學(xué)習(xí)實(shí)驗(yàn)室主任余凱演講實(shí)錄:
余凱:各位來賓、各位同行、各位朋友,歡迎來到百度大數(shù)據(jù)論壇,剛才祥云醫(yī)療胡總舉的例子,其中拍照識(shí)別皮膚病技術(shù)是我們IDL的小伙伴們開發(fā)的基于深度學(xué)習(xí)的圖象識(shí)別技術(shù),通過我們的技術(shù)創(chuàng)新讓大家的生活更加健康,更加美好,這就是我們工作的意義所在。下面我給大家分享一下我們從事深度學(xué)習(xí)構(gòu)建百度大腦的思考。
人工智能很重要
這個(gè)是麻省理工學(xué)院科技理工雜志在三天前提供的一個(gè)文章,他講的是介紹百度的人工智能之夢(mèng),介紹百度技術(shù)、人才方面的積累。百度從它誕生的第一天開始它就是一個(gè)人工智能公司,一方面我們通過搜索引擎滿足用戶每天的搜索請(qǐng)求,產(chǎn)生大量的用戶數(shù)據(jù)。另一方面我們提供價(jià)值,連接人和廣告,讓千千萬萬的商家能夠找到他的顧客資源,這種從數(shù)據(jù)到價(jià)值之間有一個(gè)橋梁,這個(gè)橋梁在百度就是基于百度大數(shù)據(jù)人工智能,包括自然語言的理解,包括機(jī)器學(xué)習(xí),也包括今天Robin和勁都提到語音識(shí)別圖象識(shí)別等方方面面的技術(shù),使得百度能夠把大量的海量數(shù)據(jù)轉(zhuǎn)化成商業(yè)價(jià)值。
在座某些朋友可能知道這個(gè)著名的曲線,這個(gè)是Gartner每年都要發(fā)表的趨勢(shì)表,顯示出科技往前發(fā)展的趨勢(shì),這個(gè)HYPE是什么意思,可以理解為我們中國(guó)人講的“忽悠”,所以比如說3D打印到現(xiàn)在到一個(gè)期望的頂點(diǎn)。但是當(dāng)前的技術(shù)并不是那么成熟,因此大家對(duì)他的期待會(huì)降低。但是市場(chǎng)不斷往前推進(jìn),同時(shí)技術(shù)也會(huì)逐漸成熟,慢慢真正的市場(chǎng)機(jī)會(huì)來臨,比如語音識(shí)別,圖像識(shí)別就是。
這個(gè)圖表里面大量的技術(shù),比如說語音識(shí)別,虛擬現(xiàn)實(shí),機(jī)器人,智能推薦,都是跟人工智能有關(guān)。人工智能就是如此重要,包括最近我們看到在美國(guó)的Google,F(xiàn)acebook,他們都相當(dāng)重視人工智能。在中國(guó),百度是最重視人工智能研發(fā)的互聯(lián)網(wǎng)公司。前不久,我們的國(guó)家領(lǐng)導(dǎo)人習(xí)總書記在院士大會(huì)上也提及人工智能是第三代產(chǎn)業(yè)革命。
核心戰(zhàn)略——深度學(xué)習(xí)
人工智能取得最突破性的進(jìn)展并且迅速在工業(yè)界產(chǎn)生影響的一個(gè)極為成功的例子,就是深度學(xué)習(xí)。同樣這也是麻省理工學(xué)院科技評(píng)論雜志將深度學(xué)習(xí)技術(shù)列為十大通用技術(shù)之首的原因,這個(gè)最初來自學(xué)術(shù)界的研究成果影響到各大高科技公司的速度和廣度是非常罕見的。我們有幸把包括Google大腦之父吳恩達(dá)在內(nèi)的世界最頂級(jí)專家吸引到百度,他是在這個(gè)領(lǐng)域赫赫有名的人物。
百度在整個(gè)互聯(lián)網(wǎng)業(yè)和高科技行業(yè)是領(lǐng)先者,因?yàn)槲覀兪亲钤绨焉疃葘W(xué)習(xí)做為公司的核心戰(zhàn)略方向的高科技公司。我們?cè)谌ツ昴瓿跣汲闪DL,這是百度歷史上第一次宣布成立研究機(jī)構(gòu),核心目標(biāo)是研究基于大數(shù)據(jù)的人工智能。
機(jī)器學(xué)習(xí)在過去30多年的時(shí)間里大致分為兩個(gè)階段,第一個(gè)階段是淺層學(xué)習(xí)。第二個(gè)階段從2006年開始進(jìn)行更深層的學(xué)習(xí)。深度學(xué)習(xí)最吸引大家的一個(gè)原因在于它在很大程度上模擬了人腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和行為,這里面的細(xì)節(jié)不多講,但是就我們目前所知道的比如說對(duì)于圖象的處理,我們通過訓(xùn)練得到的深度卷積網(wǎng)絡(luò),跟我們目前所知道的對(duì)人的視覺皮層神經(jīng)元的行為有驚人的類似,我們同樣發(fā)現(xiàn)人對(duì)聽覺感知也有類似的情況。
百度大腦經(jīng)過過去一年多的時(shí)間,它經(jīng)歷了一個(gè)高速發(fā)展的階段。今天,百度大腦無時(shí)無刻不在學(xué)習(xí),就像人腦一樣,今天和昨天是不一樣的,會(huì)越來越聰明。我們現(xiàn)在能構(gòu)建世界上最大的深度神經(jīng)網(wǎng)絡(luò),達(dá)到百億級(jí)參數(shù)。剛剛永忠提到我們的GPU,我們的數(shù)據(jù)中心,方方面面的能力不是一朝一夕能夠積累的,百度過去在大數(shù)據(jù)方方面面的積累,通過這種能力我們才能更好的開發(fā)各自不同的深度學(xué)習(xí)模型,應(yīng)用于圖像和語音識(shí)別,搜索,和廣告推薦技術(shù)等等。
百度大腦智能連接
百度大腦讓連接更智能。首先人來到百度這個(gè)平臺(tái),表達(dá)他的搜索需求,這個(gè)搜索需求有可能是關(guān)鍵詞,有可能是一段話,有可能是拍個(gè)照片,就要靠百度大腦來識(shí)別用戶的意圖,在精確識(shí)別用戶搜索意圖后,我們用深度學(xué)習(xí)來對(duì)網(wǎng)頁語義相關(guān)性排序,從而匹配用戶需求,這就完成了人與信息的連接。另一方面是連接人與廣告和服務(wù),我們通過大規(guī)模的深度學(xué)習(xí),去估計(jì)和優(yōu)化點(diǎn)擊率和轉(zhuǎn)化率,進(jìn)而把人連接到所需要的廣告和服務(wù)。我們的深度學(xué)習(xí)已經(jīng)用在百度核心業(yè)務(wù)的方方面面,真正實(shí)現(xiàn)智能連接人和信息,智能連接人和服務(wù)。
深入百度大腦,百度大腦里用到一種叫深度語義神經(jīng)網(wǎng)絡(luò)的模型,它是百度大腦用于自然語言,去匹配query和網(wǎng)頁的語義相關(guān)性,這是業(yè)界第一次把深度學(xué)習(xí)用于提升搜索精度的成功案例,也是迄今為止深度學(xué)習(xí)用于語言文本信息最成功的應(yīng)用。另外,我們的鳳巢廣告系統(tǒng),它背后基于機(jī)器學(xué)習(xí)的點(diǎn)擊率預(yù)估模型,從第一代淺層的機(jī)器學(xué)習(xí)模型,已經(jīng)過度到到用更復(fù)雜的模型、更深的模型的時(shí)代。
同樣我們不斷的講到大數(shù)據(jù),大數(shù)據(jù)實(shí)際上給深度學(xué)習(xí)給人工智能帶來很大的機(jī)會(huì)。但如何處理大數(shù)據(jù)、如何獲得大知識(shí)、給我們帶來了新的技術(shù)挑戰(zhàn)。怎么樣去處理?我們是世界上最早大規(guī)模的利用GPU做深度學(xué)習(xí)的高科技公司,我們通過各種各樣的數(shù)據(jù)并行,模型并行去處理這些海量數(shù)據(jù)。我們還可以支持,生成,配置針對(duì)不同的應(yīng)用、不同的場(chǎng)景和不一樣的網(wǎng)絡(luò)結(jié)構(gòu)。在今天Robin也提到了,在中文語音移動(dòng)搜索的方面,在基于內(nèi)容的圖像搜索方面,我們現(xiàn)在做到了世界領(lǐng)先,這個(gè)是跟我們?cè)诖髷?shù)據(jù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)所取得的進(jìn)展分不開的。
基于深度學(xué)習(xí)的OCR技術(shù),還可以像人一樣讀懂文字。比如一個(gè)實(shí)際的例子,我一個(gè)外國(guó)朋友在上?吹侥硞(gè)菜單,他想知道這個(gè)菜單中是否滿足他想要的菜品需求,他拍照用百度翻譯,識(shí)別菜單上道菜是牛肉拉面,通過識(shí)別后翻譯成英文,并有語音的合成,所以這一款小小的APP,體現(xiàn)了百度在方方面面的人工智能領(lǐng)域都有非常深的積累。
我們剛剛上線的拍照答題,在一款產(chǎn)品叫作業(yè)幫里。我估計(jì)在小朋友們的暑假中可得到廣泛應(yīng)用,如果假期玩得很開心,但臨近開學(xué)還沒有做作業(yè)怎么辦。就像這頁P(yáng)PT顯示的例子,他們可以用這款產(chǎn)品拍下題目,我們的作業(yè)幫馬上就識(shí)別題目,并能找到答案。小朋友們?cè)摱嚅_心啊。當(dāng)然,也許這個(gè)對(duì)于家長(zhǎng)就不那么喜歡了。
不僅是中文OCR,在英文OCR識(shí)別方面,我們也都做到世界領(lǐng)先。這里展現(xiàn)的這些例子,人不一定都認(rèn)清的英文,但是我們的機(jī)器能夠識(shí)別。
百度擁有世界領(lǐng)先的基于內(nèi)容的圖像搜索技術(shù),比如跟我們的競(jìng)爭(zhēng)對(duì)手比,無論是識(shí)別結(jié)果還是搜索相關(guān)性都大幅度領(lǐng)先。希望機(jī)器能夠像人一樣去理解圖片,這個(gè)是很有挑戰(zhàn)性的。在兩個(gè)禮拜前百度推出了百度移動(dòng)搜索APP 5.5版本,這個(gè)是歷史的進(jìn)步。這是世界上第一款基于深度學(xué)習(xí)的拍照實(shí)物搜索?催@些例子:拍書可以知道這個(gè)書的價(jià)格,知道它在哪里能夠買到;小朋友拿著爸爸媽媽的手機(jī),看著好玩的玩具直接下單,這是多么開心的一件事情;再比如說你要是看見朋友的衣服或者包包非常好看,拍了直接可以下單。
我們?cè)谶@里看看百度大腦的全景圖。我們以前是獲取互聯(lián)網(wǎng)信息,然后做搜索做廣告,所有一切都是在虛擬世界完成。但是現(xiàn)在所有的服務(wù)離現(xiàn)實(shí)世界越來越近,離人越來越近,所以我們通過自然交互,通過穿戴式,了解人的需求,另外物理世界的信息,比如商店,場(chǎng)景,街道,天氣等等,都跟我們推送的服務(wù)的相關(guān)性息息相關(guān),我們現(xiàn)在需要通過智能感知技術(shù)獲取人和場(chǎng)景的信息,才能推薦更加相關(guān)的服務(wù)。還有,我們看服務(wù)的執(zhí)行階段,以前互聯(lián)網(wǎng)上完成一個(gè)預(yù)測(cè),做出一個(gè)決策,之后是由人去執(zhí)行,從而完成整個(gè)互聯(lián)網(wǎng)服務(wù)環(huán)節(jié)。未來的互聯(lián)網(wǎng)服務(wù),需要機(jī)器,或者說機(jī)器人,自動(dòng)的完成這服務(wù)的最后一公里。比如說某一個(gè)人想吃披薩,在網(wǎng)上下單后,一般是要由人來完成制作披薩,然后遞送到家的。但是,這個(gè)體驗(yàn)不一定最好,因?yàn)槿绻麢C(jī)器知道個(gè)性化的口味需求,能千人千面的私人定制這個(gè)披薩,而且,自動(dòng)駕駛能更高效便捷的將披薩送到家里。所以說,互聯(lián)網(wǎng)的人工智能一定會(huì)從數(shù)字世界的智能延伸到物理世界的智能,機(jī)器人是大勢(shì)所趨。
王勁也講到了,自動(dòng)駕駛項(xiàng)目,需要建立感知能力,決策能力,還有不斷自主學(xué)習(xí)的能力,可以說是人工智能技術(shù)的集大成者。從這里的畫面可以看到,我們的團(tuán)隊(duì)是非常精神飽滿的去做這個(gè)項(xiàng)目,不光是硬件,我們需要算法做各種條件下面的路面目標(biāo)檢測(cè),比如車和行人,我們還需用OCR技術(shù)識(shí)別交通標(biāo)志,還有集成配準(zhǔn)各種傳感器的信息,形成統(tǒng)一的路況感知。所以你們能夠看到今天早上在勁的演講里的視頻,車能夠在路面對(duì)各種路況做精確識(shí)別和理解。
更多深刻學(xué)習(xí)的思考
此外,我們還能做哪些基于人工智能的產(chǎn)品去影響人的生活?我們看到過去移動(dòng)設(shè)備發(fā)展的趨勢(shì),現(xiàn)在每個(gè)人每天都會(huì)用移動(dòng)設(shè)備進(jìn)行大量拍照,移動(dòng)攝像頭已經(jīng)成為人眼的延伸,順著這個(gè)趨勢(shì),2014年后會(huì)發(fā)生什么事情,會(huì)有什么樣的智能硬件,我們不斷的在思考?催@頁ppt, 人眼的延伸的這款智能設(shè)備,是這樣的一種形態(tài)嗎?我們看過去在智能穿戴行業(yè),智能眼鏡成為智能穿戴設(shè)備的一個(gè)品類,大家都在探討它的應(yīng)用場(chǎng)景,應(yīng)該怎么樣往前。但我們覺得它可能是要糾正,我們覺得它應(yīng)該是人眼的“自然”延伸,我們覺得這個(gè)自然非常非常重要。大家看,這款設(shè)備叫BaiduEye,就是我們思考的一個(gè)結(jié)果,我們非常強(qiáng)調(diào)它是Eye,而不是Glass,因?yàn)镋ye是自然的人的身體的一部分,Glass是附帶外加的。它就像一個(gè)助手一樣,它真的知道你無時(shí)無刻在看什么東西,從而真的把互聯(lián)網(wǎng)后臺(tái)的服務(wù)變成你的大腦,讓你知道如何去更加精準(zhǔn)的決策。
這樣的設(shè)備戴在人的腦袋上面是怎么樣一個(gè)情況?那我們大家來感受一下,看這頁P(yáng)PT。
大家可能也關(guān)心,在一個(gè)真實(shí)的場(chǎng)景下面,人們戴著BaiduEye是不是足夠帥。下面我們請(qǐng)百度的少帥學(xué)者顧嘉唯先生上來 …[一段互動(dòng)和演示]。謝謝嘉唯。我們看看在更多的場(chǎng)景下,大家用BaiduEye可以干什么,請(qǐng)大家來看一段視頻。
看了這段視頻,我們體會(huì)到,科技讓我們發(fā)現(xiàn)這個(gè)世界更加精采。正如今天上午王勁的那句話,有了這么樣一款設(shè)備,我們整個(gè)世界都變成一個(gè)大的櫥窗。這里實(shí)際上透露了我們對(duì)BaiduEye的應(yīng)用場(chǎng)景的一個(gè)思考。下面我想跟大家介紹下一位演講嘉賓。在過去不長(zhǎng)的時(shí)間里面,我有幸認(rèn)識(shí)到一個(gè)朋友,這個(gè)朋友他帶領(lǐng)著中國(guó)家喻戶曉的一個(gè)非常高端、非常成功的一個(gè)商業(yè)集團(tuán),但是真正吸引我的,他不但是商界領(lǐng)袖,更是對(duì)未來的一個(gè)思考者。他跟我分享未來科技會(huì)在線下的場(chǎng)景給零售服務(wù)業(yè)帶來革命,他有很多的思考,讓我覺得非常受啟發(fā)。我現(xiàn)在給大家隆重介紹這位朋友,他就是銀泰投資有限公司,銀泰商業(yè)集團(tuán)的CEO陳曉東先生。在陳總上做精彩分享之前,我們先看一段視頻,看看BaiduEye對(duì)于商家來說它意味著什么,它跟商業(yè)零售在線下結(jié)合,它會(huì)引發(fā)什么樣的事情,請(qǐng)看視頻。謝謝!
公司簡(jiǎn)介 | 媒體優(yōu)勢(shì) | 廣告服務(wù) | 客戶寄語 | DOIT歷程 | 誠(chéng)聘英才 | 聯(lián)系我們 | 會(huì)員注冊(cè) | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.