以下為演講實錄:

各位專家早上好,我今天要講的題目就是大數(shù)據(jù)與人工智能研究的思考。關(guān)于大數(shù)據(jù),這里有兩個概念,一個是數(shù)據(jù)大?,F(xiàn)在大家把這個焦點都集中在數(shù)據(jù)大,不管現(xiàn)在講3語義4語義講好多語義,這個語義就是容量大,大確實是問題,但是我們說大數(shù)據(jù)的處理問題是一個老問題,這個老問題比如說我們在氣象數(shù)據(jù)的處理里頭我們也遇到數(shù)據(jù)量也很大,那里頭也有各種不同的有圖象,也有文本,也有動態(tài)的情況所以變化很大,所以應(yīng)該說數(shù)據(jù)大不是網(wǎng)絡(luò)時候才有的,無非是現(xiàn)在更加嚴(yán)重一些。解決數(shù)據(jù)大的問題,我們有很多辦法,這里也是現(xiàn)在大家都提到,比如首先遇到的數(shù)據(jù)大的計算復(fù)雜度。

如果我們過去說多象計量復(fù)雜度就可以了,可是在大數(shù)據(jù)情況下面算法都有問題,如何提高算法的速度,如何并行處理等等,從結(jié)算上處理它,這個大家都講得很多了,我就不多講。我現(xiàn)在重點講這個數(shù)據(jù),就是大數(shù)據(jù),而不是重點在數(shù)據(jù)大。也就是說我們要看一下網(wǎng)絡(luò)的數(shù)據(jù)跟以往的數(shù)據(jù)有什么不同?這里不同就是這里講的,就是這個數(shù)據(jù)有用的很少,雖然數(shù)據(jù)很多,但是有用的只有30%、40%不到,好用的更不多,經(jīng)過標(biāo)志的好用,也就是說有用的30、40%,好用的中間只有7%,經(jīng)過大家清洗的不到1%。這和我們以往的數(shù)據(jù)不大一樣,比如說氣象數(shù)據(jù)盡管有噪聲問題,但是從來沒有氣象數(shù)據(jù)虛假的沒有用的、造謠的,但是在網(wǎng)絡(luò)里頭這種數(shù)據(jù)就很不一樣了。

還有一個與以往數(shù)據(jù)不同的,這些數(shù)據(jù)跟用戶跟社會關(guān)聯(lián)起來,也就是說這種數(shù)據(jù)是在社會中間,在人與人中間不斷的傳播,因此它所造成的影響,它所造成的效果是跟以往的數(shù)據(jù)不一樣的。我們看一看,這樣的數(shù)據(jù)會引起什么樣的問題?換句話講,我們過去考慮比較多的是形式、規(guī)模這個維度來考慮大數(shù)據(jù),我們說它形式上很復(fù)雜,我們說它數(shù)量很大,可是我們沒有考慮到另外一個維度,網(wǎng)絡(luò)數(shù)據(jù)我們涉及了內(nèi)容。

下面我們講到,我們看到網(wǎng)絡(luò)的數(shù)據(jù)為什么還有這個維度?語義的維度?內(nèi)容的維度?現(xiàn)在我們先看一下人機(jī)交互的變化。我們說在當(dāng)今時代我們怎么來用計算機(jī)呢?人機(jī)的截面又是怎么樣呢?我們實際上在用計算機(jī)的時候只是把程序輸出去,計算機(jī)根據(jù)程序來完成這個計算,然后把結(jié)果輸給用戶。計算機(jī)用不著了解我在干什么,這輸進(jìn)來的數(shù)據(jù)是什么行業(yè),因為所有的數(shù)據(jù)在計算機(jī)存在的語音和語義,并沒有碼,計算機(jī)并沒有了解到它的內(nèi)容??墒堑骄W(wǎng)絡(luò)時代變成計算機(jī)人機(jī)網(wǎng)絡(luò),人機(jī)界面起到非常大的變化。也就是說人們把自己的需求用文本用圖象用語音輸入到計算機(jī)里面,計算機(jī)必須得通過文本、圖象了解用戶意圖情況,然后根據(jù)用戶意圖我輸出用戶需要的信息,從這里我們看到這個時候信息的內(nèi)容已經(jīng)包含在計算機(jī)里頭要考慮的。

我們在當(dāng)今時代計算機(jī)人機(jī)界面在底下,內(nèi)容語義根本與計算機(jī)無關(guān),但是在網(wǎng)絡(luò)時代計算機(jī)必須要涉及到信息的內(nèi)容。我們看一下,計算機(jī)能了解信息跟內(nèi)容嗎?我們做一個非常簡單的圖象、圖片的檢索,這個是圖片,我們在Google輸進(jìn)一個關(guān)鍵字,叫做白馬,我們看到計算機(jī)輸出很多白馬,但是也輸出很多跟白馬毫無關(guān)系的圖片,比如說這兩個女人。什么原因呢?我們看到因為圖片太多了,因此才沒找到白馬。我們至少說這圖片多是一個原因,但絕對不是第一原因。第一原因是什么?因為計算機(jī)不知道什么叫白馬,換句話講,我們沒法告訴計算機(jī)什么叫白馬,也就是我們沒法告訴計算機(jī)白馬這個語義,因為大家都知道,它還能夠根據(jù)關(guān)鍵字來找,為什么這張圖片找出來?因為這兩個女人在海邊,這個海邊是白馬海濱,因此把它找出來。所以因此說不能準(zhǔn)確地找到我們所需要的圖片第一原因不是因為圖片太多,而是由于計算機(jī)不懂你要找什么。

我們也可以更進(jìn)一步看一下,如果我們在百度上打這個碼和數(shù)這兩個關(guān)鍵詞,我們意思是想找有馬有樹的圖,這個我們看出來我們找出來這些圖絕大部分跟馬和樹沒關(guān)系。原因在哪里?主要的原因也不是因為圖片太多,他沒有找到馬和樹,而是由于它不知道你找什么。為什么找出來這些馬和樹沒有關(guān)系的圖呢?因為我查了一下,這個我們國家有一個鎮(zhèn)叫馬樹鎮(zhèn),因此把馬樹鎮(zhèn)里頭馬蜂窩都找出來。網(wǎng)絡(luò)不是數(shù)據(jù)多,而是由于計算機(jī)不了解語義。我們看到計算機(jī)系統(tǒng),計算機(jī)不僅僅是需要了解用戶意圖,同時要了解用戶的興趣等等。這是語義。我們了解網(wǎng)絡(luò)計算機(jī)新的需求,要了解用戶意圖,要了解用戶的興趣和體驗。

在這里面我們要做到兩個重要的內(nèi)容,一個內(nèi)容就是把怎么樣出的數(shù)據(jù),剛剛講有很多沒用的不好的數(shù)據(jù)把它變成為知識,或者說我們理解這個數(shù)據(jù)的內(nèi)容,信息的內(nèi)容,變成網(wǎng)絡(luò)時代信息處理的一個新需求。比如說計算機(jī)又從文本中間、圖象中間、語音中間去了解用戶的意圖,我們說理解,這個理解實際上三個層面的問題。比如說數(shù)據(jù)文本叫做這屋很冷,或者用另外一種表達(dá)方式,首先計算機(jī)得了解這句話什么意思,這叫自然語義,它說的是什么?說這屋很冷。這還不夠,他輸這個用意何在,他說這個屋很冷,是不是提醒主人要把這個溫度調(diào)高一點。還有一層意思他說這句話是什么含義?是贊同還是不贊同他的說法等等。所以我們因此提供一條網(wǎng)絡(luò)信息,網(wǎng)絡(luò)至少需要了解這三層的意思,就是在網(wǎng)絡(luò)里頭往往都是很需要的。所以在過去計算機(jī)信息處理里頭沒有這個要求,這就是我們現(xiàn)在傳統(tǒng)信息面臨的最根本性的挑戰(zhàn)。

我們現(xiàn)在要回答傳統(tǒng)的信息能不能解決信息處理它的理論它的方法,能不能解決剛才的問題?我們回答說很難。這就是現(xiàn)在網(wǎng)絡(luò)處理信息遇到根本的困難。為什么很難?我們所有的信息方法是建立在語義無關(guān)假設(shè)上,不管是通信理論、控制理論或者信息處理理論,當(dāng)做這個理論的時候它首先說出我這個理論是跟語義無關(guān)的,這就是我們這里看到新興論的三種,它在信息論里頭,信息理論有一句話說我這里的問題是跟語義沒有關(guān)系。也就是說你在傳統(tǒng)理論里頭必須把信息內(nèi)容抽掉,這就是所有信息理論建立的依據(jù)。因為不做這樣的抽象你不可能建立一般的內(nèi)容,必須把底層內(nèi)容抽掉。好了,我們現(xiàn)在要和無關(guān)的信息處理方法能不能處理信息的內(nèi)容,就是這么一個問題。

我們說過去我們用傳統(tǒng)的信息理論來解決圖象、文本處理里頭沒有遇到的問題,為什么在當(dāng)今時候沒有這個問題?我們做的詞處理,做的圖象壓縮和語音去噪等等都是跟詞組有關(guān)系,跟內(nèi)容沒有關(guān)系。所以過去沒有什么困難,到了網(wǎng)絡(luò)時代困難產(chǎn)生了。也就是說我們輸入信息送到X出去,對方收到了,閱讀者或者接受者,這個時候機(jī)器收到了,沒有誤差?,F(xiàn)在問題是我們從X機(jī)器能不能了解到X背后說的是什么嗎?傳統(tǒng)的信息處理解決不了這個問題??墒俏覀儸F(xiàn)在還是用傳統(tǒng)信息方法來做這個問題,做網(wǎng)絡(luò)上的問題,做網(wǎng)絡(luò)上的信息處理,我們現(xiàn)在是怎么做的?是這么做的,我們下面提出幾個挑戰(zhàn)性的問題,機(jī)器能否處理語義,機(jī)器能否處理語義,機(jī)器傳統(tǒng)的語義如何處理。這是我剛才說的。

剛才說傳統(tǒng)信息處理直接輸入到語義里面去,它是怎么做?它是把X映射到詞空間,或者圖象的特征里面,然后試圖找到這個特征中間到語義的映射。我們又做這樣的設(shè)置,問題出來了,特征空間到語義空間是否存在一對一的映射?如果存在,如何去找?也就是說我們把圖象和文本或者語音也好,我們都叫它數(shù)據(jù),到計算機(jī)里頭他們都是零和一一和零,我們要從這個零和一一和零里頭找出來零和一是哪個概念,它背后是什么東西,要找到這個映射?也就是說這堆零和一我們叫馬,這堆零和一叫做牛,非常遺憾,這個一般情況映射不存在。這就是人工,也就是說從底層的數(shù)據(jù)時代詞的組合,從顏色從紋理從視頻,我們沒法找到它的文本的含義,去識別這個圖象代表什么,或者識別這個語音。因為這個距離太遠(yuǎn)。如果是這樣的話,我們現(xiàn)在不是還在做嗎?這是不幸的。但是有幸的是這種映射在特定數(shù)據(jù)處理之下在使用合理的方法這個映射是存在的。所以這個方法非常奇妙,如果這個映射不存在我們就沒有研究工作可做了。恰恰相反,也就是說它只在特定的條件用特定的方法它存在,這就是我們所有現(xiàn)在在搞文本機(jī)器翻譯也好,我們搞圖象識別也好,搞語音識別也好,都是在這個前提下面做的。所以我們每當(dāng)看到人家輸出這個結(jié)果的時候,我們首先就是要問你是在什么樣的數(shù)據(jù)庫下面做出來的。

所以說你說你這個方法好,我們就要你是在什么樣的條件下做出來的好和壞?所以這個是必須要知道的,就是我們現(xiàn)在只能做在特定的條件下面我們可以把這個工作做好。這個是圖象,語音等等我們現(xiàn)在怎么用,現(xiàn)在大家經(jīng)常聽到機(jī)器學(xué)習(xí),深度學(xué)習(xí)就是用這個方法訓(xùn)練它,然后再獨(dú)立開,對沒有見過的數(shù)據(jù)對它進(jìn)行分類,這是現(xiàn)在的辦法。我們現(xiàn)在看一下,人臉識別現(xiàn)在可以做得不錯,我們現(xiàn)在說你這個人臉識別做的不錯是在什么樣的庫情況下做的呢?如果說我們?nèi)四槑焓沁@個樣子,我們用象素來表述它,我們最后做的結(jié)果是這樣。你看,這張圖有70%是噪聲,我們?nèi)丝雌饋砜床灰娛鞘裁礀|西,但是計算機(jī)居然可以識別出來他是張三。而且我們從那邊紅色的圖可以看出來,既使這個噪聲50%、60%這個圖這樣,它的識別率是多少呢?百分之百。

意思就是說在特定條件下面你可以做得效果非常好,什么特定條件下?剛剛為什么圖象識別做得那么好?大家看到它的抗干擾能力,大家看一看,為什么做這么好?因為我們用的圖象這上頭往上翻有三個形容詞,這個圖象庫經(jīng)過規(guī)格化,大是一樣,對齊的,人臉沒有歪,正面圖象。正由于這三個限制詞,它的圖片是規(guī)格化的,是對齊的,而且是正面人臉,因此它的識別率會這么高。如果我們把這個圖象變成沒有規(guī)格化,大小不一,不僅有正面圖象而且也有側(cè)面圖象,有一定角度的圖象,這樣我們做出來的結(jié)果就會比這個差,這就是目前計算機(jī)做的人臉識別,就是剛才說的我們必須得在一定的圖片下面進(jìn)行比較,你這個方法好和不好,大家必須得在同樣的數(shù)據(jù)庫下面做實驗。

我們傳統(tǒng)的信息處理是這么來處理問題的,我們現(xiàn)在說人工智能怎么做?我們剛才說人工智能就像直接去處理語義,這就是人工智能的一個重大的試探。這個試探的結(jié)果是根據(jù)這么一個假設(shè)來做的。我們說傳統(tǒng)的信息處理也有一個假設(shè),叫做語義觀察學(xué),人工智能是在什么情況下做呢,它是認(rèn)為物理是充分的必要條件,大腦和計算機(jī)都是物理符號系統(tǒng),這就是我們所謂著名的PSS假設(shè)。人腦和計算機(jī)都是物理符號系統(tǒng),我們就有可能用計算機(jī)來模擬人腦,這是人工智能幾個創(chuàng)始人提出來的主張,這個主張我們應(yīng)該說人工智能里頭早期的工作就是在這個主張下面做的。當(dāng)然這個主張也有人反對,就是說不能把人腦的所有的過程都看成是符號處理,但是沒有關(guān)系,這個工作還是在實踐上面取得了很多進(jìn)展。

我們說這就是在計算機(jī)應(yīng)用的所謂符號模型,但是這個模型有它的局限性。我們說這個模型它可以模擬深思熟慮的行為,可以用來做問題的處理,可以做問題診斷和決策,我們把決策和診斷過程用符號系統(tǒng)處理,這有成功也有不成功的,最主要的成功就是用這套方法來搞模式識別,來搞感知來搞語音識別行不通。這就是后來提出來的多層神經(jīng)網(wǎng)絡(luò),或者最早叫機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),現(xiàn)在多層神經(jīng)網(wǎng)絡(luò)就是深度學(xué)習(xí)。

也就是說我們固然可以用知識推動的方法來解決人類深思熟慮的行為,像推理、診斷、規(guī)劃這類,但是這類方法很難用到感知處理去做,而感知處理現(xiàn)在大家用一種多層神經(jīng)網(wǎng)絡(luò)方法來做這個事情,這個事情基本上是從下面兩個假設(shè)出發(fā)來做的,這個做的效果就是這樣。這就是我們現(xiàn)在用的多層神經(jīng)網(wǎng)絡(luò)來做的,這個用神經(jīng)網(wǎng)絡(luò)做的效果挺好,用到語音也好,用到圖象也好,它的識別率比傳統(tǒng)的方法提高了兩位數(shù)的百分點,提高了百分之十幾到百分之二十,這是非常了不起的。因為大家知道提高1%都需要好多年的努力,但是僅僅因為這個方法就提高1%個點,這個很難。目前來講這個也做的比較多。

但是我要給大家提醒一下這個方法也不是完美的,也不是大家想象那樣就完全解決了問題的。那時候吳恩達(dá)教授在我們學(xué)校講的時候我就跟他開玩笑我說你為什么不說前面的結(jié)果,為什么不說后面的結(jié)果,也就是說兩萬人臉識別80%幾,為什么對其他兩萬個貓啊其他東西你的識別率只有百分之十幾,幾乎不認(rèn)識?我們對這兩萬個人都能認(rèn)識,你計算機(jī)訓(xùn)練了半天識別率只有10%幾,當(dāng)然比傳統(tǒng)的方法提高很多。有人說超過多少,那是在一定條件下。所以我剛才說我們講機(jī)器性能的時候必須要講它在什么條件下做到的。我們說概率方法也有局限性,就是統(tǒng)計關(guān)系,也有誤差,這個誤差很大。大家注意用統(tǒng)計方法做肯定有錯誤。這個只是在概念意義上正確,大家注意一下這個公式,這個公式表示什么意思呢?到樣板區(qū)無窮的時候它的錯誤概率不是零,而且它只是說大錯誤的概率會不斷減小,大家要注意這個。換句話講這個方法一定會算錯。

所以今年3月份有發(fā)表的一個智能的問題方法是跟今天的方法一樣。今天的方法是把傳統(tǒng)信息處理和人工智能加起來,所謂傳統(tǒng)信息處理是概率統(tǒng)計方法,而人工智能就是知識驅(qū)動方法,前面是數(shù)據(jù)驅(qū)動方法,所以經(jīng)過解決大數(shù)據(jù)處理的問題,要解決語義問題必須要把這兩個方法結(jié)合起來,就是把人工智能和傳統(tǒng)信息處理結(jié)合起來。這個就是我們現(xiàn)在從計算方式角度來講,就是傳統(tǒng)的信息處理它處理的力度極小,人工智能處理力度最大,這兩個都有它的缺陷和優(yōu)勢,我們用的辦法是多圖處理,但人腦子里頭是多部處理。因為我在這方面也做了一些工作,大家有興趣可以看一下。謝謝大家!

分享到

sunyingying

相關(guān)推薦