其實整個人類的發(fā)展歷史,就是人類不斷的嘗試去記錄以及去測量自身和世界的過程,無論從古時候人類發(fā)明算盤,發(fā)明阿拉伯數(shù)字,又到近代發(fā)明二進制計算機,好像都是這一現(xiàn)象的反應,但是人類對自己,包括對世界的認知好像還是那么淺。比如描述一個人的時候還是只能說這個人的性別是男是女,年齡是老是少,身高、體重等等,我們提到環(huán)境的時候還可能說今天氣溫怎么樣,濕度怎么樣等等,好像我們對世界的認知還是那么粗淺。但是人類對于數(shù)據(jù)測量自身的需求一直沒有減弱。
根據(jù)TalkingData的數(shù)據(jù)統(tǒng)計,現(xiàn)在在中國,智能手機含平板電腦擁有13.05億用戶,智能手表包括這些可穿戴設備已經(jīng)達到千萬級,這意味著什么?智能手機、智能設備基本上人手一部甚至多部,無處不在,無時不在。而每部智能手機平均攜帶多達16種的各種傳感器,每天產(chǎn)生1G數(shù)據(jù),這不僅加強了人類感知以及數(shù)字化世界的能力,也讓數(shù)據(jù)以前所未有的速度在產(chǎn)生和發(fā)展。所有這一切現(xiàn)象,都揭示了以人為中心的世界正在加速數(shù)字化。這是一個數(shù)據(jù)爆發(fā)的時代。
人工智能:“已經(jīng)過了單純積累數(shù)據(jù)量的時代”
移動設備已經(jīng)成為人類身體的延伸。根據(jù)TalkingData的數(shù)據(jù)統(tǒng)計,我們每天手機使用時長將近四個小時。好像歷史上第一次有這么一件東西跟著人在一起,它甚至已經(jīng)變成人體的一部分,它默默在后臺記錄著我們,不管上網(wǎng),還是在現(xiàn)實生活中,在家中,在上班,在吃飯,在旅游,在消費,我們所有的足跡都在被默默地記錄下來。好像我們這些數(shù)據(jù)行業(yè)迎來了歷史上最好的時刻——數(shù)據(jù)爆發(fā)的時刻。
但是,這已不是一個單純的積累數(shù)據(jù)量的時代,這個新的時代,對計算提出了更高的挑戰(zhàn)。
第一,這些數(shù)據(jù)并不是所有的都被存儲和收集。前面提到除了攝像頭和話筒,一個手機攜帶的傳感器數(shù)量多達16個。這大量的隱形數(shù)據(jù)的采集、運算、存儲、傳輸?shù)鹊阮I域依然存在著巨大的障礙。
第二,如何從大量的數(shù)據(jù)里面解讀人的動作,識別人的場景是更加重要的一個問題?,F(xiàn)在的很多數(shù)據(jù)都是非結(jié)構(gòu)化的情境數(shù)據(jù),例如圖像、聲音、姿態(tài)、動作等等,需要人工智能的幫忙從中間提煉有價值的信息。所有的世界上頂尖的技術(shù)公司都在做一件事情,就是嘗試用算法用機器學習去還原人在現(xiàn)實生活中的動作,不管視覺、聽覺、姿態(tài)、感知還是做一些基礎的工作,現(xiàn)在語音識別的技術(shù),圖象識別的技術(shù)都在大規(guī)模的發(fā)展,但是為什么當數(shù)十億大腦神經(jīng)元彼此傳遞信號時,就會出現(xiàn)喜愛、恐懼或者憤怒的主觀感受呢?對此,我們依然一無所知。人工智能對世界的認知還停留在早期階段。
“所有的前沿技術(shù),包括人工智能,對世界的感知,還都處于早期階段?!?/p>
“AI的核心技術(shù)并沒有發(fā)生重大改變,現(xiàn)在的核心技術(shù)幾乎與多年前的一樣。昔日的技術(shù)達不到要求,不是因為設計不足,而是因為尚未具備所需的基礎和環(huán)境?!?/em>
——計算機科學家,Kris?Hammond
數(shù)據(jù)促進了人工智能的發(fā)展。AI過去與現(xiàn)在的最大區(qū)別是,必須的計算能力、原始數(shù)據(jù)和處理速度現(xiàn)在都有了,因此AI技術(shù)現(xiàn)在能大放異彩。目前人工智能在識別,包括在認知,產(chǎn)生很大進展的原因首先是數(shù)據(jù)量帶來的。谷歌在語音識別領域取得了很大的突破,但這背后的原因是谷歌建立了幾十億音頻的庫,而且用人類的智慧標注它,所以可以用算法,用人工智能找到模式,甚至可以區(qū)別口音不同。圖像也是同樣的:過去幾十年里,其實人類花了大量的時間去標注這些圖像,我們才能在圖像里面切割識別出各種各樣的物體,沒有這些人的智慧現(xiàn)在人工智能是達不到這樣的程度。
Garbage?in, Garbage?out:數(shù)據(jù)的質(zhì)量和完整性對于人工智能建造高效的模型至關重要
人的智慧:AlphaGo背后的故事
以AlphaGo人工智能為代表的AI復興體現(xiàn)對于世界的認知能力正在加強。在過去的幾年間,我們看到,機器學習、強大的算法、巨大的處理能力和所謂的“大數(shù)據(jù)”已經(jīng)可以讓機器做一些讓人印象非常深刻的事,比如,實時語言翻譯、在復雜的城市環(huán)境中安全地開車。要知道,即使是在10年前,這些也還被認為是不可置信的。
AlphaGo戰(zhàn)勝人類被視為AI歷史上的里程碑事件。大家看到AlphaGo戰(zhàn)勝了李世石,但是不知道背后的故事。但是我是第三局的親歷者之一(這場棋賽的解說者),看到的角度和大家不同,我看到了數(shù)據(jù)的力量。
在這場比賽中,關鍵的獲勝因素有兩個:
第一,要有足夠的數(shù)據(jù)支撐。AI要模擬人,它首先要知道人在面對不同事情的時候是怎么去把握的,而這種判斷和把握的能力就是出自于成千上萬的海量數(shù)據(jù)得出的結(jié)果。
AlphaGo擁有一個數(shù)據(jù)庫,里面有十幾萬份人類6-9段職業(yè)棋手的對弈棋譜。Alphago從中模仿人類常見的落子方式,根據(jù)谷歌透露的數(shù)據(jù),模仿的準確率達到了57%。也就是說,單單這一項功能,就可以使Alphago在一步的選擇上有57%的概率與人類高等級職業(yè)棋手相同。2014年,google來到中國棋院買棋譜,近兩年累計記錄的棋譜數(shù)量是過去幾百年記錄下的棋譜的總和:根據(jù)KGS(一個圍棋競技網(wǎng)站)統(tǒng)計,KGS平臺每年專業(yè)段位的對局棋譜的累積量,近三年研究的棋譜數(shù)量都接近20w。(alphago,darkforest等都用了這個網(wǎng)站的棋譜)。這只是一個平臺的棋譜,還有GoGoD平臺的累積大約8,5000專業(yè)段位棋譜。18w的棋譜一共有將近2500w的局面,每一個局面都可以上下左右、鏡面翻轉(zhuǎn),這個2500w局面就能再乘以8,這個數(shù)據(jù)量已經(jīng)能夠支撐深度學習。
第二,要有人類的智慧。Alphago在下棋的時候“聰明”得像一個人,大量的數(shù)據(jù)提供了它“思考”的來源。但AI不是由大數(shù)據(jù)一手決定的,還有人的經(jīng)驗和智慧;AI會發(fā)展成什么樣子,打個園藝的比方來說:大數(shù)據(jù)是土壤和養(yǎng)分,AI是植物,而人就是園丁。土壤和養(yǎng)分讓植物長得好,但也離不開人的修剪和培養(yǎng)。代表AlphaGo跟李世石坐下來對戰(zhàn)的那個人本身就是六段的高手,他在訓練AlphaGo時,后來我們也交流過,加入了大量的人工智慧,加入了大量的人為規(guī)則,讓它少走彎路,這些都是被人忽略的,我們過大強調(diào)AI的作用,我們覺得在目前這個時代,讓算法、讓機器代替人做判斷這個事不會發(fā)生,在目前的情況下更現(xiàn)實的還是要引入很多專家的智能,人的智慧,在數(shù)據(jù)科學以及數(shù)據(jù)工程不斷完善的情況下,去提高AI的水平。
雖然AI應用能使一些任務變得自動化,但人類判斷全部交由算法負責這種情況幾乎不可能發(fā)生。更現(xiàn)實的方法是,使用數(shù)據(jù)科學和工程不斷完善并提升人類的判斷質(zhì)量。當數(shù)據(jù)十分充足,依靠統(tǒng)計學的方法進行決策是恰當且合理的。當沒有數(shù)據(jù)或擁有的數(shù)據(jù)十分有限時,采用群體智慧和其他心理學方法能夠更好地進行決策?!爸悄堋睌?shù)據(jù)應用將把日程工作自動化,從而空出更多時間讓人類專家專注于需要他們專業(yè)判斷的工作,以及從事社會認知(social?perception)和共情等非認識能力的行動。比如:保險公司也可以使用深度學習系統(tǒng)將估算受損汽車的成本修理費用變得自動化,讓人類保險雇員有更多時間完成更加復雜和需要更多經(jīng)驗的客服。但在可以預見的未來,人類仍將是“決策過程中的一部分”。
“我們過大的強調(diào)了AI的作用。在目前的情況,機器代替人作決策還不會發(fā)生。我們還需要引入專家的智慧?!?/p>
數(shù)據(jù)為本,AI為核心,人為關鍵
這個時代叫做智能數(shù)據(jù)時代
前面我們談了大數(shù)據(jù)的爆炸,人工智能的發(fā)展狀態(tài),以及人的智慧在里面起的關鍵的作用。所有這一切隱隱約約地讓企業(yè)家們好像感覺到一個新的時代要來了,這個時代是什么?答案是,智能數(shù)據(jù)時代。
智能數(shù)據(jù),不同于傳統(tǒng)的數(shù)據(jù),就是添加了人工智能和人的智慧的數(shù)據(jù),這個名詞的出現(xiàn),揭示了數(shù)據(jù)、人和機器三者之間的有機聯(lián)系。這種有機聯(lián)系賦予數(shù)據(jù)更多價值,賦予數(shù)據(jù)心智。現(xiàn)階段的“數(shù)據(jù)”與以往的數(shù)據(jù)已經(jīng)有很大不同。數(shù)據(jù)內(nèi)容包含的信息量越來越大、維度越來越多,從圖像、聲音等富媒體數(shù)據(jù),逐漸過渡到人的動作、姿態(tài)、行為軌跡,再加上地理位置、天氣、社會群體行為等等,按照以往處理數(shù)據(jù)的思路已經(jīng)難以適應“數(shù)據(jù)”本身發(fā)展的速度。一個融合人類智慧、人工智能以及海量非結(jié)構(gòu)化數(shù)據(jù)的智能數(shù)據(jù)時代已經(jīng)來臨。因此,“發(fā)展多年的‘大數(shù)據(jù)’即將進入‘下半場’?!?/p>
這個時代最重要的三個要素是:數(shù)據(jù)、AI,人的智慧。這三者之間的關系又是什么?如果舉個例子的話,做個比喻,數(shù)據(jù)相當于什么?人的血液。人工智能相當于什么?人的心臟。心臟需要靠血液供給,但同時它還會根據(jù)人的心跳,把血液再輸回給人體,從此往復循環(huán),形成一個正循環(huán)。人的智慧是什么,大腦,是不可替代的。所有這一切構(gòu)成了智能時代的三個要素。
數(shù)據(jù)時代的顛覆和挑戰(zhàn)
未來,數(shù)據(jù)行業(yè)本身將會面臨進一步的洗牌,能夠更好的應用異構(gòu)的、情境化的數(shù)據(jù),能夠開發(fā)更加智能的算法,能夠開源撬動生態(tài)價值流動的企業(yè)能夠獲取更大的競爭優(yōu)勢,也就是說,能夠駕馭智能數(shù)據(jù)的企業(yè)得天下,all in or all out(不接受并駕馭智能數(shù)據(jù)的企業(yè)將逐漸被淘汰)。這樣,競爭優(yōu)勢會內(nèi)生疊加,進一步幫助企業(yè)吸引更多的人才和技術(shù);人才和技術(shù)持續(xù)集中,根據(jù)數(shù)據(jù)分布的特點,中小型企業(yè)將被迫向垂直數(shù)據(jù)應用領域轉(zhuǎn)型,并穩(wěn)定在垂直領域,但同時又不得不依托于大型生態(tài)的數(shù)據(jù)連接能力,最終呈現(xiàn)一種“一大多小”兩極分化、“小依附大”的競爭態(tài)勢。
對于其他行業(yè)來說,企業(yè)將面臨四個方面的挑戰(zhàn)。1)業(yè)務數(shù)據(jù)化:所有業(yè)務都以數(shù)據(jù)的形式進行流轉(zhuǎn)。2)數(shù)據(jù)資產(chǎn)化:在很多企業(yè),業(yè)務與運營沒有形成閉環(huán);數(shù)據(jù)沒有資產(chǎn)化,只是先儲存起來而已。智能數(shù)據(jù)時代,會倒過來,業(yè)務可能不賺錢,但數(shù)據(jù)將體現(xiàn)出商業(yè)價值。3)應用場景化:企業(yè)與用戶的每一個交互點,都具有改變用戶認知的功能,因此場景化將成為營銷的核心。4.技術(shù)開源化。智能數(shù)據(jù)首先會顛覆的,是比較依賴于快速決策的高頻交易行業(yè),例如高新技術(shù)企業(yè),零售,廣告,……還有為這些行業(yè)提供決策支撐服務的專業(yè)企業(yè),代理商、咨詢服務商等。緊接著,傳統(tǒng)行業(yè)的各個環(huán)節(jié)也會受到極大的顛覆,會出現(xiàn)新的銷售渠道和獲客手段,極大的更新行業(yè)平均效率。
智能數(shù)據(jù)時代的新商業(yè)范式:新貝葉斯定律
智能數(shù)據(jù)時代,數(shù)據(jù)離所有的企業(yè)的商業(yè)價值都很近。在跟客戶交流的過程中,不管金融、地產(chǎn)、零售,基本上客戶只問一個問題,好像大數(shù)據(jù)這個系統(tǒng)投入很大,到底有沒有價值,到底怎么產(chǎn)生商業(yè)價值,商業(yè)價值又往哪個方向投,這個問題的終極答案會在這個時代得到揭示。一個新的商業(yè)范式誕生了,TalkingData稱之為“新貝葉斯定律 ”。
貝葉斯定律是大數(shù)據(jù)時代最重要的定律,無處不在,所有的機器學習算法、圖象識別、語音識別,所有的一切統(tǒng)計方程式后面都是這個定律在起作用,大數(shù)據(jù)滿足了修正到最接近現(xiàn)實世界的基礎條件——數(shù)據(jù)量的積累,在此基礎上,與傳統(tǒng)統(tǒng)計學不同的是,貝葉斯定律集合了人的智慧,在決策的過程中,我們能夠不斷的修正,能夠更快的做出盡可能正確的決策。舉個例子:比如說炮兵瞄準的時候,一般會先會根據(jù)他自己的經(jīng)驗、距離、風速等等預估一個方向打一炮,然后馬上根據(jù)炮的落點修正,這樣三到五次就可以命中目標了,這種瞄準的方法就是貝葉斯定律,強調(diào)的是首先靠人的智慧,在沒有那么多數(shù)據(jù)、統(tǒng)計池、大數(shù)據(jù)的情況下怎么辦:先看人的智慧去確定一種方案,做一個決定,后續(xù)不斷的通過吸收數(shù)據(jù)來調(diào)整我這個方案;數(shù)據(jù)量越大最后越能得到一個接近現(xiàn)實的結(jié)果。
可以看到,貝葉斯定律所強調(diào)的跟TalkingData提出智能數(shù)據(jù)時代的三個要素不謀而合:人基于數(shù)據(jù)去訓練AI,能得到一個非常有價值的東西。在智能數(shù)據(jù)時代,企業(yè)的商業(yè)價值會和基于數(shù)據(jù)的人工智能的發(fā)展以及不斷提高的基于數(shù)據(jù)人的智慧,呈正相關關系。總結(jié)來說,數(shù)據(jù)本沒有意義,AI本沒有智慧,是人,讓其有了意義,有了智慧;無數(shù)據(jù)不AI,無人工不智能。
TalkingData精耕于數(shù)據(jù),在智能數(shù)據(jù)時代深諳新商業(yè)范式的精髓,作為新智能時代的數(shù)據(jù)生態(tài)的領導者, 我們將全球的海量數(shù)據(jù),最領先的技術(shù),和全球頂級的專家完美的融合在一起,幫助各個企業(yè)迎接全新時代的到來。