英特爾高級首席工程師、大數(shù)據(jù)分析和人工智能創(chuàng)新院院長戴金權
9月19日,數(shù)交會首屆全球數(shù)字經(jīng)濟大會在大連隆重召開,英特爾高級首席工程師、大數(shù)據(jù)分析和人工智能創(chuàng)新院院長戴金權發(fā)表主旨演講。以下為演講摘錄(未經(jīng)本人審定)。
我們已經(jīng)進入大數(shù)據(jù)時代,統(tǒng)計顯示50%的數(shù)據(jù)是近兩年產(chǎn)生的,而不到2%的數(shù)據(jù)得到了真正的分析,大數(shù)據(jù)分析、人工智能在實際生產(chǎn)環(huán)境應用中還面臨著非常多的挑戰(zhàn)。
谷歌2015年發(fā)表的一篇論文很好闡述了這個問題。最中間有一個小黑框,是機器學習、深度學習或者人工智能的模型算法。今天我們在實驗室里構建一個新的模型,或者在開源社區(qū)下載一個模型不是太困難,但是將構建出的模型很好應用到現(xiàn)實的工業(yè)級生產(chǎn)環(huán)境中,事實上有非常多的事情要做。這也是為什么英特爾致力于將人工智能和大數(shù)據(jù)分析處理的底層架構結(jié)合在一起。
BIGDL是我們2017年開源的一個項目,它是第一個在大數(shù)據(jù)平臺上構建的分布式深度學習框架,目的是幫助用戶在現(xiàn)有大數(shù)據(jù)平臺上構建新的人工智能深度學習。人工智能社區(qū)有各種各樣的技術和深度學習框架,同時大數(shù)據(jù)平臺也是一個非?;钴S的生態(tài)架構,如何將不同大數(shù)據(jù)處理分析或者人工智能技術有機整合在一起構成一個端到端的流水線,來解決用戶的問題呢?事實上,這是應用落地的最大瓶頸。去年我們開源了ANALYTCSZOO大數(shù)據(jù)分析人工智能平臺,幫助用戶在現(xiàn)有大數(shù)據(jù)平臺上,把各種AI技術統(tǒng)一到統(tǒng)一平臺中。
數(shù)據(jù)科學家通常先構建一個原形,再進行各種優(yōu)化提高準確度,然后將數(shù)據(jù)搬到生產(chǎn)環(huán)境中,這不是一個高效的過程,我們希望通過ANALYTCSZOO更方便地為客戶構建原形,直接訪問數(shù)據(jù),無縫擴展到生產(chǎn)環(huán)境中,而不需要任何代碼修改或數(shù)據(jù)拷貝。
將人工智能技術方便無縫地應用在大規(guī)模分布式大數(shù)據(jù)分析平臺上是一個重要的技術創(chuàng)新,下面看看我們是如何與合作伙伴、用戶一起來做這件事情的。
我們和微軟云團隊合作,他們的訴求是希望給用戶提供更高效的客服系統(tǒng),用戶甚至可以通過微信公眾號的界面,找到最對應的回答反饋。問題和回答做匹配,不僅通過關鍵字,也可以通過自然語言進行匹配。如果用戶得到的回答不能解決問題,再轉(zhuǎn)到人工服務。這一過程中我們通過文本分類自然云處理一些模型,嵌入到端到端流水線中,讓人工智能更好地應用于客服系統(tǒng)中。
美的是一家大型工業(yè)機器人制造商,有非常多的產(chǎn)品需要進行檢測。他們希望通過人工智能技術、計算機識別等進行自動檢測??峥C器人接上一個攝像機,對流水線上的產(chǎn)品進行拍照,然后直接進行物體識別。整個過程需要完整的端到端服務,首先在云端要進行大規(guī)模訓練和判斷,同時在邊緣端進行推理、實時識別。我們的合作得到了滿意的模型,基于英特爾酷睿進行推理判斷。
CERN是歐洲原子能機構,運營粒子對撞機,每秒產(chǎn)生1PB的數(shù)據(jù)因為無法存儲都會直接扔掉,訴求是希望將其中有用的數(shù)據(jù)留下來進行數(shù)據(jù)分析。關鍵是如何構建一個過濾系統(tǒng),將每秒對撞產(chǎn)生的1PB數(shù)據(jù)過濾后只剩下10GB非常有用的數(shù)據(jù)。我們和CERN合作,構建了一個端到端數(shù)據(jù)處理分析和深度學習流水線,運用大數(shù)據(jù)系統(tǒng)進行實時的流處理,從而將有用的研究數(shù)據(jù)保留下來。
當人們希望把人工智能、深度學習、機器學習的算法應用到現(xiàn)實生產(chǎn)環(huán)境中,會涉及如何進行大規(guī)模數(shù)據(jù)處理分析等各種問題,這是英特爾希望做的事情,也希望跟合作伙伴共同創(chuàng)新,更好地推動大數(shù)據(jù)分析和人工智能在實際生產(chǎn)中的落地,更好地對生產(chǎn)、生活進行改善。