百度和其他公司之所以能夠在ImageNet測試中取得佳績,依靠的是一種名為“深度學(xué)習(xí)”的算法。這種算法近期才從學(xué)術(shù)界引入到硅谷,但已開始對人們?nèi)粘I町a(chǎn)生影響。兩年前,谷歌使用深度學(xué)習(xí)算法來大幅提升Android語音識別系統(tǒng)的準(zhǔn)確率。
報(bào)道稱,百度正使用一種更大型超級計(jì)算機(jī)對1.4萬個小時的語音數(shù)據(jù)進(jìn)行分析,旨在提升百度在中文和英文語音識別上的準(zhǔn)確率。
“對于整個行業(yè)在計(jì)算機(jī)視覺領(lǐng)域取得的所有進(jìn)步,我感到十分激動,”百度首席科學(xué)家吳恩達(dá)表示,“計(jì)算機(jī)能夠顯著提升圖像理解的準(zhǔn)確率,做這么多它們在一年前還無法做的事情。”
百度計(jì)劃在未來18個月開發(fā)一款更大型計(jì)算機(jī),每秒可執(zhí)行1千萬億次(quadrillion)運(yùn)算,這一運(yùn)算能力足以讓該計(jì)算機(jī)排進(jìn)全球超級計(jì)算機(jī)性能榜的前十,盡管其計(jì)算復(fù)雜度不及世界頂尖超級計(jì)算機(jī)。
吳恩達(dá)稱:“有趣的是,排在ImageNet圖像識別測試前三的計(jì)算機(jī)都來自擁有重大計(jì)算資源的大型科技公司。”他表示,百度利用從中國及其硅谷實(shí)驗(yàn)室獲取的超級計(jì)算專業(yè)知識來開發(fā)Minwa。
Facebook人工智能項(xiàng)目負(fù)責(zé)人、著名人工智能研究員Yann LeCun也已表示,F(xiàn)acebook正在部署一流計(jì)算資源,但他不愿透露Facebook計(jì)算機(jī)系統(tǒng)的規(guī)模。
微軟首次超越人類識別能力
一直以來,計(jì)算科學(xué)家一直在為建立世界上最精確的計(jì)算機(jī)視覺系統(tǒng)孜孜不倦地努力著,但取得進(jìn)展的過程卻一直如馬拉松競賽般漫長而艱辛。
早些時候,微軟亞洲研究院視覺計(jì)算組基于深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的計(jì)算機(jī)視覺系統(tǒng),在ImageNet 1000挑戰(zhàn)中首次超越了人類進(jìn)行對象識別分類的能力,將錯誤率降低至4.94%。此前同樣的實(shí)驗(yàn)中,人眼辨識的錯誤率大概為5.1%。這個數(shù)據(jù)集包含約120萬張訓(xùn)練圖像、5萬張驗(yàn)證圖像和10萬張測試圖像,分為1000個不同的類別。
該研究團(tuán)隊(duì)由微軟亞洲研究院研究員孫劍、何愷明以及來自西安交通大學(xué)和中國科學(xué)技術(shù)大學(xué)的實(shí)習(xí)生張祥雨和任少卿組成。孫劍已在微軟亞洲研究院工作了十二年,現(xiàn)任視覺計(jì)算組首席研究員。
孫劍將團(tuán)隊(duì)取得的最新成果歸功于以下兩項(xiàng)關(guān)鍵突破:一是開發(fā)了適應(yīng)性更強(qiáng)的非線性神經(jīng)元,二是改進(jìn)訓(xùn)練算法,使得神經(jīng)網(wǎng)絡(luò)更為強(qiáng)大。微軟研究員在論文中指出,修正神經(jīng)元 (rectifier neuron)是近期將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于計(jì)算機(jī)視覺挑戰(zhàn)時取得成功的關(guān)鍵要素之一。
研究團(tuán)隊(duì)成員也強(qiáng)調(diào),計(jì)算機(jī)視覺目前從根本上仍無法與人類視覺相比。計(jì)算機(jī)系統(tǒng)在識別物體、理解圖像上下文及場景高級信息等領(lǐng)域仍面臨諸多挑戰(zhàn)。
“人類可以毫不費(fèi)力地區(qū)分出一只羊和一頭牛。但計(jì)算機(jī)在執(zhí)行這些簡單任務(wù)時卻不盡完美,”孫劍解釋道。“但是,當(dāng)涉及到不同品種的羊的區(qū)分時,計(jì)算機(jī)可超越人類。通過訓(xùn)練,計(jì)算機(jī)可觀察圖像的細(xì)節(jié)、紋理、形狀及環(huán)境,并發(fā)現(xiàn)人類無法察覺出的區(qū)別。”
“我們的目標(biāo)是在眾多應(yīng)用上開發(fā)出能與人類視覺媲美,甚至比人類更準(zhǔn)確的計(jì)算機(jī)視覺系統(tǒng),”孫劍說道。“如要實(shí)現(xiàn)這一目標(biāo),我們需要更多的訓(xùn)練數(shù)據(jù)和更加真實(shí)的測試場景。我們在必應(yīng)、OneDrive和其他服務(wù)平臺上的工作將幫助我們進(jìn)一步改善算法的魯棒性。”
微軟研究團(tuán)隊(duì)的工作并不僅僅局限于基礎(chǔ)研究,其多項(xiàng)成果已被應(yīng)用到微軟的產(chǎn)品和服務(wù)中,包括必應(yīng)圖片搜索及微軟云存儲解決方案OneDrive。在OneDrive近期一篇的一片官方博文中,微軟OneDrive項(xiàng)目經(jīng)理Douglas Pearce介紹了 OneDrive自動識別照片內(nèi)容的功能。
“OneDrive會自動為用戶上傳的照片創(chuàng)建標(biāo)簽,比如人、狗、沙灘、落日等等,使用戶借助標(biāo)簽?zāi)軌蚋p松地尋找到自己的圖片。有了這項(xiàng)功能,我們向演示項(xiàng)目中添加照片、與家人重溫特殊回憶,或與Facebook好友分享重要時刻就變得輕而易舉。”Pearce如是說。
2010年,來自斯坦福大學(xué)、普林斯頓大學(xué)及哥倫比亞大學(xué)的科學(xué)家們啟動大規(guī)模視覺識別挑戰(zhàn)賽(Large Scale Visual Recognition Challenge),推動了計(jì)算機(jī)視覺識別挑戰(zhàn)的持續(xù)發(fā)展。科技行業(yè)知名記者John Markoff于2014年8月在《紐約時報(bào)》上刊登文章指出,到2014年計(jì)算機(jī)識別挑戰(zhàn)的目標(biāo)識別準(zhǔn)確率幾乎提升了一倍,圖像分類錯誤率也減少了一半。