浪潮 發(fā)表于:14年07月28日 14:00 [來(lái)稿] DOIT.com.cn
在未來(lái)的某一天,當(dāng)你突然想知道這個(gè)世界上有多少人跟你長(zhǎng)的相似的時(shí)候,你可以在搜索框中上傳一張自己的照片,剩下的一切都可以交給智能化的圖片搜索引擎來(lái)完成,它能根據(jù)圖片的內(nèi)容特征自動(dòng)識(shí)別相似的圖片。這種“以圖搜圖”的情景說(shuō)起來(lái)容易,但實(shí)現(xiàn)起來(lái),卻是一個(gè)困擾了谷歌、百度等各大搜索引擎巨頭們?cè)S久的技術(shù)難題。
要知道,計(jì)算機(jī)本身并不能識(shí)別圖像或文字,唯有將其轉(zhuǎn)化為數(shù)字,計(jì)算機(jī)才能識(shí)別和處理。傳統(tǒng)的圖像檢索技術(shù)是以文本檢索技術(shù)為核心構(gòu)建的,互聯(lián)網(wǎng)上的圖片被人為的打上各種各樣的標(biāo)簽,如一張海上日出的風(fēng)景照片,可能的標(biāo)簽包括“海洋、日出、風(fēng)景”等等,一旦有用戶在搜索框中輸入這些關(guān)鍵詞后,搜索引擎會(huì)在數(shù)據(jù)庫(kù)中自動(dòng)查找相對(duì)應(yīng)的標(biāo)簽。
然而,隨著技術(shù)的進(jìn)步,以人工智能為核心的內(nèi)容圖像檢索技術(shù)已經(jīng)成為未來(lái)發(fā)展的趨勢(shì)。目前,谷歌通過(guò)提供數(shù)百萬(wàn)份 YouTube 視頻,成功的讓虛擬神經(jīng)網(wǎng)絡(luò)系統(tǒng)——DistBelief在事先沒(méi)有獲取“貓的特征描述”信息的情況下,自行總結(jié)出貓這個(gè)概念的特征。也就是說(shuō),DistBelief具有自學(xué)習(xí)能力。而在這套人工智能系統(tǒng)后面,是一個(gè)由 1000 臺(tái)機(jī)器組成、包括 16000 個(gè)內(nèi)核、處理參數(shù)高達(dá) 10億個(gè)的超級(jí)計(jì)算機(jī)系統(tǒng)。
讓機(jī)器像人一樣理解圖像內(nèi)容,強(qiáng)大的硬件固然必不可少,可最核心的依然是智能算法的設(shè)計(jì),目前基于聚類的方法是圖像搜索領(lǐng)域的關(guān)鍵方法之一,其中k-means算法是應(yīng)用最廣泛的無(wú)監(jiān)督聚類方法,海量數(shù)據(jù)的索引大部分都使用了分層聚類的思想。但是k-means算法效率相對(duì)比較低,原來(lái)CPU版本的方法在使用50到60個(gè)節(jié)點(diǎn)的條件下處理約100萬(wàn)張圖片,需要耗時(shí)5個(gè)多小時(shí)。這種速度對(duì)于動(dòng)輒上億數(shù)據(jù)的互聯(lián)網(wǎng)公司來(lái)說(shuō),完全無(wú)法接受的,因此必須要對(duì)k-means進(jìn)行優(yōu)化。
針對(duì)k-means目前的特點(diǎn),浪潮日前與國(guó)內(nèi)某知名搜索公司實(shí)現(xiàn)合作,成功實(shí)現(xiàn)了對(duì)k-means算法的優(yōu)化。在項(xiàng)目過(guò)程中,浪潮高性能計(jì)算并行團(tuán)隊(duì)在分析代碼后,提出GPU集群的解決方案,并提出了從硬件(計(jì)算節(jié)點(diǎn)、網(wǎng)絡(luò)互聯(lián)、存儲(chǔ)節(jié)點(diǎn))到軟件(優(yōu)化軟件)的一攬子解決方案。特別在軟件方面,浪潮與客戶算法專家團(tuán)隊(duì)共同成立專門(mén)聯(lián)合項(xiàng)目組,基于K-means串行版本,完成GPU MPI集群版本的實(shí)現(xiàn),節(jié)點(diǎn)內(nèi)使用CPU+GPU協(xié)同計(jì)算,大幅降低了計(jì)算時(shí)間。
雙方聯(lián)合針對(duì)GPU架構(gòu)進(jìn)行了算法層面的優(yōu)化,重寫(xiě)了計(jì)算部分代碼,將整體速度大幅提升。經(jīng)過(guò)優(yōu)化后的軟件,在單GPU上運(yùn)行的速度與串行程序相比,加速比達(dá)到41倍,1塊GPU相當(dāng)于4.4個(gè)8核CPU并行的性能,同時(shí)由于浪潮 GPU版本K-means具有很好的性能可擴(kuò)展性,這使得GPU服務(wù)器具有很好的性價(jià)比非常適合于此類應(yīng)用大規(guī)模部署。
某搜索引擎技術(shù)部的負(fù)責(zé)人在上線了浪潮優(yōu)化后的搜索程序表示:“浪潮優(yōu)化以后,大幅降低了我們硬件采購(gòu)的成本,并且節(jié)省了計(jì)算時(shí)間,為我們的應(yīng)用上線帶來(lái)了很大助益。”
浪潮作為中國(guó)異構(gòu)高性能計(jì)算技術(shù)的領(lǐng)先者,一直致力于推動(dòng)GPU和MIC的應(yīng)用發(fā)展和人才培養(yǎng),推動(dòng)異構(gòu)技術(shù)的產(chǎn)業(yè)生態(tài)環(huán)境建設(shè)。據(jù)了解,浪潮已經(jīng)分別與英特爾和英偉達(dá)聯(lián)合成立并行計(jì)算實(shí)驗(yàn)室,合作開(kāi)發(fā)優(yōu)化基于MIC和GPU的并行應(yīng)用,涉及石油天然氣、數(shù)值氣象預(yù)報(bào)、生命科學(xué)、計(jì)算流體力學(xué)、金融風(fēng)險(xiǎn)分析、電磁仿真、CAE、機(jī)器學(xué)習(xí)等諸多領(lǐng)域。同時(shí),浪潮高性能計(jì)算應(yīng)用軟件開(kāi)發(fā)團(tuán)隊(duì)是目前同時(shí)掌握CPU、GPU、MIC應(yīng)用技術(shù)的國(guó)際領(lǐng)先團(tuán)隊(duì),在CPU、GPU、MIC技術(shù)方面已取得多項(xiàng)研究成果,并成功在SC和IDF大會(huì)上成功展示。
公司簡(jiǎn)介 | 媒體優(yōu)勢(shì) | 廣告服務(wù) | 客戶寄語(yǔ) | DOIT歷程 | 誠(chéng)聘英才 | 聯(lián)系我們 | 會(huì)員注冊(cè) | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.