浪潮 發(fā)表于:14年07月28日 10:22 [來稿] DOIT.com.cn
在未來的某一天,當(dāng)你突然想知道這個世界上有多少人跟你長的相似的時候,你可以在搜索框中上傳一張自己的照片,剩下的一切都可以交給智能化的圖片搜索引擎來完成,它能根據(jù)圖片的內(nèi)容特征自動識別相似的圖片。這種“以圖搜圖”的情景說起來容易,但實現(xiàn)起來,卻是一個困擾了谷歌、百度等各大搜索引擎巨頭們許久的技術(shù)難題。
要知道,計算機本身并不能識別圖像或文字,唯有將其轉(zhuǎn)化為數(shù)字,計算機才能識別和處理。傳統(tǒng)的圖像檢索技術(shù)是以文本檢索技術(shù)為核心構(gòu)建的,互聯(lián)網(wǎng)上的圖片被人為的打上各種各樣的標(biāo)簽,如一張海上日出的風(fēng)景照片,可能的標(biāo)簽包括“海洋、日出、風(fēng)景”等等,一旦有用戶在搜索框中輸入這些關(guān)鍵詞后,搜索引擎會在數(shù)據(jù)庫中自動查找相對應(yīng)的標(biāo)簽。
然而,隨著技術(shù)的進(jìn)步,以人工智能為核心的內(nèi)容圖像檢索技術(shù)已經(jīng)成為未來發(fā)展的趨勢。目前,谷歌通過提供數(shù)百萬份 YouTube 視頻,成功的讓虛擬神經(jīng)網(wǎng)絡(luò)系統(tǒng)——DistBelief在事先沒有獲取“貓的特征描述”信息的情況下,自行總結(jié)出貓這個概念的特征。也就是說,DistBelief具有自學(xué)習(xí)能力。而在這套人工智能系統(tǒng)后面,是一個由 1000 臺機器組成、包括 16000 個內(nèi)核、處理參數(shù)高達(dá) 10億個的超級計算機系統(tǒng)。
讓機器像人一樣理解圖像內(nèi)容,強大的硬件固然必不可少,可最核心的依然是智能算法的設(shè)計,目前基于聚類的方法是圖像搜索領(lǐng)域的關(guān)鍵方法之一,其中k-means算法是應(yīng)用最廣泛的無監(jiān)督聚類方法,海量數(shù)據(jù)的索引大部分都使用了分層聚類的思想。但是k-means算法效率相對比較低,原來CPU版本的方法在使用50到60個節(jié)點的條件下處理約100萬張圖片,需要耗時5個多小時。這種速度對于動輒上億數(shù)據(jù)的互聯(lián)網(wǎng)公司來說,完全無法接受的,因此必須要對k-means進(jìn)行優(yōu)化。
針對k-means目前的特點,浪潮日前與國內(nèi)某知名搜索公司實現(xiàn)合作,成功實現(xiàn)了對k-means算法的優(yōu)化。在項目過程中,浪潮高性能計算并行團(tuán)隊在分析代碼后,提出GPU集群的解決方案,并提出了從硬件(計算節(jié)點、網(wǎng)絡(luò)互聯(lián)、存儲節(jié)點)到軟件(優(yōu)化軟件)的一攬子解決方案。特別在軟件方面,浪潮與客戶算法專家團(tuán)隊共同成立專門聯(lián)合項目組,基于K-means串行版本,完成GPU MPI集群版本的實現(xiàn),節(jié)點內(nèi)使用CPU+GPU協(xié)同計算,大幅降低了計算時間。
雙方聯(lián)合針對GPU架構(gòu)進(jìn)行了算法層面的優(yōu)化,重寫了計算部分代碼,將整體速度大幅提升。經(jīng)過優(yōu)化后的軟件,在單GPU上運行的速度與串行程序相比,加速比達(dá)到41倍,1塊GPU相當(dāng)于4.4個8核CPU并行的性能,同時由于浪潮 GPU版本K-means具有很好的性能可擴展性,這使得GPU服務(wù)器具有很好的性價比非常適合于此類應(yīng)用大規(guī)模部署。
某搜索引擎技術(shù)部的負(fù)責(zé)人在上線了浪潮優(yōu)化后的搜索程序表示:“浪潮優(yōu)化以后,大幅降低了我們硬件采購的成本,并且節(jié)省了計算時間,為我們的應(yīng)用上線帶來了很大助益。”
浪潮作為中國異構(gòu)高性能計算技術(shù)的領(lǐng)先者,一直致力于推動GPU和MIC的應(yīng)用發(fā)展和人才培養(yǎng),推動異構(gòu)技術(shù)的產(chǎn)業(yè)生態(tài)環(huán)境建設(shè)。據(jù)了解,浪潮已經(jīng)分別與英特爾和英偉達(dá)聯(lián)合成立并行計算實驗室,合作開發(fā)優(yōu)化基于MIC和GPU的并行應(yīng)用,涉及石油天然氣、數(shù)值氣象預(yù)報、生命科學(xué)、計算流體力學(xué)、金融風(fēng)險分析、電磁仿真、CAE、機器學(xué)習(xí)等諸多領(lǐng)域。同時,浪潮高性能計算應(yīng)用軟件開發(fā)團(tuán)隊是目前同時掌握CPU、GPU、MIC應(yīng)用技術(shù)的國際領(lǐng)先團(tuán)隊,在CPU、GPU、MIC技術(shù)方面已取得多項研究成果,并成功在SC和IDF大會上成功展示。
公司簡介 | 媒體優(yōu)勢 | 廣告服務(wù) | 客戶寄語 | DOIT歷程 | 誠聘英才 | 聯(lián)系我們 | 會員注冊 | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.