圖:學(xué)術(shù)訓(xùn)練營活動現(xiàn)場會聚前沿年青骨干 呈現(xiàn)關(guān)鍵研究新進(jìn)展
出席本次訓(xùn)練營的主要嘉賓有:
微軟亞洲研究院、計(jì)算機(jī)視覺組資深研究員 代季峰博士
中科院自動化所 張士峰博士
曠視研究院Base Model組負(fù)責(zé)人 張祥雨博士
華中科技大學(xué)電信學(xué)院教授、副院長 白翔
Momenta高級研發(fā)工程師 胡杰
曠視研究院Detection組負(fù)責(zé)人 俞剛博士
清華大學(xué)自動化系助理教授 黃高
南開大學(xué)教授 程明明
活動吸引到了300余名來自人工智能領(lǐng)域?qū)W術(shù)界與產(chǎn)業(yè)界的研究人員與相關(guān)從業(yè)者參與,內(nèi)容涵蓋8場權(quán)威主題報(bào)告,1個開放式圓桌討論。
曠視首席科學(xué)家、研究院院長孫劍首先在開幕致辭中對所有與會嘉賓表示歡迎,并簡要闡述了當(dāng)前計(jì)算機(jī)視覺技術(shù)發(fā)展現(xiàn)狀與舉辦本次學(xué)術(shù)交流會的目的。隨著深度學(xué)習(xí)的引入與應(yīng)用,業(yè)內(nèi)出現(xiàn)了新的機(jī)遇與挑戰(zhàn),如何取得新突破一方面有賴于學(xué)術(shù)界的努力,另一方面,面對理論困難與應(yīng)用需求的雙重夾擊,產(chǎn)業(yè)研究中AI技術(shù)與行業(yè)的深度融合同樣能夠提供新視角。因此,在這樣的背景下,人們需要“分享各種新的方法和新的思想,深入理解問題、深刻弄清每個細(xì)節(jié),向前一步步推動計(jì)算機(jī)視覺理論與應(yīng)用的發(fā)展”。
圖:曠視首席科學(xué)家、研究院院長孫劍致開幕辭
隨后8位專家先后做出分享,內(nèi)容涵蓋當(dāng)前在“物體檢測”與“深度神經(jīng)網(wǎng)絡(luò)模型設(shè)計(jì)”領(lǐng)域最火熱的深度神經(jīng)網(wǎng)絡(luò)中的幾何形變建模技術(shù)、物體檢測算法的對比探索及展望、高效輕量級深度模型的研究與實(shí)踐、面向快速推理的卷積神經(jīng)網(wǎng)絡(luò)、不規(guī)則文字檢測與識別、視覺注意力機(jī)制在模式設(shè)計(jì)中的發(fā)展與應(yīng)用、目標(biāo)檢測領(lǐng)域的新問題及方向、開放環(huán)境下的自適應(yīng)視覺感知等方向。
活動現(xiàn)場精彩報(bào)告
代季峰|報(bào)告題目:卷積神經(jīng)網(wǎng)絡(luò)中的幾何形變建模
內(nèi)容大綱:
在視覺識別任務(wù)中,一個重要的挑戰(zhàn)是如何恰當(dāng)處理和建模幾何形變,包括尺度、姿態(tài)、視角以及物體部件的移動等。從特征工程的時代開始,一系列著名的算法就被開發(fā)出來以嘗試解決這個問題,包括SIFT,DPM等。但受限于它們的特征表達(dá)能力和局限的變性建模能力,其性能受到了很多的限制。在深度學(xué)習(xí)的時代,網(wǎng)絡(luò)特征的表達(dá)能力大大的超出了之前手工設(shè)計(jì)的特征。但是,現(xiàn)有的網(wǎng)絡(luò)模塊依然難以對幾何形變進(jìn)行有效的處理和建模。本次talk中將會介紹在深度神經(jīng)網(wǎng)絡(luò)中的幾何形變建模技術(shù),它們能夠大幅度的增強(qiáng)深度神經(jīng)網(wǎng)絡(luò)的幾何建模能力,在各種識別任務(wù)中取得巨大的性能提升。
張士峰|報(bào)告題目:物體檢測算法的對比探索以及展望
內(nèi)容大綱:
目前基于深度學(xué)習(xí)的物體檢測算法大致可以分為兩類:一步法檢測器和二步法檢測器。一步法檢測器有較高的檢測速度,但檢測精度不如二步法檢測器。而二步法檢測有較高的檢測精度,但檢測效率不如一步法檢測器。為了使得一步法檢測器獲得二步法檢測器的檢測精度,同時保持較高的檢測效率,我們對一步法和二步法檢測器進(jìn)行了一系列探索,提出了RefineDet、SRN、ISRN、RetinaFace等系列算法。此次分享將先概括地介紹物體檢測算法,接著分享我們自己一系列相關(guān)的工作,最后對物體檢測的發(fā)展進(jìn)行討論展望。
張祥雨|報(bào)告題目:高效輕量級深度模型的研究與實(shí)踐
內(nèi)容大綱:
深度基礎(chǔ)模型在現(xiàn)代深度視覺系統(tǒng)中居于核心地位。在實(shí)際應(yīng)用中,受應(yīng)用場景、目標(biāo)任務(wù)、硬件平臺等的不同,經(jīng)常會對模型的執(zhí)行速度、存儲大小、運(yùn)算功耗等進(jìn)行限制。因此,如何針對各種不同的情景設(shè)計(jì)“又好又快”的模型,成為深度學(xué)習(xí)系統(tǒng)實(shí)用化的重要課題。
本次講座主要圍繞實(shí)用模型設(shè)計(jì)的兩個常用技術(shù):輕量級模型設(shè)計(jì)和模型裁剪,重點(diǎn)介紹本團(tuán)隊(duì)在高效深度模型領(lǐng)域的科研成果和實(shí)踐經(jīng)驗(yàn)。分享內(nèi)容包括ShuffleNet v1/v2系列,以及自動化模型設(shè)計(jì)、模型搜索等最新研究成果。
白翔|報(bào)告題目:不規(guī)則文字檢測與識別
內(nèi)容大綱:
場景OCR技術(shù)是一種通用的文字識別技術(shù),已經(jīng)在工業(yè)界產(chǎn)生了廣泛的落地。近年來,學(xué)術(shù)界開始將注意力轉(zhuǎn)向不規(guī)則文本的檢測與識別技術(shù)研究。本次報(bào)告介紹了針對不規(guī)則文本檢測與識別一些代表性方法,例如ASTER,Mask Textspotter,TextField等機(jī)近期成果,這些方法在不規(guī)則文字檢測與識別任務(wù)中取得了顯著的性能提升。
胡杰|報(bào)告題目:視覺注意力機(jī)制在模式設(shè)計(jì)中的發(fā)展與應(yīng)用
內(nèi)容大綱:
機(jī)器學(xué)習(xí)中的注意力模型通過模擬人類視覺的注意力機(jī)制,從而在大量信息中篩選和聚焦對任務(wù)重要的信息,減少來自不重要信息和噪聲的干擾。近年來,注意力機(jī)制被引入計(jì)算機(jī)視覺、自然語言處理等諸多領(lǐng)域,并在不同任務(wù)上取得顯著的性能提升。本次報(bào)告將圍繞注意力機(jī)制在計(jì)算機(jī)視覺的應(yīng)用,概括總結(jié)如何在神經(jīng)網(wǎng)絡(luò)(尤其是卷積神經(jīng)網(wǎng)絡(luò))中結(jié)合注意力機(jī)制增強(qiáng)網(wǎng)絡(luò)表達(dá)能力,從而實(shí)現(xiàn)有效提升系統(tǒng)性能的目標(biāo)。
俞剛|報(bào)告題目:Beyond RetinaNet and Mask R-CNN
內(nèi)容大綱:
物體檢測是計(jì)算機(jī)視覺中一個非常重要但同時也是很基礎(chǔ)的技術(shù)環(huán)節(jié)。在RetinaNet以及Mask RCNN出現(xiàn)之后,物體檢測領(lǐng)域在框架上面已經(jīng)比較成熟,但是從技術(shù)落地角度來考慮,還有很多細(xì)節(jié)問題需要攻克。本報(bào)告將從六個維度分別來展開目標(biāo)檢測領(lǐng)域的一些新的問題以及方向。具體來講,這六個方向是Backbone, Head, Scale variation, Batch size, Crowd,pretraining。這些技術(shù)點(diǎn)的攻破以及成果,會對物體檢測領(lǐng)域的實(shí)際落地會有很大推動作用。
黃高|報(bào)告題目:面向快速推理的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)
內(nèi)容大綱:
近幾年,隨著深度學(xué)習(xí)從實(shí)驗(yàn)室走向越來越多的實(shí)際應(yīng)用,人們對模型的關(guān)注不僅僅在其精度方面,同時也對計(jì)算和存儲效率提出了更高的要求。在提升模型效率的諸多手段中,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)創(chuàng)新始終是最為有效的方式之一。本報(bào)告將簡單回顧卷積神經(jīng)網(wǎng)絡(luò)的幾種典型結(jié)構(gòu),分析有助于提升模型效率的設(shè)計(jì)技巧與原則。與結(jié)構(gòu)設(shè)計(jì)密切相關(guān)的,還有神經(jīng)網(wǎng)絡(luò)的推理方法。報(bào)告將從自適應(yīng)推理的角度,介紹如何通過合理的結(jié)構(gòu)設(shè)計(jì),使模型能夠針對不同的樣本分配相應(yīng)的計(jì)算量,達(dá)到降低平均計(jì)算開銷的目的。
程明明|報(bào)告題目:開放環(huán)境下的自適應(yīng)視覺感知
內(nèi)容大綱:
現(xiàn)有視覺學(xué)習(xí)技術(shù)通常依賴于大規(guī)模精確標(biāo)注的訓(xùn)練數(shù)據(jù)。在典型實(shí)驗(yàn)室環(huán)境下設(shè)計(jì)和訓(xùn)練的人工智能模型,在行業(yè)應(yīng)用場景變換時,容易導(dǎo)致系統(tǒng)性能急劇下降。本報(bào)告將從弱監(jiān)督視覺理解的角度,介紹在降低模型對特定應(yīng)用場景數(shù)據(jù)依賴方面所開展的一些研究工作,主要包括如何學(xué)習(xí)一些通用屬性,并利用這些通用屬性構(gòu)建弱監(jiān)督檢測與分割模型。
圖:清華大學(xué)自動化系副教授、博士生導(dǎo)師魯繼文(左一)主持Panel環(huán)節(jié)
結(jié)語
作為一個理論與應(yīng)用實(shí)踐高度結(jié)合的科學(xué)研究領(lǐng)域,人工智能的形象從其誕生時代小說家筆下的神秘形象逐漸具象化,滲透進(jìn)社會生活、生產(chǎn)的方方面面。它早已不囿于實(shí)驗(yàn)室的理想環(huán)境、拘泥于競賽的排行榜,而是在為各行各業(yè)的先行者們創(chuàng)造實(shí)際的商業(yè)價值和社會價值,成為創(chuàng)新與變革的助推引擎。本次SpringCamp的順利舉辦是曠視對自身產(chǎn)學(xué)研體系建設(shè)新模式的有益探索,也是作為產(chǎn)業(yè)界代表反哺學(xué)術(shù)界的又一次成功嘗試,對推動學(xué)術(shù)界與產(chǎn)業(yè)界的良性交流具有重要意義。