ICASSP是國際聲學(xué)語言和信號處理的旗艦會議,和InterSpeech會議并稱語音信號處理領(lǐng)域的雙雄,每年都會吸引數(shù)千名全球各地的語音信號領(lǐng)域和人工智能領(lǐng)域知名專家、學(xué)者、企業(yè)和開發(fā)人員參加。
由于ICASSP是2018年語音領(lǐng)域的首場旗艦級會議(InterSpeech將于9月召開),所以其學(xué)術(shù)研究方向、科技成果轉(zhuǎn)化內(nèi)容和產(chǎn)業(yè)發(fā)展趨勢倍受關(guān)注,甚至?xí)h內(nèi)容被業(yè)界譽(yù)為“風(fēng)向標(biāo)”,會影響未來1~3年的技術(shù)走向。
三個場景展示阿里語音技術(shù)內(nèi)容
阿里巴巴在ICASSP會議上將通過三個場景展示語音技術(shù)內(nèi)容:一方面5位論文作者將在主會以O(shè)ral&Poster形式介紹阿里在語音信號處理技術(shù)上的最新技術(shù)研究內(nèi)容;其次在會展核心區(qū)展示語音核心技術(shù)、語音主要產(chǎn)品、語音應(yīng)用場景和效果;最后的場景也是相對高規(guī)格和私密,通過“阿里之夜”WorkShop近距離系統(tǒng)化介紹語音技術(shù)和人工智能技術(shù)。
本屆ICASSP收錄的5篇論文全部出自機(jī)器智能實驗室智能語音交互團(tuán)隊,論文主題包括“語音合成的深度前饋序列記憶網(wǎng)絡(luò)”、“使用說話人少量數(shù)據(jù)來合成語音的自適應(yīng)算法”、“針對影視作品的語音情感識別信息融合框架”、“高級長短期記憶網(wǎng)絡(luò):關(guān)于更優(yōu)時間依賴性刻畫在情感識別方面的應(yīng)用”、“基于深層前饋序列記憶神經(jīng)網(wǎng)絡(luò)的大詞匯量連續(xù)語音識別”,涉及語音合成、語音識別、情感識別等聲學(xué)語言和信息處理方面的創(chuàng)新方法。
這些論文提到的創(chuàng)新方法相比傳統(tǒng)算法模型、網(wǎng)絡(luò)框架以及循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),在效率、性能方面有不同比例的提升。
ICASSP阿里巴巴展區(qū)
“阿里之夜”是阿里里巴巴在學(xué)術(shù)會議上舉辦的WorkShop品牌,目的是搭建全球?qū)W術(shù)合作橋梁,構(gòu)建全球產(chǎn)學(xué)研合作共同體?;顒硬扇《ㄏ蜓s制,參與人包括會議成員、合作機(jī)構(gòu)專家、論文作者等?!鞍⒗镏埂币殉蔀榘⒗锇桶蛥⒓訃H學(xué)術(shù)會議的品牌活動,在業(yè)內(nèi)具有廣泛影響力。
阿里巴巴資深技術(shù)專家田野在“阿里之夜”現(xiàn)場表示,阿里巴巴不僅注重基礎(chǔ)科學(xué)的研究,同樣重視技術(shù)與市場的融合。技術(shù)賦能用戶、賦能阿里的商業(yè)發(fā)展,釋放技術(shù)紅利價值,是阿里巴巴對技術(shù)與商業(yè)雙軌制發(fā)展的系統(tǒng)思考。
ICASSP阿里之夜WorkShop現(xiàn)場
阿里巴巴語音技術(shù)的標(biāo)志性應(yīng)用
2016年9月13日,浙江省高級人民法院開庭現(xiàn)場,用智能語音識別系統(tǒng)同步記錄了庭審中法官和訴訟參與人說的每一句話,在投射到LED屏幕時系統(tǒng)還不時自動糾錯,整體識別準(zhǔn)確率達(dá)95%以上。這項語音技術(shù)由阿里巴巴提供,這也是語音技術(shù)首次走進(jìn)法院,承擔(dān)起“書記員”的角色。該應(yīng)用的落地,加快了中國法院將人工智能技術(shù)引入辦案系統(tǒng)的進(jìn)程。
2017年7月,阿里巴巴A.I. labs發(fā)布了首款智能音箱天貓精靈X1,雙11當(dāng)天售出了100萬臺,在2018年新品發(fā)布會上,阿里巴巴公布天貓精靈共售出200萬臺,直接讓200萬個家庭體驗到了人工智能與生活結(jié)合后的樂趣。
另一個標(biāo)志性事件是在去年11月,剛剛從烏鎮(zhèn)參加完世界互聯(lián)網(wǎng)大會的馬云,在上海的申通地鐵上用語音交互的方式購買了一張地鐵票,阿里由此成為世界上首個掌握公共場所強(qiáng)噪音環(huán)境下實現(xiàn)語音交互技術(shù)的企業(yè)。通過語音實現(xiàn)購票這一商業(yè)場景,主要得益于語音智能團(tuán)隊融合智能語音、計算機(jī)視覺等能力,并首次在公共場所嘈雜環(huán)境下,突破免喚醒主動語音交互、強(qiáng)噪聲環(huán)境下高精度遠(yuǎn)場語音識別等核心關(guān)鍵技術(shù)。
馬云<右二>在上海地鐵體驗語音購票
從賦能用戶角度看,阿里巴巴正通過云計算、AliGenie等開放平臺,向文娛、地產(chǎn)、酒店、旅游、法院、航空、制造、新聞等行業(yè)提供智能語音解決方案,加速人工智能技術(shù)賦能產(chǎn)業(yè)與商業(yè)發(fā)展。
無論是賦能用戶,還是賦能阿里商業(yè)體系,都得益于阿里在技術(shù)上的突破,在今年全球首場人工智能會議AAAI上,阿里巴巴就有11篇論文入選。在2017年,阿里巴巴 不僅獲得ACM MM2020會議主辦權(quán),成為首個獲得主辦權(quán)的中國企業(yè),城市大腦成為首批入選國家新一代人工智能開放創(chuàng)新平臺的人工智能技術(shù)服務(wù),而且在學(xué)術(shù)領(lǐng)域收貨頗多,在IJCAI會議上,阿里巴巴有11篇論文被收錄,CVPR會議收錄4篇、KDD會議收錄5篇,ACM MM會議收錄3篇。
近幾年,阿里巴巴一直在加大技術(shù)研究,以實現(xiàn)在基礎(chǔ)科學(xué)和顛覆性技術(shù)上取得進(jìn)展。為此,阿里巴巴成立全球性技術(shù)研究機(jī)構(gòu)“達(dá)摩院”,未來三年在技術(shù)上總投入將超過1000億人民幣,涵蓋機(jī)器智能、智聯(lián)網(wǎng)、金融科技等多個產(chǎn)業(yè)領(lǐng)域的技術(shù)研究內(nèi)容。