圖1 Covid-19智能檢測系統(tǒng)流程圖

自2020年開始,世界各地相繼爆發(fā)了新冠肺炎(COVID-19)疫情。然而中國在較短時間內(nèi)成功的控制了疫情的傳播,為新冠肺炎的防控交出了教科書式的答卷,這與我國實行嚴格的疫情防控工作密不可分。在公共場合,手持式測溫槍與紅外體溫測量儀的使用可以有效監(jiān)測密集人群中的體溫異常情況,第一時間發(fā)現(xiàn)疑似患者,減少聚集感染可能性。在防治疫情階段,有序對不同癥狀的患者進行區(qū)分,并按照病理特征合理分配醫(yī)療資源是十分重要的。這種措施一方面減少了人群在醫(yī)院等高危區(qū)域的交叉感染,另一方面避免出現(xiàn)醫(yī)療資源的擠兌發(fā)生。

為了更好的防治新冠肺炎疫情,平安科技從海量的咳嗽病理數(shù)據(jù)出發(fā),以自主研發(fā)的奧卡姆平臺為依托,使用前沿Few-shot Learning以及注意力相似度技術成功研制出通過咳嗽來進行新冠肺炎智能診斷的系統(tǒng),并將該系統(tǒng)嵌入到平安科技愛德機器人當中。該系統(tǒng)會根據(jù)使用者的咳嗽聲進行智能診斷,目前支持新冠肺炎,急性支氣管炎,慢性咽炎,百日咳,發(fā)燒咳嗽等多種疾病的診斷,并且會根據(jù)使用者所在GPS定位以及個人情況生成專屬的電子病歷以及疫情地圖。電子病例與疫情地圖中包含有數(shù)據(jù)解讀以及防疫建議。

論文2

Prosody Learning Mechanism for Speech Synthesis System Without Text Length Limit

《一種新型的任意長度語音合成系統(tǒng)的韻律學習機制》

關鍵詞:語音合成;韻律建模;自注意力模型

論文鏈接:https://arxiv.org/abs/2008.05656

最近的神經(jīng)語音合成系統(tǒng)已經(jīng)逐漸集中于韻律的控制以提高合成語音的質量,但是它們很少考慮韻律的多變性以及韻律與語義之間的相關性。

  圖2 韻律學習機制下的模型訓練圖

平安科技聯(lián)邦學習團隊提出了一種基于TTS系統(tǒng)的韻律學習機制,該機制從語音頻譜特征中提取語音的韻律信息,然后結合韻律信息與音素序列重構原始語音頻譜特征。同時,為了改善韻律預測效果,本文通過預訓練語言模型(BERT)引入文本的語義特征。

此外,平安科技還提出了一種新穎的局部自注意網(wǎng)絡結構(Local Attention),以消除輸入文本長度的限制,其中序列的相對位置信息由相對位置矩陣建模,不再需要位置編碼。通過對英語和普通話的合成實驗表明,所提出的模型獲得了更令人滿意的韻律的語音。尤其是在普通話合成中,該模型在MOS領先了基準模型0.08,并且合成語音的整體自然性得到了顯著改善,并且已經(jīng)在保險外呼服務的生產(chǎn)效果中得到驗證。

論文3

MLNET: An Adaptive Multiple Receptive-field Attention Neural Network for Voice Activity Detection

《一種用于聲音信號檢測的自適應的注意力神經(jīng)網(wǎng)絡》

  關鍵詞:語音端點檢測;自適應;多感受域;注意力網(wǎng)絡

  論文鏈接:https://arxiv.org/abs/2008.05650

  圖3 自適應性的多感受野注意力模塊

語音端點檢測(Voice Activity Detection)是語音處理的一個重要部分。準確高效的語音端點檢測不僅可以減少語音信號處理的計算量,提高系統(tǒng)的實時性,而且可以提高語音系統(tǒng)的魯棒性及后續(xù)語音系統(tǒng)的準確性。為了提高語音端點檢測的精確度,通常在設計網(wǎng)絡的時候會人為的設定固定的上下文信息進行識別或者檢測。但在實際應用中,特別是高噪聲環(huán)境中,固定的上下文信息無法有效應對各種復雜的應用環(huán)境。

為了解決現(xiàn)有VAD模型只能利用固定的上下文信息,平安科技設計了一個多感受野注意力網(wǎng)絡MLNET自適應地選取最優(yōu)的上下文信息來用于完成VAD任務。MLNET首先利用門控映射單元將不同感受野的語音特征信息映射為一個相同大小的二維特征,并利用通道注意力機制選擇最優(yōu)的上下文特征信息。接下來,再利用BiLSTM進行特征序列建模,最后使用全連接層網(wǎng)絡輸出判別結果?;谝陨夏P驮O計,本文在aurora4英文數(shù)據(jù)集和thchs30中文數(shù)據(jù)集中進行了實驗,對比其它baseline模型,MLNET模型取得了較好的實驗結果。

論文4

Large-Scale Transfer Learning for Low-resource Spoken Language Understanding

《基于大規(guī)模遷移學習的低資源語音理解》

關鍵字:口語理解;跨語種遷移學習;多任務學習;模型融合;低資源任務

論文鏈接:https://arxiv.org/abs/2008.05671

端到端口語理解是一項非常復雜且很難達到理想效果的任務,且由于訓練數(shù)據(jù)的限制和模型結構的復雜性很容易導致過擬合問題。為了解決這些問題,平安科技提出了一個基于注意力機制的端到端口語理解模型,并且提出了三種編碼器強化策略來減少模型對目標數(shù)據(jù)的需求且提升模型性能。

  圖4 基本注意力機制的

端到端口語理解模型和不同增強的策略結構

第一種策略依賴于遷移學習方法,先用大量的ASR任務數(shù)據(jù)訓練一個較好的Transformer模型,然后用訓練好的編碼器直接遷移到SLU任務上,用口語理解的數(shù)據(jù)進行SLU模型的訓練。第二種策略依賴于一種多任務結構,在訓練過程中,同時訓練ASR和SLU任務,ASR任務作為輔助手段以一定的程度來提升SLU模型中編碼器的性能。第三種策略是將BERT模型并行融合到解碼器結構上,基于此結構訓練多任務模型,此方法是通過優(yōu)化ASR模型性能來間接優(yōu)化SLU模型性能。另外,為了最大化SLU性能,三種策略不同組合模式也進行了測試驗證,最終在FluentAI數(shù)據(jù)集上的驗證表明,跨語種預訓練編碼器和多任務策略分別取得了4.52%和3.89%的提升。

論文5

Evolutionary Algorithm Enhanced Neural Architecture Search for Text-Independent Speaker Verification

《基于進化算法增強的神經(jīng)網(wǎng)絡搜索算法的文本無關聲紋識別》

關鍵詞:聲紋驗證;神經(jīng)架構搜索;進化算法;深度神經(jīng)網(wǎng)絡

論文鏈接:https://arxiv.org/abs/2008.05695

  圖5 自主設計的AutoVector模型原型圖

聲紋驗證是一項新興無接觸式身份驗證技術,主流的聲紋驗證模型都是基于神經(jīng)網(wǎng)絡而設計的,但是這些神經(jīng)網(wǎng)絡的設計是通過經(jīng)驗和反復嘗試而得到的。為了實現(xiàn)聲紋識別模型的自動化設計,平安科技采用了神經(jīng)架構搜索方法來實現(xiàn)聲紋識別模型的全自動化設計。為了進一步提高聲紋識別模型的精度,平安科技使用文明進化算法搜索策略找出更出色的聲紋識別模型。通過實驗證明表明,平安科技提出的方法相對于LSTM-GE2E和X-Vector模型可以降低36%-86%的等錯誤率。

平安科技聯(lián)邦學習技術團隊,是由平安集團首席科學家肖京博士指導,平安科技副總工程師王健宗博士帶領,匯集了來自國內(nèi)外高等院校畢業(yè)的碩博人才。長久以來,平安科技一直在AI新興技術領域深耕不輟,行穩(wěn)致遠。除在INTERSPEECH 2020中斬獲佳績之外,還在國際聲學、語音與信號處理頂會(ICASSP 2020)中表現(xiàn)出色,共計有3篇論文入選會議,分別為《A Bobust Speaker Clustering Method Based on Discrete Tied Variational Autoencoder》、《GraphTTS: graph-to-sequence modelling in neural text-to-speech》和《AlignTTS: Efficient Feed-Forward Text-to-Speech System without Explicit Alignment》。這些與時俱進的研究成果,一個又一個的重大技術創(chuàng)新及突破,無一不代表著國際尖端水平。平安科技作為人工智能領域的前沿探索者,致力于用更先進、更科學的技術推動生態(tài)發(fā)展,從而為各個領域賦能,創(chuàng)造更大的價值。

分享到

zhangnn

相關推薦