Paraformer模型結(jié)構(gòu)圖

在學(xué)術(shù)界常用的中文識(shí)別評(píng)測(cè)任務(wù)AISHELL-1、AISHELL-2及WenetSpeech等測(cè)試集上, Paraformer-large模型均獲得了最優(yōu)的效果。在專(zhuān)業(yè)的第三方全網(wǎng)公共云中文語(yǔ)音識(shí)別評(píng)測(cè)SpeechIO TIOBE白盒測(cè)試中,Paraformer-large識(shí)別準(zhǔn)確率超過(guò)98%,是目前公開(kāi)測(cè)評(píng)中準(zhǔn)確率最高的中文語(yǔ)音識(shí)別模型。

SpeechIO TIOBE測(cè)試結(jié)果

配合GPU推理,不同版本的Paraformer可將推理效率提升5~10倍,同時(shí),Paraformer使用了6倍下采樣的低幀率建模方案,可將計(jì)算量降低近6倍,支持大模型的高效推理。

達(dá)摩院語(yǔ)音實(shí)驗(yàn)室負(fù)責(zé)人鄢志杰介紹,Paraformer是阿里巴巴研發(fā)的下一代“殺手锏”級(jí)別的語(yǔ)音識(shí)別基礎(chǔ)模型,未來(lái)將廣泛應(yīng)用于會(huì)議紀(jì)要產(chǎn)品“聽(tīng)悟”、釘釘語(yǔ)音轉(zhuǎn)文字、高德導(dǎo)航等場(chǎng)景。為盡快惠及中小公司及開(kāi)發(fā)者群體,這款重磅模型“問(wèn)世即開(kāi)源”,可于魔搭社區(qū)ModelScope體驗(yàn)并下載,企業(yè)及個(gè)人可進(jìn)一步開(kāi)發(fā)訓(xùn)練定制化模型。(https://www.modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary)

據(jù)了解,阿里語(yǔ)音團(tuán)隊(duì)近年已推出多款重磅語(yǔ)音識(shí)別模型,包括首次將識(shí)別準(zhǔn)確率提升至96%的DFSMN模型、E2E-ASR端到端語(yǔ)音識(shí)別技術(shù)等。Gartner今年7月發(fā)布的《云AI開(kāi)發(fā)者服務(wù)關(guān)鍵能力報(bào)告》顯示,阿里在語(yǔ)音識(shí)別項(xiàng)目上評(píng)分與谷歌等公司并列全球第一,創(chuàng)中國(guó)企業(yè)最好成績(jī)。

分享到

xiesc

相關(guān)推薦