而不久之后,基于此次重大技術突破、擁有更精準識別率的語音識別能力,也將登錄百度開發(fā)者中心。

那么,這次技術突破到底有多牛?能給開發(fā)者帶來什么?

“百度研發(fā)出了基于多層單向LSTM的漢語聲韻母整體建模技術,并成功把連接時序分類(CTC)訓練技術嵌入到傳統(tǒng)的語音識別建??蚣苤?,再結合語音識別領域的決策樹聚類、跨詞解碼和區(qū)分度訓練等技術,大幅度提升線上語音識別產(chǎn)品性能。”

這是百度語音技術部負責人賈磊的介紹,聽上去是不是只有一個感覺——不明覺厲?反正技術君有這樣的感覺。

于是,技術君經(jīng)過艱苦努力,用一句更“人類”的語言來解釋這個技術,那就是:這技術牛,非常牛!它成功攻克了語音識別領域十多年的一個技術困局,使?jié)h語語音識別相對錯誤率再次大幅下降15%以上;基于這一技術,在安靜環(huán)境下,漢語普通話語音識別的準確率接近97%。因為這一重大突破,賈磊還受邀在全國人機語音通訊學術會議(NCMMSC2015,注:NCMMSC是中國人機語音領域最權威的學術會議)上發(fā)表演講。

更簡潔來講,我們看到的好處就是:

1. 語音識別準確率提升。

2. 語音識別速度提升。

3. 語音服務提供者的投入成本降低。

4. 語音技術領域研究人員可參考百度技術模型,改善自己的研究,從而在語音領域獲得更大突破。

還是不明白?想象一個場景:

你在大街上一邊走,一邊想查找附近的百貨大樓怎么走,于是,你打開地圖APP,點開語音按鈕,說著“百貨大樓”。1秒、2秒、3秒……終于,APP返回了結果——“白佛大羅”??吹竭@些字,你的內心此時是不是很崩潰?

當然,上面這個場景描述地夸張了點,現(xiàn)在的語音識別技術已經(jīng)能比較準、比較快地識別出來了。而百度研發(fā)的這個新技術,能夠比現(xiàn)有識別能力識別地更準、更快,而且能降低噪音、口音、說話距離遠近等因素對識別率造成的不良影響。

作為開發(fā)者,這個能力帶來的效果是顯著的。在調用百度的這一能力后,能讓APP的語音識別服務更精準、更快速,從而提升整體用戶體驗。你是不是也想試一試了呢?

分享到

fanz

相關推薦