百度杰出架構(gòu)師、文心(ERNIE)負(fù)責(zé)人孫宇

語義理解核心技術(shù)升級,文心多項NLP技術(shù)全球領(lǐng)先

據(jù)了解,知識增強語義理解框架文心(ERNIE)于去年發(fā)布,大幅提升機(jī)器理解語言的水平,更在國際權(quán)威的通用語言理解評估基準(zhǔn) GLUE上首次突破 90大關(guān),超越人類三個點,獲得全球第一。文心的創(chuàng)新點在于,將大數(shù)據(jù)預(yù)訓(xùn)練與多源豐富知識相結(jié)合,持續(xù)學(xué)習(xí)海量文本中詞匯、結(jié)構(gòu)、語義等方面的知識,實現(xiàn)模型效果不斷進(jìn)化,如同人類持續(xù)學(xué)習(xí)一般。

分論壇上,孫宇介紹,百度文心語義理解技術(shù)包括基于預(yù)訓(xùn)練的語義表示、文章理解、文本匹配、文本生成等技術(shù),以及可識別理解法律、金融文本的領(lǐng)域語義理解技術(shù),并布局了跨模態(tài)、多語言、圖理解等前沿技術(shù),形成了涵蓋基礎(chǔ)、應(yīng)用、領(lǐng)域、拓展四大層面的全景圖。

在常識知識、多粒度語言知識、場景圖知識等多源知識學(xué)習(xí)的支持下,文心語義理解能力、語言生成能力和多模態(tài)語義理解能力都得到了進(jìn)一步提升和拓展。同時,基于海量數(shù)據(jù),百度大腦構(gòu)造了多粒度自編碼任務(wù)和指代消解任務(wù),推動文心在情感分析、文本分類、閱讀理解等八項典型自然語言理解任務(wù)效果上獲得進(jìn)一步顯著提升。

c生成方面,文心提出了基于多流機(jī)制的預(yù)訓(xùn)練語言生成技術(shù):ERNIE-GEN,在摘要生成、問題生成、多輪問答等自然語言生成任務(wù)上效果突出。同時,文心設(shè)計了多流注意力機(jī)制,融合逐詞生成和逐片段生成學(xué)習(xí)目標(biāo),學(xué)習(xí)語言中多粒度知識后,全面刷新了語言生成任務(wù)的世界最好效果,在學(xué)術(shù)界和產(chǎn)業(yè)界具備非常大的研究價值與應(yīng)用價值。

文心更在多模態(tài)語義理解上取得重大突破,視覺推理技術(shù)ERNIE-ViL可以通過物體識別體育運動圖片中的運動場地及圖中人物,進(jìn)一步區(qū)分人員衣服顏色,根據(jù)知識判斷穿出裁判和運動員的身份。理解細(xì)粒度語義的能力在這個推理的任務(wù)中發(fā)揮了關(guān)鍵的作用。ERNIE-ViL是業(yè)界首次將場景圖知識融入到跨模態(tài)的預(yù)訓(xùn)練模型中,已廣泛應(yīng)用于工業(yè)場景。

能力平臺化,百度大腦文心實現(xiàn)語義理解技術(shù)工業(yè)級應(yīng)用落地

在人工智能技術(shù)落地的進(jìn)程中,實際需求往往呈現(xiàn)出應(yīng)用復(fù)雜、成本高企、耗時過長、可迭代性差等痛點。對此,文心語義理解技術(shù)平臺應(yīng)運而生。

孫宇介紹,文心平臺基于領(lǐng)先的語義理解技術(shù),可為企業(yè)提供一整套NLP定制與應(yīng)用能力,讓開發(fā)者更加簡單高效地定制企業(yè)級NLP模型。在文心平臺化服務(wù)中,提供了針對數(shù)據(jù)處理、模型訓(xùn)練、模型評估、模型部署等環(huán)節(jié)的“工具箱”,一站式滿足開發(fā)者各類應(yīng)用需求。此外,文心還提供了零門檻AI開發(fā)平臺EasyDL和全功能AI開發(fā)平臺BML兩種平臺支持方式。

一站式的NLP開發(fā)能力,既可以滿足開發(fā)者的需求,也降低了定制開發(fā)的成本。在落地實踐中,傳統(tǒng)產(chǎn)品需要5100條數(shù)據(jù)標(biāo)注以訓(xùn)練模型,而文心平均僅需220條,降低了90%的數(shù)據(jù)標(biāo)注量。同時,文心通過預(yù)訓(xùn)練模型,降低了90%以上的算力投入,及86%的模型開發(fā)時長,周期從一周縮短為一天,這對企業(yè)開發(fā)者更加友好。

文心的另一大優(yōu)勢在于經(jīng)過真實場景淬煉。據(jù)介紹,文心已應(yīng)用于百度內(nèi)部包括搜索引擎、推薦系統(tǒng)、智能音箱、智能客服等幾十條產(chǎn)品線,其工業(yè)級應(yīng)用能力已得到驗證。目前,文心已經(jīng)將NLP技術(shù)輸送到金融、通信、教育、電商等行業(yè),顯著提升了這些企業(yè)智能應(yīng)用的效果和效率。

作為“人工智能皇冠上的明珠”,NLP領(lǐng)域向來是人工智能技術(shù)研發(fā)與落地實踐的前沿,在新基建的大潮下,也催生出大量自然語言處理方面的需求。從2010年百度成立自然語言處理部算起,在NLP從技術(shù)和產(chǎn)業(yè)上全面布局已經(jīng)走過整整十個年頭,不僅技術(shù)上形成先發(fā)優(yōu)勢,更完成了產(chǎn)業(yè)落地的絕對領(lǐng)先,致力于將AI技術(shù)下沉到千行萬業(yè),讓人和機(jī)器互相理解的圖景全面到來,造就更智能的未來時代。

分享到

zhangnn

相關(guān)推薦