圖1 知識相關(guān)概念的包含關(guān)系

總的來說,知識、知識圖譜、知識獲取、知識抽取、信息抽取這些概念逐層遞進,以一張韋恩圖表示(如圖1所示):知識的表示、獲取和處理是人類特有的能力,知識圖譜架起了一座基于人類知識和計算機獲取認知能力的橋梁,知識獲取涵蓋了產(chǎn)生機器可理解的知識的活動,知識抽取強調(diào)通過數(shù)據(jù)模式組織三元組知識,而信息抽取是借助自然語言處理技術(shù)生產(chǎn)知識的能力。信息抽取是知識工程、大數(shù)據(jù)、機器學(xué)習(xí)、自然語言處理的交叉技術(shù)。下文將重點探討信息抽取在知識圖譜的應(yīng)用與實踐。

2.  融合信息抽取的知識圖譜構(gòu)建范式

近年來,自然語言處理技術(shù)的飛速發(fā)展尤其是深度遷移學(xué)習(xí)技術(shù)給方興未艾的知識圖譜注入了一針“強心劑”。預(yù)訓(xùn)練語言模型性能的提升降低了從海量的非結(jié)構(gòu)化文本中獲取知識的成本,推動了知識圖譜在行業(yè)企業(yè)的落地應(yīng)用。

如圖3所示的體系架構(gòu),百分點公司在行業(yè)知識圖譜的實踐應(yīng)用中,信息抽取技術(shù)占據(jù)著核心地位。行業(yè)知識圖譜構(gòu)建的生命周期歷經(jīng)知識定義、知識獲取、知識融合、知識存儲、知識應(yīng)用多個環(huán)節(jié),這些過程的每一步都需要專業(yè)的信息處理技術(shù)與技能才能完成。下面重點闡述信息抽取相關(guān)的知識定義及知識獲取環(huán)節(jié)內(nèi)容。

圖2 融合信息抽取的知識圖譜構(gòu)建流程

2.1 知識定義

傳統(tǒng)的知識工程研究領(lǐng)域人們以本體、主題詞表、元數(shù)據(jù)、數(shù)據(jù)模式來建立結(jié)構(gòu)化的知識,在本文知識定義泛指結(jié)構(gòu)化的數(shù)據(jù)模型,即通過構(gòu)建圖譜模式(schema)規(guī)范數(shù)據(jù)層的表達與存儲。數(shù)據(jù)模型是線狀或網(wǎng)狀的結(jié)構(gòu)化知識庫的概念模板,知識圖譜一般采用資源描述框架(RDF)、RDF模式語言(RDFS)、網(wǎng)絡(luò)本體語言(OWL)及屬性圖模型。

(1)RDF模型

RDF在形式上以三元組表示實體及實體之間的關(guān)系,反映了物理世界中具體的事物及關(guān)系,如圖3所示。

圖3 RDF數(shù)據(jù)模型示例

(2)RDFS模型

RDFS在RDF的基礎(chǔ)上定義了類、屬性以及關(guān)系來描述資源,并且通過屬性的定義域和值域來約束資源。RDFS在數(shù)據(jù)層的基礎(chǔ)上引入了模式層,模式層定義了一種約束規(guī)則,而數(shù)據(jù)層是在這種規(guī)則下的一個實例填充,如圖4所示。

圖4 RDFS數(shù)據(jù)模型示例

(3)OWL模型

OWL是對RDFS關(guān)于描述資源詞匯的一個擴展,OWL中添加了額外的預(yù)定義詞匯來描述資源,具備更好的語義表達能力。

(4)屬性圖

屬性圖數(shù)據(jù)模型由頂點、邊及其屬性構(gòu)成,圖數(shù)據(jù)庫通常是指基于屬性圖模型的圖數(shù)據(jù)庫[6]。屬性圖與RDF圖最大的區(qū)別在于:RDF圖可以更好地支持多值屬性;RDF圖不支持兩頂點間多個相同類型的邊;RDF圖不支持邊屬性。

圖5 屬性圖數(shù)據(jù)模型

知識定義與信息模型的概念類似,可借鑒元數(shù)據(jù)和本體論技術(shù),描述定義域的實體類型及其屬性、關(guān)系和實體上的允許操作,常見的流行方法包括自上而下(Top-down)的構(gòu)建方式、自下而上(Bottom-up)的構(gòu)建方式。自上而下,即由行業(yè)專家預(yù)先定義圖譜模式,再以模式組織數(shù)據(jù)層資源建設(shè);自下而上,即通過信息抽取技術(shù)從文本中抽取出實體,再依賴大數(shù)據(jù)挖掘、機器學(xué)習(xí)技術(shù)分析實體的語義關(guān)聯(lián)關(guān)系來構(gòu)建模式。自上而下顯然更加準確,然而自下而上代表著數(shù)據(jù)驅(qū)動的自動圖譜構(gòu)建模式,不論是哪一種方法知識定義應(yīng)是信息抽取的前提條件。

2.2 知識獲取

按數(shù)據(jù)源類型劃分,知識獲取包括從結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)中獲取知識。

從結(jié)構(gòu)化數(shù)據(jù)中獲取知識,需把關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)換成RDF形式的知識,可使用開源工具D2RQ等將關(guān)系數(shù)據(jù)庫轉(zhuǎn)換為RDF,但難點在于難以自動與圖譜模式結(jié)合與映射,需要依賴人工編寫映射規(guī)則;從半結(jié)構(gòu)化的網(wǎng)頁數(shù)據(jù)獲取知識主要采用包裝器方法,而對于行文格式穩(wěn)定的文本可視作半結(jié)構(gòu)化數(shù)據(jù),可通過格式解析、基于規(guī)則的方法進行抽取。

圖6 知識獲取[7]

對于非結(jié)構(gòu)化的文本數(shù)據(jù),抽取的知識包括實體、關(guān)系、屬性、事件。

對應(yīng)的研究問題有四個:一是實體抽取,也即命名實體識別,實體包括概念、組織機構(gòu)、人名、地名、時間等;二是關(guān)系抽取,即兩個實體之間的關(guān)聯(lián)性知識等,包括上下位、類屬關(guān)系等;三是屬性抽取,即實體或關(guān)系的特征信息,關(guān)系反映實體與外部的聯(lián)系,而屬性體現(xiàn)實體的內(nèi)部特征;四是事件抽取,事件是發(fā)生在某個特定時間點或時間段、某個特定地域范圍內(nèi),由一個或者多個角色參與的一個或者多個動作組成的事情或者狀態(tài)的改變[8]。

非結(jié)構(gòu)化數(shù)據(jù)的抽取問題,研究的人比較多,對于具體的語料環(huán)境,采取的技術(shù)也不盡相同。對于純文本一般按照篇、章、段、句進行文本切割,基于主題詞對文本分類、聚類預(yù)處理,并由人工開展數(shù)據(jù)標注與模型訓(xùn)練,最后集成多種信息抽取模型抽取知識。

基于信息抽取算法

構(gòu)建百分點行業(yè)知識圖譜

知識定義是信息抽取的前提條件,結(jié)合當前結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息抽取的理論、工具和經(jīng)典算法,百分點通過創(chuàng)新實踐,探索出了一套行業(yè)知識圖譜構(gòu)建流程方法。

1.  結(jié)構(gòu)化信息抽取

行業(yè)知識圖譜的構(gòu)建過程往往需要將業(yè)務(wù)系統(tǒng)的部分關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)抽取出來,并轉(zhuǎn)換為RDF模型或?qū)傩詧D模型的形式存入圖譜數(shù)據(jù)庫中,這種從關(guān)系型數(shù)據(jù)庫接入數(shù)據(jù)、預(yù)處理并映射為圖譜模式的抽取方式稱為結(jié)構(gòu)化信息抽取。

W3C為此制定了兩個知識映射標準語言:R2RML及直接映射(DM),DM和R2RML映射語言用于定義關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)如何轉(zhuǎn)換為RDF數(shù)據(jù)的各種規(guī)則,具體包括URI的生成、RDF類和屬性的定義、空節(jié)點的處理、數(shù)據(jù)間關(guān)聯(lián)關(guān)系的表達等[9]。

直接映射將關(guān)系型數(shù)據(jù)庫中的一張表映射為RDF的類(Class),表中的列映射為屬性(Property),表的一行映射為一個資源或?qū)嶓w并創(chuàng)建資源標識符,單元格值映射為屬性值[9]。直接映射可將關(guān)系數(shù)據(jù)庫表結(jié)構(gòu)和數(shù)據(jù)直接轉(zhuǎn)換為RDF圖,但直接映射僅僅提供簡單轉(zhuǎn)換能力。而R2RML映射語言可靈活定制從關(guān)系型數(shù)據(jù)庫數(shù)據(jù)實例轉(zhuǎn)換為RDF數(shù)據(jù)集的映射規(guī)則,符合R2RML映射算法的工具輸入是關(guān)系數(shù)據(jù)庫檢索數(shù)據(jù)的邏輯表,邏輯表通過三元組映射轉(zhuǎn)換為具有相同數(shù)據(jù)模式的RDF并作為輸出結(jié)果。

2.  半結(jié)構(gòu)化信息抽取

半結(jié)構(gòu)化數(shù)據(jù)是一種特殊的結(jié)構(gòu)化數(shù)據(jù)形式,該形式的數(shù)據(jù)不符合關(guān)系數(shù)據(jù)庫或其他形式的數(shù)據(jù)表形式結(jié)構(gòu),但又包含標簽或其他標記來分離語義元素并保持記錄和數(shù)據(jù)字段的層次結(jié)構(gòu)[9]。針對網(wǎng)頁數(shù)據(jù)的信息抽取技術(shù)較為成熟,可依網(wǎng)頁結(jié)構(gòu)化的不同程度分別采用人工方法、半自動或全自動的方法開發(fā)包裝器進行信息抽取。

基于有監(jiān)督學(xué)習(xí)的包裝器歸納方法,首先從已標注的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)網(wǎng)頁信息抽取規(guī)則,然后對具有相同結(jié)構(gòu)的網(wǎng)頁數(shù)據(jù)進行抽取,一般的開發(fā)流程遵循“網(wǎng)頁清洗、數(shù)據(jù)標注、包裝器空間生成、評估”四個步驟,該方法依賴人工長期維護更新包裝器。手工方法開發(fā)包裝器首先通過人工分析網(wǎng)頁的結(jié)構(gòu)和代碼,并編寫網(wǎng)頁的數(shù)據(jù)抽取表達式;表達式的形式一般可以是XPath表達式、css選擇器的表達式等,該方法適合簡單、結(jié)構(gòu)穩(wěn)定的網(wǎng)站的抽取。

3.  非結(jié)構(gòu)化信息抽取

3.1 信息抽取框架

如前文所述,非結(jié)構(gòu)化文本的信息抽取主要包括命名實體識別、屬性抽取、關(guān)系抽取、事件抽取等四個任務(wù)。命名實體識別是知識圖譜構(gòu)建和知識獲取的基礎(chǔ)和關(guān)鍵,屬性抽取可看做實體和屬性值之間的一種名詞性關(guān)系而轉(zhuǎn)化為關(guān)系抽取,因此信息抽取可歸納為實體抽取、關(guān)系抽取和事件抽取三大任務(wù)。

3.2 命名實體識別

目前為止,命名實體識別主流方法可概括為:基于詞典和規(guī)則的方法、基于統(tǒng)計機器學(xué)習(xí)的方法、基于深度學(xué)習(xí)、遷移學(xué)習(xí)的方法等[10],如圖7所示。在項目實際應(yīng)用中一般應(yīng)結(jié)合詞典或規(guī)則、深度學(xué)習(xí)等多種方法,充分利用不同方法的優(yōu)勢抽取不同類型的實體,從而提高準確率和效率。在中文分詞領(lǐng)域,國內(nèi)科研機構(gòu)推出多種分詞工具(基于規(guī)則和詞典為主)已被廣泛使用,例如哈工大LTP、中科院計算所NLPIR、清華大學(xué)THULAC和jieba分詞等。

基于統(tǒng)計機器學(xué)習(xí)的方法可細分為兩類:第一類,分類方法,即首先識別出文本中所有命名實體的邊界,再對這些命名實體進行分類;第二類,序列化標注方法,即對于文本中每個詞可以有若干個候選的類別標簽,每個標簽對應(yīng)于其在各類命名實體中所處的位置,通過對文本中的每個詞進行序列化的自動標注(也即分類),再將自動標注的標簽進行整合,最終獲得有若干個詞構(gòu)成的命名實體及其類別[11]。序列化標注曾經(jīng)是最普遍并且有效的方法,典型模型包括條件隨機場(CRF)、隱馬爾可夫模型(HMM)、最大熵馬爾可夫模型(MEMM)、最大熵(ME)、支持向量機(SVM)等。

圖7 命名實體識別常見算法

深度學(xué)習(xí)、遷移學(xué)習(xí)使用低維、實值、稠密的向量形式表示字、詞、句,再使用RNN/CNN/注意力機制等深層網(wǎng)絡(luò)獲取文本特征表示,避免了傳統(tǒng)命名實體識別人工特征工程耗時耗力的問題,且得到了更好的效果,目前常用的框架方法有BiLSTM-CRF、BERT-CRF/BERT-BiLSTM-CRF。

在百分點的知識圖譜構(gòu)建應(yīng)用中,法律百科概念詞條、行業(yè)領(lǐng)域的香煙品牌及品牌規(guī)格等實體,采用基于詞典和規(guī)則的方法從文本中抽取實體類知識,具有更高的準確率;而抽取人名、地名、組織機構(gòu)等,由于無法構(gòu)建完整的詞典且規(guī)則很難適應(yīng)數(shù)據(jù)變化,采用基于序列標注的命名實體抽取模型BiLSTM-CRF 或者BERT-CRF 實現(xiàn)。

3.3 關(guān)系抽取

從前文可知,關(guān)系抽取指三元組抽取,實體間的關(guān)系形式化地描述為關(guān)系三元組(主語,謂語,賓語),其中主語和賓語指的是實體,謂語指的是實體間的關(guān)系。早期的關(guān)系抽取方法包括基于規(guī)則的關(guān)系抽取方法、基于詞典驅(qū)動的關(guān)系抽取方法、基于本體的關(guān)系抽取方法[12]。基于機器學(xué)習(xí)的抽取方法以數(shù)據(jù)是否被標注作為標準進行分類,包括:有監(jiān)督的關(guān)系抽取算法、半監(jiān)督的關(guān)系抽取算法、無監(jiān)督的關(guān)系抽取算法[12],如圖8所示。

圖8 關(guān)系抽取常見算法

有監(jiān)督的機器學(xué)習(xí)方法將一般的二元關(guān)系抽取視為分類問題,通常需預(yù)先了解語料庫中所有可能的目標關(guān)系的種類,并通過人工對數(shù)據(jù)進行標注,建立訓(xùn)練語料庫,使用標注數(shù)據(jù)訓(xùn)練的分類器對新的候選實體及其關(guān)系進行預(yù)測、判斷。

同樣地,傳統(tǒng)機器學(xué)習(xí)的關(guān)系抽取方法選擇的人工特征工程十分繁雜,而深度學(xué)習(xí)的關(guān)系抽取方法通過訓(xùn)練大量數(shù)據(jù)自動獲得模型,無需人工提取特征。深度學(xué)習(xí)經(jīng)過多年的發(fā)展,逐漸被研究者應(yīng)用在實體關(guān)系抽取方面,有監(jiān)督的關(guān)系抽取方法主要有流水線學(xué)習(xí)(Pipeline)和聯(lián)合學(xué)習(xí)(Joint)兩種。

(1)流水線式關(guān)系抽取方法

該方法將關(guān)系抽取分為兩階段任務(wù):第一階段對輸入的句子進行命名實體識別;第二階段對命名實體進行兩兩組合,再進行關(guān)系分類,把存在關(guān)系的三元組作為輸出結(jié)果[12]。流水線方法將實體識別、關(guān)系抽取分為兩個獨立的過程,關(guān)系抽取依賴實體抽取的結(jié)果,容易造成誤差累積。

當前深度學(xué)習(xí)的關(guān)系抽取主要聚焦在有監(jiān)督學(xué)習(xí)的句子級別的關(guān)系抽取,根據(jù)使用的編碼器以及是否使用依存句法樹,可以大致將相關(guān)系統(tǒng)劃分為三種:基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取,基于循環(huán)神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取和基于依存句法樹的關(guān)系抽取。

(2)實體關(guān)系聯(lián)合學(xué)習(xí)抽取方法

實體關(guān)系聯(lián)合學(xué)習(xí)方法主要包括以下兩種:

a. 基于共享參數(shù)的方法:典型方法有BiLSTM、BiLSTM+Attention等,命名實體識別和關(guān)系抽取兩階段任務(wù)通過共享編碼層在訓(xùn)練過程中產(chǎn)生的共享參數(shù)相互依賴,最終訓(xùn)練得到最佳的全局參數(shù)。流水線方法中存在的錯誤累積傳播問題和忽視兩階段子任務(wù)間關(guān)系依賴的問題在該方法中可得到改善,并提高模型的魯棒性。

b. 基于序列標注的方法:由于基于共享參數(shù)的方法容易產(chǎn)生信息冗余,如果將命名實體識別和實體關(guān)系抽取融合成一個序列標注問題,可同時識別出實體和關(guān)系,值得注意的是應(yīng)使用新的標注策略標注(實體位置、關(guān)系類型、關(guān)系角色)[13]。該方法利用一個端到端的神經(jīng)網(wǎng)絡(luò)模型抽取出實體之間的關(guān)系三元組,減少了無效實體對模型的影響,提高了關(guān)系抽取的召回率和準確率。

在百分點的知識圖譜構(gòu)建應(yīng)用中,構(gòu)建法律百科概念詞條圖譜時從法律文件、權(quán)威案例和法律圖書抽取概念實體的定義(可視作屬性抽取)等行文格式較為規(guī)范、固定的文本抽取三元組采用基于模板的方法;警務(wù)文本的警務(wù)要素及內(nèi)容抽取等較為開放的關(guān)系抽取采用BERT作為多分類器的關(guān)系分類抽取或序列標注方法。

3.4 事件抽取

“事件”被用于描述事情的發(fā)生或事務(wù)狀態(tài)的改變,而事件抽取任務(wù)則是一種從自然語言文本中提取出具有事件框架的結(jié)構(gòu)化信息的方法。具體地,一個事件的主要組成如表 1所示。

從上述定義可以看出,實體、觸發(fā)詞、事件論元以及事件類型四者相互之間存在著包含或約束的關(guān)系。其中,實體是一種適用于所有文本的概念,但在自動內(nèi)容抽?。ˋutomatic Content Extraction,ACE)評測會議標準定義的事件中,實體是事件論元的主要組成。值得注意的是,實體本身的類型并不代表著其作為論元時在事件中的角色。事件論元的角色只與事件類型和觸發(fā)詞有關(guān)。事件論元的角色可以通過與事件句內(nèi)觸發(fā)詞或其他實體的關(guān)系挖掘而確定。一般事件類型具有該類型下的事件模板,當中包含了固定的事件論元角色[14]。此外,由于觸發(fā)詞是事件發(fā)生的標志,因此事件類型的判別往往通過觸發(fā)詞的識別完成。事件抽取任務(wù)主要包含兩個部分:

(1)事件類型檢測

通常觸發(fā)詞與事件類型之間存在著對應(yīng)關(guān)系,因此對事件類型的判定可通過觸發(fā)詞的識別和匹配實現(xiàn)。

(2)事件論元識別

在確定了事件類型后,根據(jù)該類型所具有的事件模板找到事件參與者的角色,再通過語義關(guān)系解析從事件句中挖掘相關(guān)論元。因此,基于ACE標準的完整事件抽取架構(gòu)包括:文本預(yù)處理、事件類型檢測和事件論元識別,如圖9所示。

圖9 基于ACE 標準的事件抽取任務(wù)架構(gòu)[13]

在百分點的知識圖譜構(gòu)建應(yīng)用中,警情文本的要素抽取符合事件論元抽取理論,該類非結(jié)構(gòu)化的文本包含社會安全類、事故災(zāi)難類等事件類型及子類型,警務(wù)專家為子類型在內(nèi)的所有事件類型制定了參考的事件模板,匯總觸發(fā)詞、事件類型和事件論元及角色。下文3.3節(jié)將給出基于事件論元的警情事件要素結(jié)構(gòu)化案例介紹。

百分點信息抽取算法

創(chuàng)新應(yīng)用及實踐效果

1.  基于模板的法百科信息抽取方法

(1)應(yīng)用場景:法律百科概念詞條圖譜信息抽取

法律百科概念詞條圖譜信息抽取主要目的是構(gòu)建法律行業(yè)的百科全書,以便于用戶查找專業(yè)法律詞條知識。數(shù)據(jù)共分為三個來源數(shù)據(jù),分別是法律文件、權(quán)威案例和法律圖書,需要從數(shù)據(jù)中提取對應(yīng)領(lǐng)域的專業(yè)詞條名稱及對應(yīng)的相關(guān)釋義。例如:從法律文件中提取“警用車船”詞條,并給出對應(yīng)的釋義:車船稅法第三條第三項所稱的警用車船,是指公安機關(guān)、國家安全機關(guān)、監(jiān)獄、勞動教養(yǎng)管理機關(guān)和人民法院、人民檢察院領(lǐng)取警用牌照的車輛和執(zhí)行警務(wù)的專用船舶。法百科詞條構(gòu)建及管理界面示例如圖10所示。

圖10 法百科詞條構(gòu)建及管理界面示例

(2)基于模板的知識抽取

通過人工研究法律文件、權(quán)威案例等法律領(lǐng)域的專業(yè)詞條的寫作規(guī)律和句式結(jié)構(gòu),分析法律相關(guān)概念實體與概念定義之間的特征,構(gòu)建抽取的語言模板,通過模板從文本中匹配出實體之間的關(guān)系,該方法在構(gòu)建法律詞條這一特定領(lǐng)域內(nèi),可以取得較好的結(jié)果。

(3)應(yīng)用效果

在相關(guān)文本數(shù)據(jù)上進行了足量的數(shù)據(jù)標注,并基于此對信息抽取進行了相關(guān)指標的考評,結(jié)果如表2所示,詞條名稱及釋義整體準確率超過90%。

2. 基于有監(jiān)督學(xué)習(xí)的警務(wù)文本信息抽取

2.1 基于序列標注框架的命名實體識別

1)應(yīng)用場景:警務(wù)文本命名實體識別

警務(wù)文本包括案件敘述性文本描述數(shù)據(jù),如案件卷宗、審訊筆錄/口供、簡要案情等等類型的數(shù)據(jù),文本涉及到的與業(yè)務(wù)分析和研判相關(guān)的案發(fā)場所、嫌疑人特征等核心要素,通常可轉(zhuǎn)化為自然語言處理中的實體識別問題。警務(wù)系統(tǒng)業(yè)務(wù)中有研判價值的實體通常包括:姓名、地址、組織機構(gòu)、聯(lián)系方式、公民身份號碼、時間等。對于警務(wù)文本中的身份證號、手機號實體,應(yīng)采用基于規(guī)則或基于詞典的方法進行命名實體識別。而文本中的人名、地名、組織機構(gòu)名稱等實體信息在文本中的表述形式是多樣并且難以完整列舉,當前主要采用基于序列標注的有監(jiān)督學(xué)習(xí)抽取方法。命名實體識別采用前文介紹的基于規(guī)則的方法及基于BERT+CRF序列標注模型進行抽取。

2BiLSTM/BERT+CRF模型架構(gòu)

百分點在基于深度學(xué)習(xí)、遷移學(xué)習(xí)的實體識別實踐中沉淀了兩套經(jīng)典的模型:BiLSTM+CRF模型架構(gòu)、BERT+CRF模型架構(gòu)。兩套架構(gòu)自底向上遵循詞編碼器、序列編碼器、序列解碼器三層結(jié)構(gòu)。BiLSTM+CRF模型架構(gòu)的詞編碼器采用Word Embedding,序列編碼器采用BiLSTM,序列解碼器采用CRF模型,模型架構(gòu)如圖11所示。

圖11 BiLSTM+CRF序列標注模型架構(gòu)

BERT+CRF模型架構(gòu)詞編碼器采用WordPiece、字符位置編碼器采用正弦位置嵌入(Postional Embedding)及句子嵌入(Segment Embedding)、序列編碼器采用Transformer結(jié)構(gòu),序列解碼器采用CRF模型,模型架構(gòu)如圖12所示。

圖12 BERT+CRF序列標注模型架構(gòu)

在序列標注的命名實體識別模型中,對于每個單詞都需要預(yù)測一個多元分類問題。在經(jīng)過序列編碼器之后,每個單詞都有一個向量表示,為了預(yù)測每個單詞對應(yīng)的標簽,需要序列解碼器來完成從序列向量到對應(yīng)預(yù)測標簽的轉(zhuǎn)換。這兩套模型的序列解碼器都采用CRF模型作為解碼器。

3)警務(wù)文本實體抽取應(yīng)用效果

警務(wù)文本的命名實體識別評價指標如表3所示。

表3 警務(wù)文本命名實體識別指標

2.2 基于關(guān)系分類的關(guān)系抽取

(1)應(yīng)用場景:警務(wù)文本關(guān)系抽取

警務(wù)文本包括案件敘述性文本描述數(shù)據(jù),如案件卷宗、審訊筆錄/口供、簡要案情等等類型的數(shù)據(jù),文本涉及到的與業(yè)務(wù)分析和研判相關(guān)的案發(fā)場所、嫌疑人特征等核心要素,通??赊D(zhuǎn)化為自然語言處理中的實體識別問題。警務(wù)系統(tǒng)業(yè)務(wù)中有研判價值的實體通常包括:姓名、地址、組織機構(gòu)、聯(lián)系方式、公民身份號碼、時間等。命名實體識別采用前文介紹的基于規(guī)則的方法及基于BERT+CRF序列標注模型進行抽取。

由于警務(wù)文本數(shù)據(jù)關(guān)注的是以人為核心的實體,因此當文本中出現(xiàn)一個以上的人員及其相關(guān)實體信息時候,需要在提取的姓名、性別、地址、聯(lián)系方式、公民身份號碼的基礎(chǔ)上梳理清楚各個實體之間的對應(yīng)關(guān)系或從屬關(guān)系。簡單而言就是將人名實體找到其對應(yīng)的地址、公民身份號碼、聯(lián)系方式、性別等人員屬性,可以表示為五元組<姓名,性別,公民身份證號,手機號,關(guān)聯(lián)地址>。N元組本質(zhì)上可以拆分成多個三元組,因此警務(wù)文本中的N元組關(guān)系對抽取形式如表 4所示。

表4 警務(wù)文本N元組關(guān)系對

(2)基于BERT的關(guān)系分類模型

BERT通過大型跨域語料庫使用遮蔽語言模型和下一句預(yù)測任務(wù)共同預(yù)訓(xùn)練文本表示。警務(wù)文本信息抽取對BERT的應(yīng)用方法如圖13所示,模型的輸入序列的整體結(jié)構(gòu)為:{[CLS],w1,w2,…,wn, [SEP],s1,s2,…,si, [SEP],o1,o2,…,oj, [SEP]},w為句子序列,s和o為實體序列。序列經(jīng)過BERT分詞處理,將字符轉(zhuǎn)換為字id,然后映射到字嵌入向量,字嵌入向量E表示為E={E1,E2,…,En}。經(jīng)過多層Transformer的Encoder編碼,最后得到句子的編碼向量。取“[CLS]”這個特殊開始字符對應(yīng)的向量(“[CLS]”的編碼表示經(jīng)常用于判斷下一個句子)將編碼序列的第一個結(jié)果作為關(guān)系抽取的語義向量。該語義向量在關(guān)系分類器層,經(jīng)過一層全連接層,然后使用softmax函數(shù)計算關(guān)系概率。

圖13 基于BERT的關(guān)系分類模型

(3)關(guān)系抽取應(yīng)用效果

警務(wù)文本的關(guān)系抽取如圖14所示(示例數(shù)據(jù)是模擬的,已經(jīng)完全脫敏):

圖14 警務(wù)文本信息抽取輸入示例

關(guān)系抽取結(jié)果如圖15所示(示例數(shù)據(jù)是模擬的,已經(jīng)完全脫敏):

圖15 警務(wù)文本信息抽取結(jié)果實例

在相關(guān)警務(wù)文本數(shù)據(jù)上進行了足量的數(shù)據(jù)標注,并基于此對實體抽取和關(guān)系抽取的N元組進行了相關(guān)指標的考評,結(jié)果如表 5所示,采用流水線式的命名實體識別及關(guān)系抽取整體的準確率和召回率在95%以上。

表5 警務(wù)文本信息抽取評測指標

3.  警情事件論元聯(lián)合信息抽取

3.1 應(yīng)用場景:警情事件論元抽取

警情事件識別與抽取是構(gòu)建警情知識圖譜的重要環(huán)節(jié),目的是從非結(jié)構(gòu)化警情文本中識別出描述事件的句子,并從中抽取出與事件描述相關(guān)的信息(事件元素、因果關(guān)系),最后以結(jié)構(gòu)化的形式存儲。警情文本的事件類型包括社會安全類、事故災(zāi)難類、網(wǎng)絡(luò)輿情類、治安和刑事案件類、公共衛(wèi)生類等5大類。

事件類型還可根據(jù)警情業(yè)務(wù)進一步細分為子類型,比如社會安全類可分為社會安全事件、涉穩(wěn)事件、涉外事件、恐怖主義事件等4小類。事件發(fā)生子類的事件采用2.3.4節(jié)表示方法,將事件表示為實體、觸發(fā)詞、事件論元以及事件類型組成的復(fù)合知識單元。如圖16所示(示例數(shù)據(jù)是模擬的,已經(jīng)完全脫敏),警情案件文本按照圖9所示流程識別觸發(fā)詞為“家門被撬”后判別事件類型為盜竊案件,最終抽取出事件論元及角色實現(xiàn)文本結(jié)構(gòu)化分析。

圖16 警情案件事件論元抽取例子

3.2 事件論元角色聯(lián)合抽取模型

在實踐應(yīng)用中百分點參考分層二進制標注框架(Hierarchical Binary Tagging)[15],將論元抽取視作事件觸發(fā)詞與事件論元的映射關(guān)系,模型的整體結(jié)構(gòu)如圖17所示,主要包括如下幾個部分:

(1)BERT 編碼器:通過BERT得到每個詞的詞表征,把BERT的輸出當作詞向量使用;

(2)事件論元標注器:該部分用于識別所有可能的事件論元。其通過對每一個位置的編碼結(jié)果用兩個分類器(全連接層)進行分類,來判斷其是否是事件論元的開始或結(jié)束位置,激活函數(shù)為Sigmoid。

(3)事件角色標注器:針對每一個事件論元,都需要對其進行之后的事件論元的角色進行預(yù)測。由圖中可知,其與事件論元標注器基本一致,主要區(qū)別在于每一個事件類型獨享一組事件論元角色分類器,同時還要將事件論元作為特征和BERT詞向量拼接后作為輸入。

圖17 事件論元、角色聯(lián)合抽取

警情文本事件論元角色聯(lián)合信息抽取在大多數(shù)人工標注數(shù)據(jù)集及實際應(yīng)用中取得了較好的結(jié)果,在效果較差的某些事件類型的文本中通過增加人工標注數(shù)據(jù)可提升模型的準確率。

總結(jié)與展望

本文首先辨析了知識獲取、知識抽取、信息抽取類似概念本質(zhì)的區(qū)別與聯(lián)系,然后總結(jié)了百分點行業(yè)知識圖譜構(gòu)建流程方法,指出知識定義是信息抽取的前提條件,在此基礎(chǔ)上介紹了當前結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息抽取的理論、工具和經(jīng)典算法。文末結(jié)合百分點在法律百科詞條、警務(wù)文本、行業(yè)實際圖譜構(gòu)建項目中,介紹信息抽取算法應(yīng)用方法和效果,幫助讀者深入了解信息抽取的實踐應(yīng)用狀況。總的來說,信息抽取對構(gòu)建行業(yè)知識圖譜具有重要的價值,同時面臨著巨大的挑戰(zhàn),應(yīng)充分借助深度遷移學(xué)習(xí)的發(fā)展帶來的機遇,一方面發(fā)展數(shù)據(jù)智能標注技術(shù)降低人工標注成本,另一方面突破模型對于標注數(shù)據(jù)數(shù)量的依賴,并在更多的實際業(yè)務(wù)需求中進行實踐和應(yīng)用。

參考資料

[1]中國中文信息學(xué)會.知識圖譜發(fā)展報告(2018)

[2]中國電子技術(shù)標準化研究院.知識圖譜標準化白皮書,2019年

[3]清華大學(xué)人工智能研究院.人工智能之知識圖譜,2019年第2期

[4]GB/T 23703.2 知識管理 第2部分:術(shù)語

[5]趙軍,劉康,周有光等.開放式文本信息抽取. 中科院自動化所,中文信息學(xué)報,2011年

[6]圖數(shù)據(jù)庫白皮書.中國信息通信研究院云計算與大數(shù)據(jù)研究所.2019年

[7]王昊奮.行業(yè)知識圖譜構(gòu)建與應(yīng)用101.PlantData

[8]陳玉博.事件抽取與金融事件圖譜構(gòu)建.中科院自動化所,2018年

[9]王昊奮,漆桂林,陳華鈞.知識圖譜方法、實踐與應(yīng)用.電子工業(yè)出版社

[10]黃晴雁,牟永敏.命名實體識別方法研究進展.現(xiàn)代計算機,2018年12月

[11]劉瀏,王東波.命名實體識別研究綜述.情報學(xué)報,2018年

[12]李冬梅,張揚等.實體關(guān)系抽取方法研究綜述.計算機研究與發(fā)展,2019年6月

[13]Suncong Zhend等.JointExtraction of Entities and Relations Based on a Novel Tagging Scheme.中科院自動化所,ACL2017

[14]鄒馨儀.基于深度學(xué)習(xí)的金融事件抽取技術(shù)研究.電子科技大學(xué),2017年

[15]Zhepei Wei等.ANovel Cascade Binary Tagging Framework for Relational Triple Extraction,吉林大學(xué).2020ACL

分享到

xiesc

相關(guān)推薦