事件抽取就是從自然語(yǔ)言文本中抽取出用戶感興趣的事件信息,并以結(jié)構(gòu)化的形式呈現(xiàn)出來(lái)。金融領(lǐng)域的 “事件”則是指產(chǎn)品出現(xiàn)問(wèn)題、高管減持、違法違規(guī)等信息。金融”事件”是金融領(lǐng)域投資分析,資產(chǎn)管理的重要決策參考。2020年中國(guó)網(wǎng)民規(guī)模達(dá)到了9.04億,網(wǎng)頁(yè)總數(shù)超3000億。如何從海量網(wǎng)絡(luò)信息中及時(shí)、高效地挖掘出金融”事件”是金融資管機(jī)構(gòu)取得信息優(yōu)勢(shì),構(gòu)筑競(jìng)爭(zhēng)力的焦點(diǎn)。
CCKS 2020面向金融領(lǐng)域的篇章事件要素抽取比賽主要針對(duì)篇章級(jí)中文金融文本中的事件要素進(jìn)行抽取,篇章級(jí)中文金融文本中的事件要素進(jìn)行抽取的挑戰(zhàn)在于,比賽數(shù)據(jù)主要來(lái)源于互聯(lián)網(wǎng)上的財(cái)經(jīng)類網(wǎng)站,篇章很長(zhǎng),而且數(shù)據(jù)中存在大量的轉(zhuǎn)義符號(hào)以及由爬取不規(guī)范造成的要素混亂,如多個(gè)金額之間的空格丟失。其次,與句子級(jí)的要素抽取不同,本次比賽中的事件要素可以出現(xiàn)在篇章的各個(gè)位置,分布在多個(gè)不同的句子中,因此需要設(shè)計(jì)有效的篇章級(jí)要素抽取的方案。
華為云EI在本次比賽中運(yùn)用的自然語(yǔ)言處理技術(shù),可廣泛用于事件抽取、實(shí)體抽取等信息抽取場(chǎng)景。為了克服篇章事件要素抽取問(wèn)題的一系列難點(diǎn),華為云提出了一個(gè)由先驗(yàn)信息增強(qiáng)的信息抽取框架,該框架包含三個(gè)主要步驟:事件類型預(yù)測(cè),事件要素抽取,以及事件表格填充。
在最核心的事件要素抽取步驟中,采用華為自研的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型NEZHA作為基礎(chǔ)模型,同時(shí)引入來(lái)自事件類型的明確先驗(yàn)知識(shí),大幅提升了篇章內(nèi)不同句子在進(jìn)行要素抽取時(shí)的一致性,取得了評(píng)測(cè)任務(wù)第一名的佳績(jī)。
通往第三代人工智之路需要將知識(shí)驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)相結(jié)合,知識(shí)計(jì)算正在成為行業(yè)知識(shí)與數(shù)據(jù)驅(qū)動(dòng)AI結(jié)合的高效路徑。知識(shí)計(jì)算的標(biāo)準(zhǔn)流程包含知識(shí)獲取,知識(shí)建模,知識(shí)管理,知識(shí)應(yīng)用。事件抽取是知識(shí)獲取的一種重要方式。高效、準(zhǔn)確的事件抽取能力可以快速的將互聯(lián)網(wǎng)海量非結(jié)構(gòu)化信息結(jié)構(gòu)化,讓下一步的知識(shí)建模成為可能,為知識(shí)參與計(jì)算掃清入口障礙。
華為云EI在人工智能語(yǔ)音語(yǔ)義領(lǐng)域接連奪得包括DiggScience 科學(xué)數(shù)據(jù)挖掘, NLPCC預(yù)訓(xùn)練模型,CCF BDCI 金融實(shí)體情感分析,WSDM網(wǎng)絡(luò)搜索與數(shù)據(jù)挖掘在內(nèi)的多項(xiàng)國(guó)際國(guó)內(nèi)頂賽冠軍。華為云EI 金融事件抽取技術(shù)已經(jīng)在金融知識(shí)圖譜構(gòu)建、金融輿情分析、智能客服,企業(yè)信息監(jiān)控、風(fēng)險(xiǎn)信用控制和智能投顧等多個(gè)場(chǎng)景應(yīng)用,賦能客戶提升圖譜構(gòu)建效率20%以上,憑借冠軍技術(shù)能力極大地提升了金融客戶的工作效率。
在華為云EI領(lǐng)先的AI技術(shù)驅(qū)動(dòng)和眾多生態(tài)伙伴的共同努力下,現(xiàn)已服務(wù)于國(guó)內(nèi)50%的TOP20金融客戶。華為云EI將繼續(xù)踐行普惠AI理念,為金融機(jī)構(gòu)節(jié)省重復(fù)勞動(dòng)成本,縮短服務(wù)響應(yīng)時(shí)間,為用戶帶來(lái)更優(yōu)質(zhì)的金融服務(wù)體驗(yàn)。