針對(duì)這種短文本中的實(shí)體鏈接問(wèn)題,華為云首次提出了M3框架,即multi-turn multi-choice MRC framework,即基于多輪多項(xiàng)選擇的閱讀理解框架?;谠摽蚣埽芎芎玫赝瓿蓪?shí)體鏈接任務(wù),準(zhǔn)確率相對(duì)傳統(tǒng)方法提升了大約5個(gè)百分點(diǎn)。華為云提出的M3框架相關(guān)論文,發(fā)表在人工智能?chē)?guó)際頂級(jí)學(xué)術(shù)會(huì)議AAAI 2021上。
關(guān)鍵技術(shù)二:知識(shí)建模
完成知識(shí)獲取以后,還需要對(duì)知識(shí)建模。知識(shí)建模中,知識(shí)融合/實(shí)體融合是一個(gè)非常關(guān)鍵的步驟。因?yàn)榻^大多數(shù)的知識(shí)圖譜都是為特定的目的構(gòu)造的,這會(huì)導(dǎo)致即使是相同的概念,在不同的知識(shí)圖譜中也會(huì)有不同的描述;同時(shí)相同的描述也有可能代表不同的概念。比如,在一個(gè)圖譜中蘋(píng)果是一種水果,在另外一個(gè)圖譜中,蘋(píng)果卻是一家公司。針對(duì)知識(shí)融合問(wèn)題,華為云研發(fā)了多種算法和解決方案,其中包括在多模態(tài)知識(shí)圖譜實(shí)體融合方面的原創(chuàng)工作。
針對(duì)多模態(tài)知識(shí)圖譜的實(shí)體對(duì)齊問(wèn)題,華為云提出了一種多模態(tài)知識(shí)嵌入方法,生成三種模態(tài)知識(shí)的表示;然后設(shè)計(jì)了一種多模態(tài)知識(shí)融合方法,以融合三種模態(tài)的知識(shí)表示。最后采用了交互訓(xùn)練的方式,端到端的優(yōu)化華為云提出的MMEA模型。華為云提出的這個(gè)模型也發(fā)表在了去年知識(shí)工程的國(guó)際學(xué)術(shù)會(huì)議KSEM上,并獲得唯一的最佳論文獎(jiǎng)。
在多模態(tài)知識(shí)嵌入模塊中,華為云提取關(guān)系、視覺(jué)、數(shù)值信息,分別對(duì)不同模態(tài)的知識(shí)做嵌入表征,去補(bǔ)充實(shí)體的有效特征。
多模態(tài)知識(shí)融合模塊的作用則是集成多模態(tài)的知識(shí)表示。在多模態(tài)知識(shí)融合模塊里,華為云將多模態(tài)知識(shí)嵌入從各自分離的空間中遷移到一個(gè)統(tǒng)一的空間里。統(tǒng)一空間的學(xué)習(xí)使得多模態(tài)的特征能夠互相受益,利用多模態(tài)的互補(bǔ)性,提升了實(shí)體對(duì)齊任務(wù)的準(zhǔn)確率。
關(guān)鍵技術(shù)三:知識(shí)應(yīng)用
完成知識(shí)建模以后,可以做多種應(yīng)用,比如事理圖譜。什么是事理圖譜呢?知識(shí)圖譜是以實(shí)體為核心的,主要建模的是實(shí)體之間的關(guān)系,通過(guò)三元組來(lái)表達(dá)一些客觀事實(shí)。事理圖譜則是以事件為核心,主要建模的是事件之間的因果、順承等關(guān)系。
另外一個(gè)應(yīng)用是將知識(shí)融入到預(yù)訓(xùn)練模型中。預(yù)訓(xùn)練模型是近兩年最熱門(mén)的技術(shù)之一,比如BERT、GPT3、華為云盤(pán)古大模型等。這些預(yù)訓(xùn)練模型的一個(gè)共同特征是利用大規(guī)模的無(wú)標(biāo)注的文本數(shù)據(jù),通過(guò)自監(jiān)督的方式訓(xùn)練一個(gè)模型,從而使得這些模型里面蘊(yùn)含了重要的先驗(yàn)信息或者說(shuō)知識(shí)。但是大模型使用的語(yǔ)料都是通用領(lǐng)域的,沒(méi)有行業(yè)屬性,模型設(shè)計(jì)與訓(xùn)練也沒(méi)有顯式融入行業(yè)知識(shí)。針對(duì)這種情況,華為云提出了一個(gè)可以融合醫(yī)療領(lǐng)域知識(shí)的預(yù)訓(xùn)練模型,BERT-MK,該模型可以顯式地將建模好的醫(yī)療行業(yè)知識(shí),比如醫(yī)療行業(yè)的知識(shí)圖譜,融入到預(yù)訓(xùn)練模型中。融入了行業(yè)之后,在醫(yī)療相關(guān)的下游任務(wù)上,該模型都表現(xiàn)出了比通用模型更好的效果。
有了融入了醫(yī)療知識(shí)的預(yù)訓(xùn)練模型,可以進(jìn)一步把它應(yīng)用到醫(yī)療領(lǐng)域,比如醫(yī)療信息抽取?;谶@些融入了醫(yī)療行業(yè)知識(shí)的預(yù)訓(xùn)練模型,華為云自研了CHIEF醫(yī)療信息抽取框架?;谠摽蚣埽A為云從相關(guān)醫(yī)療文獻(xiàn)里面,構(gòu)建了一個(gè)醫(yī)學(xué)領(lǐng)域知識(shí)圖譜,即從跟新冠肺炎相關(guān)文獻(xiàn)中構(gòu)建了一個(gè)包含新冠肺炎相關(guān)的病毒、蛋白、藥物的知識(shí)圖譜。
華為云知識(shí)計(jì)算解決方案從解決企業(yè)痛點(diǎn)、提升企業(yè)效率、提供知識(shí)化服務(wù)的角度全面賦能企業(yè),讓各行業(yè)的企業(yè)通過(guò)應(yīng)用知識(shí),釋放知識(shí)化帶來(lái)的紅利,全面提升企業(yè)在智能化時(shí)代的競(jìng)爭(zhēng)力。