image.png

這項工作的一大難點,是如何實現(xiàn)高精度的領(lǐng)域命名實體識別和關(guān)系抽取,比如上圖中句子里提到的相關(guān)病毒蛋白(Virus Protein)、 人類蛋白(HumanProtein)、病毒(Virus)以及從上下文判別出的相互關(guān)系。研發(fā)團隊采用了華為諾亞方舟實驗室和華為云最新研究成果醫(yī)學(xué)領(lǐng)域知識監(jiān)督的預(yù)訓(xùn)練語言模型:BERT-MK (BERT-based language model with Medical Knowledge) ,并融合了團隊在知識挖掘領(lǐng)域積累的多項深度語義表示和檢索技術(shù)。值得一提的是,在此前的科學(xué)文獻挖掘領(lǐng)域相關(guān)賽事上,華為云語音語義創(chuàng)新Lab已多次奪冠,包括DigSci 2019和WSDM Cup 2020

image.png

     華為云同時提供了個性化的查詢可視化工具,可清晰直接地展現(xiàn)新冠科研知識圖譜內(nèi)的知識點及其關(guān)聯(lián),并且能夠快速溯源知識信息的來源,直接定位相關(guān)的文獻及知識所在段落。例如:查詢藥物L(fēng)opinavir,可發(fā)現(xiàn)Lopinavir對于SARS-CoV-2的Mpro以及HIV protease均有一定的效果。通過進一步探索,可發(fā)現(xiàn)Colistin和Nelfinavir對SARS-CoV-2的Mpro也有一定效果。通過查看具體關(guān)系,又可進一步獲取該關(guān)系來源的文獻及段落信息等,直接溯源原始信息。該圖譜可協(xié)助科研人員快速、高效地開展病毒機制研究、病毒蛋白相互作用等科學(xué)研究,協(xié)助藥物研發(fā)人員更加精確、有效地開展藥物靶點研究、疫苗開發(fā)等藥物研發(fā)工作。

在抗疫期間,華為云和浙江大學(xué)陳華鈞教授合作,已在OpenKG發(fā)布包括新冠病毒分類圖譜、抗病毒藥物圖譜等多種類型的新冠科研知識圖譜。同時,華為云EI醫(yī)療智能體(EIHealth)和醫(yī)療領(lǐng)域的科研工作者共同奮斗在一線,相繼推出了一系列的抗病毒基因組服務(wù)、醫(yī)療影像服務(wù)和抗病毒藥物篩選服務(wù),全面、立體的助力全球科研人員的研發(fā)工作。

分享到

xiesc

相關(guān)推薦