??(圖:CCKS?2020大會官網(wǎng))

針對性數(shù)據(jù)與模型設計?奪得NER任務冠軍

第十四屆全國知識圖譜與語義計算大會由中國中文信息學會語言與知識計算專業(yè)委員會主辦,已經(jīng)成為國內(nèi)知識圖譜、語義技術、鏈接數(shù)據(jù)等領域的核心學術會議,聚集了自然語言理解、知識獲取、智能問答、圖數(shù)據(jù)庫等相關技術領域的研究人員和學者。CCKS技術評測則旨在為研究人員提供測試知識圖譜與語義計算技術、算法、及系統(tǒng)的平臺和資源,促進國內(nèi)知識圖譜領域的技術發(fā)展。針對此次大會,CCKS?2020技術評測共設立8個相關主題評測任務,包含新冠知識圖譜構(gòu)建與問答、面向中文電子病歷的醫(yī)療實體及事件抽取,面向試驗鑒定的命名實體識別等,吸引了眾多知名企業(yè)和高校的踴躍參與。在面向試驗鑒定的命名實體識別的主題評測任務中,騰訊天衍實驗室奪得冠軍。

??(圖:面向試驗鑒定的命名實體識別評測獲獎名次)

何為命名實體識別?簡言之,如何從海量的文本或網(wǎng)頁的原始數(shù)據(jù)中提取有價值的信息是行業(yè)知識圖譜構(gòu)建的關鍵因素,信息抽取(Information?Extraction,IE)作為自然語言處理技術的任務,重點在于從機器可讀取的非結(jié)構(gòu)化或半結(jié)構(gòu)化的文本中抽取信息,而命名實體識別(NER)則是IE任務的核心和基礎技術,旨在從文本中查找每個提及的命名實體并標記其類型。相比于通用領域NER任務,此次競賽任務由于試驗目的不同、被試對象有著自身較為特殊的語言形式,對NER任務帶來了全新的挑戰(zhàn):一方面,試驗鑒定領域的可用標注語料稀少,訓練集只有400條;另一方面,實體類別間語義復雜度較高,需要依賴專業(yè)領域知識和準確的上下文理解。

針對此次實體識別任務,騰訊天衍實驗室全面識別任務特點,從數(shù)據(jù)和模型層面進行針對性的設計。首先,針對訓練數(shù)據(jù)樣本較少且樣本序列長度較長的問題設計了一種基于動態(tài)規(guī)劃的文本分割方法,將較長樣本分割為多個樣本,同時在切割時使得保留最多原始文本信息的前提下冗余數(shù)據(jù)最少。其次,在模型層面上,基于樣本上下文依賴較強且位置關系明顯的特點,在輸入層把領域分詞信息融合到模型中,并且針對性的選取TENER、RTransfomer作為編碼器;編碼器的輸出結(jié)合CRF做實體的序列標注,針對模型輸出的結(jié)果進行融合和詞典矯正,最終結(jié)果為F值0.72128,奪得該賽道冠軍。

持續(xù)創(chuàng)新輸出技術實力?加速醫(yī)療科研領域落地應用

獲此成績非一朝一夕,在此之前,騰訊天衍實驗室就在日常的業(yè)務中把實驗室長期積累的相關技術落地到醫(yī)療領域的多個場景中,并且在實踐應用中進一步夯實技術實力。

比如疫情期間,騰訊天衍實驗室基于騰訊健康小程序推出的患者同小區(qū)查詢助手極大的方便了用戶查詢同小區(qū)患者信息,疫情智能問答助手則可以7*24小時解答用戶關于疫情的相關問題助力公眾科學防疫抗疫,累積服務用戶2000萬查詢?nèi)舜巍蓚€智能助手應用到的核心技術之一就是NER技術,通過NER技術從無結(jié)構(gòu)化文本中抽取相關實體并結(jié)合關系分類快速構(gòu)建精準圖譜,從而支撐上層各項智能化應用。

具體來說,患者同小區(qū)查詢助手,主要利用NER技術從官方公布的患者信息文件中抽取出關鍵實體并構(gòu)建患者畫像圖譜,從而實現(xiàn)患者同小區(qū)智能查詢的各項功能。對于疫情問答工具,則主要基于衛(wèi)健委、醫(yī)院等公布的文檔,利用NER技術從中抽取治療、診斷、藥物、地區(qū)等相關實體,基于這些實體快速構(gòu)建新冠肺炎相關的知識圖譜,利用知識圖譜支撐用戶問答服務,從而提高問答的準確性和智能性。

??NER為核心技術的疫情工具圖譜構(gòu)建流程

騰訊天衍實驗室致力于長期在自然語言基礎能力、語言理解、信息抽取、知識圖譜構(gòu)建等進行研究創(chuàng)新,并將成果運用到落地的醫(yī)療自然語言等場景,目前已構(gòu)建醫(yī)療行業(yè)大規(guī)模知識圖譜,支持了數(shù)百家醫(yī)院的輔診、導診、疾病輔助診斷、智能用藥等產(chǎn)品,助力醫(yī)保、醫(yī)院、疾控中心和其他醫(yī)療機構(gòu)的智能化知識挖掘和管理難題,實現(xiàn)知識化轉(zhuǎn)型。

在醫(yī)療健康領域,騰訊天衍實驗室專注于AI算法研究及落地,旨在依托NLP、知識圖譜、大數(shù)據(jù)、醫(yī)療影像等技術系統(tǒng),將算法能力輸出到騰訊健康小程序、QQ瀏覽器、微信搜一搜等終端應用。與此同時,騰訊天衍實驗室還與鐘南山院士以及復旦腫瘤醫(yī)院等頭部醫(yī)院建立聯(lián)合實驗室,與牛津大學、蒙特利爾大學、天津大學、微眾銀行AI部門等單位建立長期科研合作關系,目前已發(fā)表包括NIPS、KDD等多篇頂級學術論文,通過聯(lián)合社會各界進行技術深入研究,騰訊天衍實驗室將進一步加速科研應用落地,以服務于臨床應用。

分享到

zhangnn

相關推薦