本屆競賽設(shè)立了來源于真實(shí)應(yīng)用需求的三大任務(wù):機(jī)器閱讀理解、多技能對話、多形態(tài)信息抽取。這些都是自然語言處理和人工智能領(lǐng)域極具挑戰(zhàn)性的重要前沿課題,其研究對于智能搜索、智能推薦、智能交互等人工智能應(yīng)用具有重要意義。此次競賽希望為研究者提供學(xué)術(shù)交流平臺,進(jìn)一步推動語言理解和人工智能領(lǐng)域技術(shù)研究和應(yīng)用的發(fā)展。
三大任務(wù)升級:聯(lián)手“千言”,聚焦實(shí)際應(yīng)用、豐富評測維度
本屆競賽基于“千言”數(shù)據(jù)集舉辦,“千言”作為中文首個大規(guī)模、以開源開放為基礎(chǔ)的數(shù)據(jù)集共建計劃,匯集了多個來自學(xué)界、業(yè)界權(quán)威研究團(tuán)隊的多種類、高質(zhì)量、來源真實(shí)應(yīng)用場景的數(shù)據(jù)集,目前“千言”第一期已涵蓋了7大任務(wù)、20余個中文開源數(shù)據(jù)集。
與往屆競賽任務(wù)僅關(guān)注單一數(shù)據(jù)上的效果不同,本屆競賽基于“千言”,每項(xiàng)任務(wù)設(shè)置了更加豐富的數(shù)據(jù)集合和評測維度,期望能夠從準(zhǔn)確性、魯棒性和泛化性等多個角度對技術(shù)效果進(jìn)行綜合評價,從而推動技術(shù)更好地適應(yīng)多領(lǐng)域、多場景的產(chǎn)業(yè)應(yīng)用。
機(jī)器閱讀理解指讓機(jī)器閱讀文本然后回答和閱讀內(nèi)容相關(guān)的問題。自然語言理解對機(jī)器學(xué)習(xí)模型各方面的能力都有極高的要求,當(dāng)前的機(jī)器閱讀理解數(shù)據(jù)集大多都只采用單一的指標(biāo)來評測模型的好壞,缺乏對模型語言理解能力的細(xì)粒度、多維度評測,導(dǎo)致模型的具體缺陷很難被發(fā)現(xiàn)和改進(jìn)。為了解決這個問題,我們建立了細(xì)粒度的、多維度的評測數(shù)據(jù)集,從詞匯理解、短語理解、語義角色理解、邏輯推理等多個維度檢測模型的不足之處,從而推動閱讀理解評測進(jìn)入“精細(xì)化“時代。該數(shù)據(jù)集中的樣本均來自于實(shí)際的應(yīng)用場景,難度大,考察點(diǎn)豐富,覆蓋了真實(shí)應(yīng)用中諸多難以解決的問題。
多技能對話指讓機(jī)器較好融合各個不同的對話技能,同時考察模型在跨技能場景下的通用性。真實(shí)世界的人機(jī)交互會同時涉及到多種對話技能,如何自然地融合多技能對話是一個重要的挑戰(zhàn)。因此本次競賽集中于多技能對話這一任務(wù),在往年數(shù)據(jù)集基礎(chǔ)上豐富了技能種類,覆蓋了知識對話、推薦對話、畫像聊天、閑聊等多種技能。該任務(wù)下的對話數(shù)據(jù)覆蓋的對話技能多樣、領(lǐng)域多樣,很多對話交互場景來源于真實(shí)的實(shí)際應(yīng)用。
多形態(tài)信息抽取指讓機(jī)器從自然語言文本中抽取實(shí)體、關(guān)系、事件等多形態(tài)知識,旨在使機(jī)器具備從海量非結(jié)構(gòu)化文本信息中自動抽取結(jié)構(gòu)化知識的能力。目前大多數(shù)相關(guān)研究工作僅關(guān)注單一類型信息的抽取效果,缺乏在不同類型信息抽取任務(wù)上的統(tǒng)一評價。因此本次競賽設(shè)立了多形態(tài)抽取信息任務(wù),希望從不同維度對結(jié)構(gòu)化知識抽取效果進(jìn)行綜合評價。競賽還將對外發(fā)布業(yè)界最大規(guī)模的中文多形態(tài)信息抽取數(shù)據(jù)集,囊括實(shí)體、關(guān)系、事件等不同形態(tài)的結(jié)構(gòu)化知識抽取,同時涵蓋句子和篇章兩種粒度的自然語言文本。此次競賽希望通過開放的大規(guī)模中文數(shù)據(jù)集,助力信息抽取技術(shù)的進(jìn)一步發(fā)展。
百度飛槳作為中國首個自主研發(fā)、功能完備、開源開放的產(chǎn)業(yè)級深度學(xué)習(xí)平臺,將為參賽者提供技術(shù)支持。本次競賽三大任務(wù)均將提供基于飛槳的基線,助力選手快速上手;基于百度飛槳的人工智能學(xué)習(xí)與實(shí)訓(xùn)社區(qū)AI Studio將提供在線編程環(huán)境、免費(fèi)GPU算力及海量開源算法數(shù)據(jù)支持,用戶登錄AI Studio并運(yùn)行Notebook即可獲得10小時算力,參加本次競賽的團(tuán)隊還將額外獲得更多的免費(fèi)GPU算力時長。
除積極舉辦各類AI競賽培養(yǎng)AI人才、推動技術(shù)創(chuàng)新與應(yīng)用落地之外,百度以人工智能開源開放平臺飛槳為創(chuàng)新基座助力人才培養(yǎng),已經(jīng)構(gòu)建起涵蓋學(xué)習(xí)、實(shí)踐、比賽、認(rèn)證、就業(yè)在內(nèi)的全周期服務(wù)體系,培養(yǎng)AI人才超100萬。未來5年,百度還將培養(yǎng)超過500萬人工智能技術(shù)與產(chǎn)業(yè)人才,為中國智能經(jīng)濟(jì)和智能社會的發(fā)展提供AI人才保障。
2021語言與智能技術(shù)競賽將于3月10日正式開啟報名通道,歡迎進(jìn)入“2021語言與智能技術(shù)競賽官網(wǎng)”(http://lic2021.ccf.org.cn)了解詳情。
誠邀學(xué)術(shù)界和工業(yè)界的研究者和開發(fā)者參加本次競賽!