ZeroCLUE是中文語(yǔ)言理解零樣本學(xué)習(xí)的權(quán)威榜單,在學(xué)術(shù)和工業(yè)界有著廣泛影響力,吸引了IDEA研究院、OpenBMB等眾多高水平科研單位和企業(yè)競(jìng)相角逐。天翼云AI團(tuán)隊(duì)以76.217的總分奪得榜單桂冠,成績(jī)大幅領(lǐng)先第二名。同時(shí),天翼云AI團(tuán)隊(duì)在榜單“BUSTM任務(wù)”中占據(jù)榜首,成為該任務(wù)中唯一突破90分的團(tuán)隊(duì)。
零樣本學(xué)習(xí)(Zero-Shot Learning)是自然語(yǔ)言處理技術(shù)中重要的研究方向,旨在突破全監(jiān)督學(xué)習(xí)范式,讓AI算法在數(shù)據(jù)稀缺、標(biāo)注困難的場(chǎng)景中更好地發(fā)揮作用。
ZeroCLUE榜單包含EPRSTMT(電商評(píng)論情感分析)、CSLDCP(科學(xué)文獻(xiàn)學(xué)科分類)、TNEWSF(新聞分類)、IFLYTEKF(應(yīng)用描述主題分類)、OCNLIF(自然語(yǔ)言推理)、BUSTM(對(duì)話短文本匹配)、CHIDF(成語(yǔ)閱讀理解)、CSLF(摘要判斷關(guān)鍵詞判別)、CLUEWSCF(代詞消歧)9大任務(wù),涵蓋了當(dāng)今自然語(yǔ)言處理技術(shù)的主流研究方向。參賽者的排名則由上述9個(gè)任務(wù)的平均得分決定。下圖展示了上述任務(wù)的具體數(shù)據(jù)細(xì)節(jié)。
本次打榜競(jìng)賽中,天翼云AI團(tuán)隊(duì)的算法核心之一是采用了“統(tǒng)一多項(xiàng)選擇”(Unified Multiple Choice)的思想,將不同范式的自然語(yǔ)言處理任務(wù)統(tǒng)一轉(zhuǎn)化為多項(xiàng)選擇任務(wù),使得在訓(xùn)練和微調(diào)階段,每個(gè)任務(wù)都能從其它數(shù)據(jù)與任務(wù)中獲益。
基于以上思想對(duì)每個(gè)任務(wù)進(jìn)行范式的設(shè)計(jì)和統(tǒng)一,并結(jié)合開源模型進(jìn)行算法優(yōu)化和測(cè)試,最終不僅能夠增強(qiáng)模型在本任務(wù)中的性能,也提升了其處理不同任務(wù)的泛化能力。
本次天翼云AI團(tuán)隊(duì)在競(jìng)爭(zhēng)激烈的ZeroCLUE打榜中脫穎而出,源于其在認(rèn)知智能領(lǐng)域的技術(shù)沉淀,以及對(duì)業(yè)務(wù)場(chǎng)景的深度理解和應(yīng)用。
值得一提的是,天翼云的零樣本學(xué)習(xí)技術(shù)在實(shí)際業(yè)務(wù)中已獲得了廣泛應(yīng)用。例如,在知識(shí)平臺(tái)中使用零樣本學(xué)習(xí)技術(shù)對(duì)大量非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行知識(shí)挖掘和管理;在缺乏樣本的場(chǎng)景中使用零樣本學(xué)習(xí)技術(shù)提升底層算法的知識(shí)抽取能力,進(jìn)而提高平臺(tái)上層智能搜索、推薦、問答等業(yè)務(wù)性能。???
未來(lái),天翼云將繼續(xù)推進(jìn)人工智能技術(shù)的創(chuàng)新突破,加快打造原創(chuàng)技術(shù)策源地,以更多的數(shù)字技術(shù)應(yīng)用,賦能千行百業(yè)數(shù)字化轉(zhuǎn)型。