為了驗證FashionKLIP方法的實用性,我們將其應用于阿里巴巴國際部的商品搜索平臺,在圖像-商品和文本-商品兩個檢索子任務上進行了零樣本場景下的驗證,并將其與基線方法CLIP比較,實驗結(jié)果進一步證明了FashionKLIP的實用價值及高效性。
面向輕量化文圖檢索的Dual-Encoder模型蒸餾算法ConaCLIP
文本-圖像檢索(Text-Image Retrieval)的目的是在給出一個特定的文本查詢時,從一個大型的圖像集合中檢索出一個最相關(guān)的圖像列表。隨著信息交互和社交場景的快速發(fā)展,該任務一直被認為是跨模態(tài)應用的一個關(guān)鍵組成部分,并被各種現(xiàn)實世界的場景所需求,如電子商業(yè)平臺,網(wǎng)站等?,F(xiàn)有的相關(guān)模型如CLIP在計算資源有限的邊緣設備或動態(tài)索引場景如私人照片/消息集合上仍然不太實用。為了解決這個問題,我們的目標是從大規(guī)模的預訓練雙流編碼器模型出發(fā),專注于小模型預訓練階段的蒸餾過程,以獲得一系列更小、更快、更有效的相應的輕量化模型。與現(xiàn)有的工作不同,我們的方法引入了全連接知識交互圖(fully-Connected knowledge interaction graph)用于預訓練階段的蒸餾。除了模態(tài)內(nèi)教師-學生交互學習之外,我們的方法還包括模態(tài)內(nèi)學生-學生交互學習、模態(tài)間教師-學生交互學習和模態(tài)間學生-學生交互學習,如下圖所示。
這種為學生網(wǎng)絡建立的全連接圖可以看做是多視角和多任務的學習方案的集成,以此可以加強預訓練模型所需要的穩(wěn)健性和有效性。同時我們建議,每種類型的學習過程都應該詳細地測試各種不同監(jiān)督策略的效果。我們將所提出的技術(shù)應用于電子商務平臺的端到端跨模態(tài)檢索場景,結(jié)果展示我們在基本保證模型性能的同時顯著的降低了模型的存儲空間并增加了模型的計算效率。
具有高效推理速度的中文領(lǐng)域文圖生成擴散模型和工具鏈
Text-to-Image Synthesis(TIS)是指根據(jù)文本輸入生成圖像的技術(shù),給定一段文本指令,使用計算機程序生成符合文本內(nèi)容描述的圖像。然而,由于預訓練語言模型缺乏特定領(lǐng)域的實體知識且受限于擴散模型的推理速度,目前開源社區(qū)的流行文圖生成模型難以支持特定工業(yè)領(lǐng)域的應用。主要問題在于,基于擴散的方法需要使用預訓練文本編碼器對輸入文本進行編碼,然后作為擴散模型的UNet模型的條件輸入。但是目前使用網(wǎng)上收集的文本圖像對預訓練的文本編碼器模型缺乏特定實體概念的理解能力,難以捕獲特定實體知識,這對于生成逼真的實體對象圖片至關(guān)重要。同時,擴散模型的推理速度和計算成本也是需要考慮的重要因素,而迭代逆擴散去噪過程的繁瑣計算一直是擴散模型推理速度的瓶頸。我們提出的新框架用于訓練和部署文圖生成擴散模型,模型架構(gòu)如下圖所示。為了提升對特定實體的理解能力,我們在CLIP的文本編碼器中注入了豐富的實體知識,使用知識圖譜進行知識增強。與開源Stable Diffusion直接利用大規(guī)模分層擴散模型不同,我們在圖像擴散模塊之后集成了一個基于ESRGAN的網(wǎng)絡,以提高生成圖像的分辨率的同時有效解決了參數(shù)量爆炸和耗時長的問題。對于在線部署,我們基于FlashAttention優(yōu)化的神經(jīng)架構(gòu)設計了一個高效的推理流程。生成模型計算圖的Intermediate Representation(IR)經(jīng)過端到端人工智能編譯器BladeDISC進一步處理,以提高生成模型的推理速度。
我們的實驗證明,我們針對特定領(lǐng)域場景的知識增強模型可以更好地理解領(lǐng)域知識,并且可以生成更逼真和多樣化的圖像。在推理速度上,我們使用了端到端人工智能編譯器BladeDISC以及FlashAttention 技術(shù)來提高模型的推理速度。我們還將這一技術(shù)與阿里云機器學習平臺PAI進行集成,以展示其在實際應用中的實用價值,用戶可以在自己的任務(數(shù)據(jù))上一鍵式的進行訓練,微調(diào)以及推理自己的模型。
算法開源
為了更好地服務開源社區(qū),上述三個算法的源代碼即將貢獻在自然語言處理算法框架EasyNLP中,歡迎NLP從業(yè)人員和研究者使用。EasyNLP是阿里云機器學習平臺PAI 團隊基于 PyTorch 開發(fā)的易用且豐富的中文NLP算法框架,支持常用的中文預訓練模型和大模型落地技術(shù),并且提供了從訓練到部署的一站式 NLP 開發(fā)體驗。由于跨模態(tài)理解需求的不斷增加,EasyNLP也將支持各種跨模態(tài)模型,特別是中文領(lǐng)域的跨模態(tài)模型,推向開源社區(qū),希望能夠服務更多的 NLP 和多模態(tài)算法開發(fā)者和研究者,也希望和社區(qū)一起推動 NLP/多模態(tài)技術(shù)的發(fā)展和模型落地。
Github地址:https://github.com/alibaba/EasyNLP
論文匯總
論文名字:FashionKLIP: Enhancing E-Commerce Image-Text Retrieval with Fashion Multi-Modal Conceptual Knowledge Graph
論文作者:王小丹、汪誠愚、李磊、李直旭、陳犇、金林波、黃俊、肖仰華、高明
論文PDF鏈接:https://aclanthology.org/2023.acl-industry.16.pdf
論文名字:ConaCLIP: Exploring Distillation of Fully-Connected Knowledge Interaction Graph for Lightweight Text-Image Retrieval論文作者:汪嘉鵬、汪誠愚、王小丹、黃俊、金連文
論文PDF鏈接:https://aclanthology.org/2023.acl-industry.8.pdf
論文名字:Rapid Diffusion: Building Domain-Specific Text-to-Image Synthesizers with Fast Inference Speed論文作者:劉冰雁、林煒豐、段忠杰、汪誠愚、吳梓恒、張子鵬、賈奎、金連文、陳岑、黃俊
論文PDF鏈接:https://aclanthology.org/2023.acl-industry.28.pdf