近年來,大模型表現(xiàn)出前所未有的理解與創(chuàng)造能力,且打破了傳統(tǒng)AI只能處理單一任務的限制,讓人類離通用人工智能的目標近了一步。但大模型在實現(xiàn)全模態(tài)和全任務的通用性上仍存在許多技術(shù)難點,同時受算力資源限制,其訓練與落地應用頗具挑戰(zhàn)。
2021年,阿里巴巴達摩院先后發(fā)布多個版本的多模態(tài)及語言大模型,在超大模型、低碳訓練技術(shù)、平臺化服務、落地應用等方面實現(xiàn)突破,引領(lǐng)了中文大模型的發(fā)展。尤其引發(fā)關(guān)注的是,達摩院團隊使用512卡V100 GPU即實現(xiàn)10萬億參數(shù)大模型M6,同等參數(shù)規(guī)模能耗僅為此前業(yè)界標桿的1%,極大降低了大模型訓練門檻。
今年,阿里巴巴在解決大模型通用性及易用性難題上繼續(xù)發(fā)力。達摩院副院長周靖人介紹,為了讓大模型更加“融會貫通”,達摩院在國內(nèi)率先構(gòu)建了AI統(tǒng)一底座,在業(yè)界首次實現(xiàn)模態(tài)表示、任務表示、模型結(jié)構(gòu)的統(tǒng)一。通義統(tǒng)一底座中M6-OFA模型,作為單一模型,在不引入新增結(jié)構(gòu)的情況下,可同時處理圖像描述、視覺定位、文生圖、視覺蘊含、文檔摘要等10余項單模態(tài)和跨模態(tài)任務,且效果達到國際領(lǐng)先水平。這一突破最大程度打通了AI的感官,受到學界和工業(yè)界廣泛關(guān)注。近期M6-OFA完成升級后,可處理超過30種跨模態(tài)任務。
“大模型模仿了人類構(gòu)建認知的過程,這是當下我們面臨的重要機遇。通過融合AI在語言、語音、視覺等不同模態(tài)和領(lǐng)域的知識體系,我們期望多模態(tài)大模型能成為下一代人工智能算法的基石,讓AI從只能使用‘單一感官’到‘五官全開’,且能調(diào)用儲備豐富知識的大腦來理解世界和思考,最終實現(xiàn)接近人類水平的認知智能。”周靖人表示。
同時,以統(tǒng)一底座為基礎(chǔ),達摩院構(gòu)建了層次化的模型體系,其中通用模型層覆蓋自然語言處理、多模態(tài)、計算機視覺,專業(yè)模型層深入電商、醫(yī)療、法律、金融、娛樂等行業(yè)。通用與專業(yè)領(lǐng)域大小模型協(xié)同,讓通義大模型系列可兼顧性能最優(yōu)化與低成本落地。為加快大模型規(guī)?;瘧?,達摩院還研發(fā)了超大模型落地關(guān)鍵技術(shù)S4框架,百億參數(shù)大模型在壓縮率達99%的情況下多任務精度可接近無損。
通過部署超大模型及輕量化版本,阿里巴巴通義大模型系列已在超過200個場景中提供服務,實現(xiàn)了2%~10%的應用效果提升。典型使用場景包括電商跨模態(tài)搜索、AI輔助設(shè)計、開放域人機對話、法律文書學習、醫(yī)療文本理解等。
與本次發(fā)布同步,通義大模型系列中語言大模型AliceMind-PLUG、多模態(tài)理解與生成統(tǒng)一模型AliceMind-mPLUG、多模態(tài)統(tǒng)一底座模型M6-OFA、超大模型落地關(guān)鍵技術(shù)S4框架等核心模型及能力已面向全球開發(fā)者開源,最新文生圖大模型近期將開放體驗。(開源鏈接:https://github.com/alibaba/AliceMind/; https://github.com/OFA-Sys/OFA)