文字編輯|李祥敬

1

Qwen3:性能卓越,功能多元

Qwen3在性能上表現(xiàn)卓越。其旗艦模型Qwen3-235B-A22B在代碼、數(shù)學、通用能力等基準測試中,與DeepSeek-R1、o1、o3-mini、Grok-3和Gemini 2.5-Pro等頂級模型相比,展現(xiàn)出強大的競爭力。小型MoE模型Qwen3-30B-A3B激活參數(shù)數(shù)量僅為QwQ-32B的10%,卻有著更優(yōu)的表現(xiàn);Qwen3-4B小模型也能達到與Qwen2.5-72B-Instruct相當?shù)男阅?。該模型支持思考模式和非思考模式。思考模式下,模型運用逐步推理的方式,針對復雜問題,通過多層級的邏輯推導與知識調(diào)用,深入分析問題本質(zhì),從而給出精準答案。這種推理過程涉及對大量知識的檢索、整合以及復雜的算法運算,以確保推理的準確性和深度。非思考模式則基于優(yōu)化的快速響應算法,當接收到簡單問題時,能夠迅速定位相關(guān)知識并給出答案,滿足對速度要求較高的場景。這種雙模式設計,讓用戶可根據(jù)任務需求靈活控制模型推理方式,有效平衡計算資源與推理質(zhì)量。Qwen3的多語言能力也十分突出,支持119種語言和方言。模型在語言處理過程中,采用了多語言融合的詞向量表示方法,能夠?qū)⒉煌Z言的詞匯映射到統(tǒng)一的語義空間中,使得模型可以理解和處理多種語言信息。同時,在訓練數(shù)據(jù)的構(gòu)建上,涵蓋了豐富的多語言文本,包括新聞、學術(shù)文獻、社交媒體內(nèi)容等,通過大規(guī)模的多語言語料訓練,提升了模型對不同語言的理解和生成能力,為其在全球范圍內(nèi)的應用拓展提供了有力支撐,有助于打破語言障礙,推動跨語言的人工智能應用發(fā)展。在訓練方面,Qwen3的數(shù)據(jù)集相比Qwen2.5顯著擴展,從18萬億個token提升到約36萬億個token,涵蓋119種語言和方言。其預訓練過程分三個階段,第一階段(S1),模型在超過30萬億個token上進行預訓練,上下文長度設定為4K token,通過對大量通用文本的學習,模型構(gòu)建起基礎(chǔ)的語言理解和生成能力,掌握了常見的語言結(jié)構(gòu)和語義表達。第二階段(S2),增加知識密集型數(shù)據(jù),如科學、技術(shù)、工程、數(shù)學(STEM)領(lǐng)域的文本、編程代碼以及邏輯推理問題等,然后模型在額外的5萬億個token上進行訓練,強化了模型在專業(yè)領(lǐng)域的知識儲備和推理能力。最后階段,使用高質(zhì)量的長上下文數(shù)據(jù)將上下文長度擴展到32K token,這一過程通過改進的注意力機制,讓模型能夠有效處理更長的輸入,捕捉文本中更長期的依賴關(guān)系,提升對復雜文本的理解和生成能力。后訓練則采用四階段訓練流程,包括長思維鏈冷啟動、長思維鏈強化學習、思維模式融合以及通用強化學習,以開發(fā)具備思考推理和快速響應能力的混合模型。

2

華為昇騰和昇思:實現(xiàn)0Day適配,構(gòu)建完整生態(tài)

華為昇騰和昇思在Qwen3發(fā)布后迅速響應,實現(xiàn)0Day適配。昇騰MindSpeed訓練和MindIE推理全面支持Qwen3系列模型,開發(fā)者可借助其提供的低代碼解決方案,實現(xiàn)模型的快速遷移和應用。在MindSpeed訓練方面,華為提供了詳細的環(huán)境配置指導,涵蓋硬件要求、倉庫部署、權(quán)重轉(zhuǎn)換、數(shù)據(jù)預處理和訓練腳本等環(huán)節(jié)。以Atlas 800 A2系列單機8卡訓練和推理為例,硬件層面,該系列具備強大的計算能力和高速的數(shù)據(jù)傳輸能力,為大規(guī)模模型訓練提供了堅實基礎(chǔ)。軟件層面,從倉庫拉取開始,開發(fā)者需依次完成MindSpeed-LLM和Megatron-LM倉庫的克隆,并進行相應版本的切換和文件復制。環(huán)境搭建過程中,涉及Python虛擬環(huán)境的創(chuàng)建、torch和torch_npu等依賴庫的安裝,且需根據(jù)硬件架構(gòu)和Python版本選擇合適的安裝包。例如,在安裝torch和torch_npu時,針對不同的硬件平臺(如x86或arm)和Python版本(如Python3.10),要選擇對應的whl文件進行安裝。此外,還需從原倉編譯安裝apex for Ascend,并安裝MindSpeed加速庫,以提升訓練效率。權(quán)重轉(zhuǎn)換環(huán)節(jié),MindSpeed-LLM提供腳本將huggingface開源權(quán)重轉(zhuǎn)換為mcore權(quán)重,這一過程涉及對權(quán)重數(shù)據(jù)的格式轉(zhuǎn)換和優(yōu)化,以適應昇騰硬件的計算特性。數(shù)據(jù)預處理階段,提供腳本對數(shù)據(jù)集進行處理,開發(fā)者可根據(jù)實際需求修改參數(shù),實現(xiàn)對訓練數(shù)據(jù)的清洗、標注和格式化,確保數(shù)據(jù)質(zhì)量和格式符合訓練要求。訓練腳本則基于分布式并行接口,支持多卡訓練,通過優(yōu)化的通信算法和任務調(diào)度策略,充分利用多卡的計算資源,加速模型訓練過程。MindIE推理同樣提供了完善的支持。針對純模型推理和服務化推理場景,分別制定了相應的測試和部署方案。開發(fā)者通過修改模型文件夾權(quán)限、加載鏡像、啟動容器等操作,即可完成推理部署。昇思MindSpore原生支持Qwen系列大模型,通過JIT(Just-In-Time)加速提升推理系統(tǒng)吞吐率。JIT編譯會自動將模型的Python類或者函數(shù),編譯成一張完整的計算圖,在編譯過程中,通過自動模式匹配,在整圖范圍內(nèi)將多種小算子組合,融合成單個大顆粒的算子,減少算子調(diào)度開銷。同時,構(gòu)建了Shape推導、Tiling數(shù)據(jù)計算、下發(fā)執(zhí)行的三級流水線,實現(xiàn)Host計算和Device計算的掩蓋,有效提升了計算圖動態(tài)Shape執(zhí)行效率。此外,昇思MindSpore開發(fā)vLLM-MindSpore插件無縫接入vLLM生態(tài),該插件采用MSAdapter將vLLM服務組件依賴的PyTorch接口映射至MindSpore能力,無縫繼承了Continuous Batching等核心特性,進一步優(yōu)化推理性能。

3

英特爾:深度優(yōu)化,拓展應用場景

英特爾與阿里緊密合作,針對Qwen3系列大模型開展深度優(yōu)化工作。針對MoE模型部署難題,英特爾采用多種軟件優(yōu)化策略,借助OpenVINO工具套件,成功將Qwen模型高效部署于英特爾硬件平臺。例如,在ARL-H 64G內(nèi)存系統(tǒng)上部署30B參數(shù)規(guī)模MoE模型,實現(xiàn)了33.97 token/s的吞吐量,相比同等參數(shù)規(guī)模的稠密模型性能顯著提升。在優(yōu)化過程中,英特爾針對稀疏混合專家模型架構(gòu)(Sparse MoE)進行算子融合,將多個相關(guān)的算子合并為一個計算單元,減少數(shù)據(jù)在不同算子之間的傳輸開銷,提高計算效率。針對3B激活MOE模型定制化調(diào)度和訪存優(yōu)化,通過優(yōu)化任務調(diào)度算法,合理分配計算資源,減少計算資源的空閑時間;同時,優(yōu)化訪存策略,提高數(shù)據(jù)訪問速度,降低內(nèi)存訪問延遲。此外,還針對不同專家之間的負載均衡進行優(yōu)化,確保各個專家計算資源的合理利用,避免出現(xiàn)某些專家負載過高,而其他專家資源閑置的情況。英特爾首次在NPU上對模型發(fā)布提供Day 0支持,針對不同模型參數(shù)量和應用場景,提供多樣化、針對性的平臺支持。在酷睿Ultra的iGPU平臺、英特爾銳炫A系列和B系列顯卡上,Qwen3模型均能取得良好的性能表現(xiàn),開發(fā)者可根據(jù)實際需求選擇合適的硬件平臺進行模型部署。英特爾還通過端側(cè)微調(diào)提升模型智能,基于Unsloth和Hugging Face參數(shù)高效微調(diào)框架構(gòu)建端側(cè)解決方案,優(yōu)化用戶體驗。端側(cè)微調(diào)過程中,利用特定的數(shù)據(jù)集對小型LLM(如0.6B參數(shù)量模型)進行優(yōu)化,通過反向傳播算法調(diào)整模型的部分參數(shù),使得模型在特定任務上的表現(xiàn)更加出色。此外,英特爾擁抱開源生態(tài),優(yōu)化版Ollama第一時間支持Qwen3系列模型,方便開發(fā)者在英特爾客戶端平臺搭建智能應用。

4

海光:無縫適配,展現(xiàn)技術(shù)優(yōu)勢

在“深算智能”戰(zhàn)略引領(lǐng)下,海光DCU快速完成對Qwen3全部8款模型的無縫適配與調(diào)優(yōu),覆蓋從235B到0.6B的不同參數(shù)規(guī)模模型,實現(xiàn)零報錯、零兼容性問題的秒級部署?;贕PGPU架構(gòu)的生態(tài)優(yōu)勢和編程開發(fā)軟件棧DTK的領(lǐng)先特性,Qwen3在海光DCU上展現(xiàn)出卓越的推理性能與穩(wěn)定性。這不僅驗證了海光DCU的高通用性和高生態(tài)兼容度,也凸顯了其自主可控的技術(shù)優(yōu)勢,為AI大模型的訓練與推理提供了堅實可靠的基礎(chǔ)設施支持。DCU在Qwen3適配中展現(xiàn)了卓越的技術(shù)能力。其采用通用圖形處理單元(GPGPU)架構(gòu),支持高并行計算,適合AI模型訓練與推理,類CUDA并行計算框架兼容主流AI軟件生態(tài),確保與Qwen3等模型的無縫整合。海光的深算工具包(DTK)是一套完整的軟件開發(fā)套件,包括開發(fā)工具、庫和優(yōu)化框架,支持模型遷移、性能優(yōu)化與快速部署,助力DCU實現(xiàn)Qwen3全系列模型的秒級部署,無任何錯誤或兼容性問題。DCU支持從0.6億到2350億參數(shù)的Qwen3模型,展現(xiàn)了其適應多樣化計算需求的靈活性,覆蓋邊緣計算到數(shù)據(jù)中心的高性能場景。其兼容全球AI框架及國產(chǎn)大模型,降低開發(fā)者遷移成本,同時內(nèi)置安全硬件,支持國密算法(如SM2、SM3)與可信計算,滿足中國對信息安全與技術(shù)自主的高要求。DCU通過支持Qwen3的訓練與推理,確立了其作為AI大模型關(guān)鍵基礎(chǔ)設施的地位。相較于進口GPU,DCU提供自主可控的算力解決方案,滿足金融、政務等行業(yè)對安全與效率的需求。

結(jié)語

Qwen3的發(fā)布與開源為人工智能領(lǐng)域帶來新的發(fā)展契機,而華為昇騰和昇思、英特爾等芯片廠商的支持,從訓練到推理,從性能優(yōu)化到生態(tài)建設,為Qwen3的廣泛應用提供了全方位保障。隨著技術(shù)的持續(xù)創(chuàng)新,各方的協(xié)同合作有望推動人工智能技術(shù)邁向新的高度,在更多領(lǐng)域?qū)崿F(xiàn)創(chuàng)新應用,為行業(yè)發(fā)展注入新動力。

分享到

lixiangjing

算力豹主編

相關(guān)推薦