表1. 70億參數(shù)的通義千問2在單顆英特爾Gaudi 2加速器上的推理
表2. 720億參數(shù)的通義千問2在8顆英特爾Gaudi 2加速器上的推理
表3. 通義千問2 FP8在英特爾Gaudi 2加速器上的推理
表4. 通義千問2在英特爾Gaudi 2加速器上的微調(diào)
測試結(jié)果:英特爾?至強?處理器
英特爾?至強?處理器作為通用計算的基石,為全球范圍內(nèi)的用戶提供強大的算力。英特爾至強處理器具有廣泛可用性,適用于各個規(guī)模的數(shù)據(jù)中心,這使其成為那些希望能夠快速部署AI解決方案,又無需配備專項基礎(chǔ)設(shè)施企業(yè)的理想選擇。英特爾至強處理器的每個核心均內(nèi)置了英特爾?高級矩陣擴展(英特爾AMX),可處理多樣化的AI工作負載并加速AI推理。下圖展現(xiàn)了英特爾至強處理器所提供的延遲性能可滿足多種用例。
圖1. 在基于第五代英特爾?至強?可擴展處理器的阿里云ecs.ebmg8i.48xlarge實例上,通義千問2的下一個推理token延遲
AI PC
由最新英特爾?酷睿? Ultra處理器和英特爾銳炫?顯卡驅(qū)動的AI PC讓AI的力量觸及客戶端和邊緣,使開發(fā)者在本地也能部署大模型。AI PC配備了專門的AI硬件,如神經(jīng)處理單元和內(nèi)置的英特爾銳炫?顯卡,或配備了英特爾? Xe Matrix Extensions加速的英特爾銳炫?A系列顯卡,以處理高需求的邊緣AI任務(wù)。這種本地處理能力可實現(xiàn)個性化的AI體驗,增強隱私性,并提供快速響應(yīng)時間,這對于交互式應(yīng)用程序至關(guān)重要。
以下展示了15億參數(shù)的通義千問2,在基于英特爾?酷睿?Ultra的AI PC上運行時所展現(xiàn)的強大性能。
Demo 1. 在內(nèi)置英特爾銳炫?顯卡的英特爾?酷睿? Ultra 7 165H上,通義千問2的推理
表2. 在內(nèi)置英特爾銳炫?顯卡的英特爾?酷睿? Ultra 7 165H AI PC上,通義千問2的下一個token延遲
表3. 在由英特爾銳炫? A770 16GB限量版驅(qū)動的AI PC上,通義千問2的下一個token延遲