不僅如此,英特爾還首次披露了即將發(fā)布的產品——英特爾至強 6性能核處理器(代號為Granite Rapids)針對Meta Llama 3的性能測試。結果顯示,與第四代至強處理器相比,英特爾至強6處理器在80億參數的Llama 3推理模型的延遲降低了2倍,并且能夠以低于100毫秒的token延遲,在單個雙路服務器上運行諸如700億參數的Llama 3這種更大參數的推理模型。
考慮到Llama 3具備更高效的編碼語言標記器(Tokenizer),測試采用了隨機選擇的prompt對Llama 3和Llama 2進行快速比較。在prompt相同的情況下,Llama 3所標記的token數量相較Llama 2減少18%。因此,即使80億參數的Llama 3模型比70億參數的Llama 2模型參數更高,在AWS m7i.metal-48xl實例上運行BF16推理時,整體prompt的推理時延幾乎相同(該評估中,Llama 3比Llama 2快1.04倍)。
開發(fā)者可在此查閱在英特爾至強平臺上運行Llama 3的說明。