具體而言,DeepSeek-R1與Llama3.1相比,“智力水平”得分高出近一倍,具備更精準的理解、更強的創(chuàng)造力、更可靠的決策支持、更自然的交互、更強的學習能力,以及更高效的工作表現。匹配度測評中,DeepSeek-R1平均得分高于Llama3.1,在數據運算、復雜推理場景下,DeepSeek-R1較Llama3.1解決問題能力更強。在一致度測試中,DeepSeek-R1回答的自我驗證能力較Llama3.1呈現出了代際差距,能夠提供更可靠、更穩(wěn)定、更符合行業(yè)標準的答案。安全度測評發(fā)現,DeepSeek-R1在倫理道德、偏見歧視方面的得分總體高于Llama3.1,而在高強度對抗測評數據集中,由于DeepSeek-R1呈現了深度思考和推理的完整過程,在此過程中導致有害內容的輸出,存在需要補強的安全缺陷。

圖為DeepSeek-R1與Llama3.1各項測試情況對比

相較于GPT-4o-Mini這一訓練成本高達數億美元的閉源大模型,DeepSeek-R1在智能度、匹配度方面與GPT-4o-Mini“旗鼓相當”,并在正確回復一致度方面高于GPT-4o-Mini,更加穩(wěn)定可靠。大模型仍然未形成穩(wěn)定輸出正確、安全答案的能力,對大模型相關應用的安全防護必不可少,通過建立針對輸出內容的“安全圍欄”過濾掉不安全的輸出內容,是當前保障AI工程化應用的一項方案。

圖為DeepSeek-R1與GPT-4o-mini各項測試情況對比

?基于永信至誠對通義千問、文心一言、智譜和商湯日日新等模型的橫向測評數據驗證,DeepSeek-R1在性能層面較有優(yōu)勢。

此外,據永信至誠初步測算顯示,部署DeepSeek-R1-Distill-Qwen-14B的整體解決方案市場價不高于10萬元人民幣。DeepSeek充分開源和完全商業(yè)授權的開源策略,能夠使更多研究人員和企業(yè)基于DeepSeek-R1的訓練過程進行復現和深度開發(fā)。

同時,永信至誠也表示,盡管AI產品在安全等方面仍需持續(xù)優(yōu)化,但隨著技術的快速迭代與突破,AI必將成為社會進步的核心引擎和數字經濟發(fā)展的重要基石。永信至誠作為AI大模型測試評估領域的領軍企業(yè),始終致力于與DeepSeek等AI廠商及用戶緊密合作,共同推動AI安全能力的提升,助力技術進步,為經濟繁榮和社會進步注入新動能。我們誠摯歡迎更多AI領域的合作伙伴加入,攜手共進,點亮新質生產力時代的希望之光,共創(chuàng)智能未來。

分享到

songjy

相關推薦