這還沒完,DeepSeek R1模型還開源了權(quán)重參數(shù),任何人都可以免費下載,更令人激動不已的是,它是以MIT的方式開源的,這意味著任何人都可以免費將其用于商業(yè)用途,直接用它來搭建商業(yè)服務(wù)。

在DeepSeek R1造成轟動之余,包括亞馬遜云科技等在內(nèi)的幾家大型科技公司很快就宣布上架DeepSeek R1。所謂上架,指的是將模型放到公有云服務(wù)中,用云上的資源運行這款大模型。

目前,滿血版的DeepSeek R1有6710億參數(shù),大部分部署的DeepSeek R1都是蒸餾版。所謂蒸餾版是指將DeepSeek R1作為教師模型,讓較小‘學(xué)生模型學(xué)習(xí)其輸出,從而在縮小模型規(guī)模的同時,保留大模型的核心能力。

深度求索公司開源了6個蒸餾版模型。之所以模型的命名帶有Llama和Qwen字樣,是因為蒸餾的時候是把Llama和Qwen的小模型用作了學(xué)生模型,把DeepSeek R1用作老師模型。

即便是蒸餾后的模型依然很強,比如,DeepSeek-R1-Distill-Qwen-32B在多個基準測試中甚至超過了OpenAI-o1-mini??吹竭@么強,又免費可商用的模型,是不是想立即體驗一下這款超強的模型呢?

部署DeepSeek R1的技術(shù)選項

對于普通個人用戶來說,首選的就是DeepSeek官方的在線Web服務(wù)或者手機App。然而,截止到2月6日,由于遭受著DDoS攻擊以及大量新用戶的涌入,深度求索的在線服務(wù)目前不是很穩(wěn)定。

企業(yè)用戶在本地化部署模型時,不僅要投入高額硬件采購成本及專業(yè)技術(shù)團隊建設(shè)費用,而且,在業(yè)務(wù)需求尚未明確、模型技術(shù)持續(xù)演進的市場環(huán)境下,頻繁的硬件升級和技術(shù)重構(gòu)將導(dǎo)致沉沒成本風(fēng)險。

相較之下,公有云服務(wù)通過按需付費的彈性模式,既規(guī)避了前期重資產(chǎn)投入,又能即時獲取最新模型能力,在成本效益與技術(shù)前瞻性之間實現(xiàn)了最優(yōu)平衡。在亞馬遜云科技平臺上,目前可以用四種方式部署DeepSeek-R1及其蒸餾模型。

第一種,在Amazon Bedrock Marketplace部署DeepSeek-R1模型,這是上手最快的方式,目前6個蒸餾模型也全都可選。

第二種,通過Amazon SageMaker JumpStart部署DeepSeek-R1的6個蒸餾模型。JumpStart給了開發(fā)著更多權(quán)限和操作空間,這種方法適合機器學(xué)習(xí)專家。

第三種,利用Amazon Bedrock的自定義模型導(dǎo)入功能部署DeepSeek-R1-Distill模型,上圖展示的是導(dǎo)入蒸餾的8B Llama模型,這種方式提供了多樣化的模型選擇。

第四種,則是租賃Amazon EC2實例來部署DeepSeek R1模型,理論上可以部署任意規(guī)模的模型,這種方式有超高的自由度,但技術(shù)難度也最大。

亞馬遜云科技打通從部署DeepSeek模型到構(gòu)建應(yīng)用的全流程

除了可以部署大語言模型,亞馬遜云科技還可以作為大語言模型的誕生地,作為生成式AI大語言模型運行的最佳場所。隨著DeepSeek上架到亞馬遜云科技,這便打通從部署DeepSeek模型到構(gòu)建應(yīng)用的全流程。

具體而言,可以分為三個方面:

第一,亞馬遜云服務(wù)為模型訓(xùn)練提供便利。

亞馬遜云科技不僅用英偉達的高性能顯卡打造了P5、P4d等用于訓(xùn)練的P系列實例,還推出了基于自研Trainium芯片的Trn系列實例,它能提供更高的性價比。EC2實例搭配UltraCluster網(wǎng)絡(luò)架構(gòu),可以構(gòu)建大規(guī)模集群來高效地訓(xùn)練大語言模型。

不久前,亞馬遜云科技推出了新一代Amazon SageMaker,集成了數(shù)據(jù)分析、大數(shù)據(jù)處理等功能。其中,Amazon SageMaker AI部分可以幫助用戶完成模型的開發(fā)、訓(xùn)練和部署的全流程。讓大語言模型在云上誕生。

第二,亞馬遜云服務(wù)提供了多樣的模型選擇。

橫空出世的DeepSeek V3和DeepSeek R1模型帶來的影響還在持續(xù)發(fā)酵,超低的成本和超高的智能水平讓更多人意識到,模型創(chuàng)新還遠沒有結(jié)束。作為技術(shù)的使用者,需要掌握選擇模型的權(quán)利。

亞馬遜云科技提供了多種模型供用戶選擇,不僅可以提供來自AI21 Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI、Luma AI、poolside、Luma AI等領(lǐng)先廠商的模型,自己也開發(fā)了Amazon Nova系列大模型。

企業(yè)在基于大模型構(gòu)建應(yīng)用時,需要綜合考慮延遲、成本、微調(diào)能力、知識庫協(xié)調(diào)能力、多模態(tài)支持等多方面能力等。比如,當(dāng)需要快速響應(yīng)場時,就不要開啟DeepSeek R1的深層思考模式。當(dāng)需要文生圖的能力時,DeepSeek-V3這種文生文模型也并不適用。

第三,亞馬遜云服務(wù)提供了各種構(gòu)建模型的功能服務(wù)。

選好模型之后,還有很多工程化難題也亟待解決。Amazon Bedrock提供多種工具服務(wù),可以讓包括DeepSeek-R1在內(nèi)的領(lǐng)先模型都能輕松獲取這些實用功能,并由此進入構(gòu)建應(yīng)用的快車道。

Amazon Bedrock可以優(yōu)化模型推理的效果,降低延遲和成本。它提供的延遲優(yōu)化推理、模型蒸餾、提示詞緩存等都可以提高推理效率。模型蒸餾可以將速度最快可提高500%,成本降低75%,DeepSeek-R1的六個蒸餾模型就是典型的蒸餾后的模型。

Amazon Bedrock幫企業(yè)利用自己的數(shù)據(jù)。模型微調(diào)功能,RAG知識庫,以及新的GraphRAG知識圖譜功能,都能幫助企業(yè)利用自己的數(shù)據(jù),把數(shù)據(jù)給到模型,讓模型更懂企業(yè)的業(yè)務(wù),從而提高模型的表現(xiàn)。

Amazon Bedrock幫用戶解決安全問題。Amazon Bedrock不斷豐富其Guardrails功能,以簡化企業(yè)實施負責(zé)任AI的投入,例入為其加入自動推理檢查功能,從而能夠輕松識別事實性錯誤,以提升生成回答的準確性。

Amazon Bedrock幫助其企業(yè)快速落地多智能體。Amazon Bedrock提供了智能體功能和多智能體協(xié)作功能,智能體可以執(zhí)行相對復(fù)雜的工作,多智能體協(xié)作功能可以通過編排多個并行工作的智能體來加速任務(wù)。

亞馬遜CEO Andy Jassy分享了亞馬遜部署AI時的三個洞察。首先,隨著生成式AI應(yīng)用規(guī)模的擴大,計算成本變得至關(guān)重要,人們渴望獲得更高的性價比;其次,構(gòu)建一個真正優(yōu)秀的生成式AI應(yīng)用實際上非常困難;第三,開發(fā)者想要自由選擇他們想要使用的模型,因為永遠不會有單一的工具能夠統(tǒng)治世界。

分享到

zhupb

相關(guān)推薦