DeepSeek模型性能優(yōu)異、廣受關注
DeepSeek近期在全球范圍內(nèi)廣受關注,其推理模型DeepSeek-R1發(fā)布即開源,在后訓練階段大規(guī)模使用了強化學習技術,在僅有極少標注數(shù)據(jù)的情況下,極大提升了模型推理能力。在數(shù)學、代碼、自然語言推理等任務上,性能比肩OpenAI o1 正式版。
同時,DeepSeek-R1 遵循 MIT License,允許用戶通過蒸餾技術借助 R1 訓練其他模型。蒸餾模型DeepSeek-R1-Distill參數(shù)規(guī)模更小,推理成本更低,基準測試同樣表現(xiàn)出色。
而12月發(fā)布的通用模型DeepSeek-V3在推理速度上相較歷史模型有了大幅提升。在目前大模型主流榜單中,DeepSeek-V3在開源模型中位列榜首,與當前領域內(nèi)最先進的閉源模型不分伯仲。
騰訊云TI平臺現(xiàn)已全面上架DeepSeek系列模型。用戶可進入“TI平臺-大模型廣場”,點擊DeepSeek系列模型卡片,了解模型信息,進行在線體驗和一鍵部署。
在TI平臺免費體驗DeepSeek
騰訊云TI平臺限時免費開放DeepSeek的在線體驗功能,支持 DeepSeek-R1 和 DeepSeek-R1-Distill-Qwen-1.5B 兩款模型,便于開發(fā)者直觀比較“最大杯”和“最小杯”的性能差異。進入DeepSeek系列模型頁面后,選擇上方Tab即可進入在線對話體驗頁面。
用戶還可以使用同一問題對上述兩款模型進行簡單對比測試。比如提問:“在我的廚房里,有一張桌子,上面放著一個杯子,杯子里有一個球。我把杯子移到了臥室的床上,并將杯子倒過來。然后,我再次拿起杯子,移到了主房間?,F(xiàn)在,球在哪里?”
DeepSeek-R1-Distill-Qwen-1.5B 的回答:
DeepSeek-R1的回答:
從回答對比可以看出,擁有更大參數(shù)量的DeepSeek-R1模型在效果上更勝一籌,其正確推理出了杯子倒扣時球會掉出并留在臥室的床上,不會隨著杯子移動至主房間。而參數(shù)量較小的DeepSeek-R1-Distill-Qwen-1.5B模型認為球仍在原來的桌子中。
對于復雜任務而言,擁有更大參數(shù)量的R1模型會更有優(yōu)勢,但推理成本也會更高。更小參數(shù)的R1-Distill系列模型,響應速度更快,推理成本也會更低,在處理較為簡單的任務時仍是不錯的選擇。
在TI平臺一鍵部署專屬DeepSeek推理服務
對于需要將DeepSeek接入AI應用的開發(fā)者,TI平臺提供一鍵部署功能,可快速將DeepSeek發(fā)布為推理服務。進入DeepSeek系列模型頁面后,選擇點擊上方的“新建在線服務”按鈕,將會自動跳轉(zhuǎn)至“在線服務”模塊,發(fā)起模型部署。平臺支持多種計費模式:
按量計費:對于僅需短時體驗的用戶,可以直接從TIONE購買算力,并選用“按量計費”模式;
包年包月:對于已購買CVM機器或需要長時間體驗的用戶,推薦選用自有的CVM機器作為推理算力。
在算力配置方面,“滿血版”DeepSeek-R1總參數(shù)量高達671B,推薦使用騰訊云上的2臺8卡HCCPNV6機型進行服務部署,以獲得穩(wěn)定業(yè)務體驗。蒸餾后的DeepSeek-R1-Distill-Qwen-1.5B模型參數(shù)量為1.5B,單張中端GPU卡即可部署服務。開發(fā)者可根據(jù)業(yè)務復雜度選擇合適的模型進行測試。
開發(fā)者在TI平臺完成模型部署后,可在線體驗模型效果,平臺也支持以調(diào)用API的方式接入AI應用。
詳細部署和測試可參考TI平臺官網(wǎng)提供的實踐教程:
https://cloud.tencent.com/document/product/851/115962
TI平臺為大模型開發(fā)和運營提供一站式服務
在部署服務之外,騰訊云TI平臺為用戶提供從數(shù)據(jù)處理、模型訓練、模型評測到模型部署的全流程支持,內(nèi)置多種訓練方式和算法框架,可以滿足不同 AI 應用場景的需求。
在數(shù)據(jù)處理層面,騰訊云TI平臺沉淀了來自騰訊優(yōu)圖實驗室的算法專家清洗大模型訓練數(shù)據(jù)的優(yōu)質(zhì)Pipeline,支持開箱即用。TI平臺面向大語言模型和多模態(tài)大模型的標注工具非常靈活,基于數(shù)據(jù)集 Schema,可完全自定義工作臺,支持的大模型標注場景涵蓋所有文生文、圖生文類的場景。
在精調(diào)訓練階段,騰訊云TI平臺內(nèi)置了主流開源模型,用戶可以一鍵發(fā)起精調(diào)任務。通過硬件容錯、容器調(diào)度、任務斷點續(xù)訓的三層保障機制,平臺確保大規(guī)模訓練任務的穩(wěn)定性。另外,借助騰訊自研的Angel加速機制,騰訊云TI平臺整體提升了訓練性能30%,不僅加快了大模型的精調(diào)過程,還有效降低了資源消耗。
在模型驗證階段,騰訊云TI平臺還提供了一整套完善的模型評測工具,包括在線輕量體驗、客觀評測以及主觀評測。這些評測功能讓企業(yè)能夠根據(jù)實際業(yè)務需求,對模型效果進行全方位的驗證,確保在應用場景中的高效表現(xiàn)。
與此同時,騰訊云TI平臺已完成對國產(chǎn)計算卡的適配,有效滿足了相關企業(yè)對安全性和獨立性的高標準要求。TI平臺最新支持異構算力的統(tǒng)一納管,實現(xiàn)了ARM架構和X86架構芯片服務器算力資源可通過一個控制臺進行統(tǒng)一納管,在算力資源緊張的情況下,幫助客戶最大限度整合現(xiàn)有資源。
目前,騰訊云TI平臺已經(jīng)在金融、出行、政務、醫(yī)療、工業(yè)、零售等多個行業(yè)落地應用。通過優(yōu)化AI 模型生產(chǎn)流程、提升 AI 業(yè)務運營效率,幫助企業(yè)實現(xiàn)降本增效。比如某自動駕駛企業(yè)借助騰訊云TI平臺,基于數(shù)百張 GPU 卡實現(xiàn)了穩(wěn)定高效的自駕感知模型訓練,整體訓練性能實測提升近40%。