Stability AI創(chuàng)始人兼CEO Emad Mostaque的推文
Stable Diffusion是Stability AI旗下的一個開源項目,Emad Mostaque曾表示,訓(xùn)練該模型使用了256塊英偉達A100顯卡,耗費了15萬機時,花費了60萬美元的成本。
60萬美元多嗎?
其實不多。有人估算OpenAI GPT-3的訓(xùn)練成本大約是1200萬美元,相比之下,Stable Diffusion確實不算貴。
無論如何,對于大模型訓(xùn)練成本控制都非常重要,動輒百萬元規(guī)模的訓(xùn)練,必須要讓錢花在刀刃上。
筆者此前就注意到,Stable Diffusion是在亞馬遜云云科技上完成的訓(xùn)練。
2022年12月前后,Stability AI和亞馬遜云科技還宣布了合作關(guān)系,合作中提到使用亞馬遜云科技旗下的機器學(xué)習(xí)平臺Amazon SageMaker和亞馬遜云科技自研的機器學(xué)習(xí)訓(xùn)練芯片Trainium。
Amazon SageMaker可以提高機器學(xué)習(xí)的開發(fā)效率,Trainium可以降低機器學(xué)習(xí)的訓(xùn)練成本,配合大規(guī)模優(yōu)化的訓(xùn)練集群,能降低機器學(xué)習(xí)的訓(xùn)練周期。
據(jù)了解,Stability AI 使用 SageMaker 及其模型并行庫將訓(xùn)練時間和成本減少 58%,這些優(yōu)化和性能改進適用于具有數(shù)百或數(shù)千億參數(shù)的模型,對于成本控制非常有意義。
作為一名技術(shù)愛好者,我在本地電腦上用Stable Diffusion生成過大約幾百上圖片,也試過在Amazon Sagemaker平臺上跑過幾個Demo,訓(xùn)練過幾個機器學(xué)習(xí)模型,對兩個東西都稍有了解。
而我也知道,Stable Diffusion還在快速演化當(dāng)中,Stable Diffusion進化到了2.0版本,而亞馬遜云科技的Amazon Sagemaker也在不斷更新。
在三個月前的亞馬遜云科技峰會的re:Invent上,Amazon Sagemaker推出八項新功能,如果從2017年發(fā)布算起,六年來新增超過290項功能與特性。
Amazon Sagemaker的功能組件可謂是琳瑯滿目,有大概十幾種工具組成,每次打開Amazon Sagemaker都能看見一些新功能特性。
雖然功能很多,但是由于Amazon Sagemaker的產(chǎn)品設(shè)計簡潔明了,并且有詳盡的文檔,實際入門使用門檻很低,筆者認可Amazon Sagemaker推動機器學(xué)習(xí)普惠化的說法。
近日,全球市場研究機構(gòu)IDC發(fā)布《2022年亞太地區(qū)(不含日本)AI生命周期軟件工具和平臺供應(yīng)商評估》報告中把Amazon SageMaker放在了最右上角的“領(lǐng)導(dǎo)者”位置。
IDC MarketScape評估模型圖中,縱坐標(biāo)評估的是短期內(nèi)的市場表現(xiàn),橫坐標(biāo)評估的是未來三五年能否滿足市場需求的問題。另外,圓圈的大小表征的是市場規(guī)模大小,在模型圖中,亞馬遜云科技的整體優(yōu)勢明顯。
IDC報告指出,憑借在功能和產(chǎn)品、服務(wù)交付和增長方面的強大優(yōu)勢,Amazon SageMaker成為亞馬遜云科技有史以來推出的增長最快的云服務(wù)之一。
機器學(xué)習(xí)涉及一套復(fù)雜冗長且重復(fù)的工作流程,開發(fā)過程中確實需要一套穩(wěn)定的開發(fā)環(huán)境。
作為全球首個用于機器學(xué)習(xí)的集成開發(fā)環(huán)境(IDE),Amazon Sagamaker為客戶的數(shù)據(jù)準備、模型構(gòu)建、訓(xùn)練、評估、部署、MLOps和可信度提供端到端的完全托管服務(wù),為企業(yè)的整個機器學(xué)習(xí)生命周期提供支持。
Amazon Sagamaker推動機器學(xué)習(xí)能力的普惠,使開發(fā)人員、數(shù)據(jù)科學(xué)家和商業(yè)分析師能夠快速、輕松地準備數(shù)據(jù),并在規(guī)模上構(gòu)建、訓(xùn)練和部署高質(zhì)量的機器學(xué)習(xí)模型,為沒有機器學(xué)習(xí)經(jīng)驗的商業(yè)分析師提供的無代碼環(huán)境。
從技術(shù)不斷發(fā)展的眼光來看,隨著機器學(xué)習(xí)模型參數(shù)的規(guī)模越來越大,隨著訓(xùn)練所需算力的不斷提升,在本地搭建機器學(xué)習(xí)模型的做法顯得越來越不合時宜,公有云將是承載機器學(xué)習(xí)訓(xùn)練的重要載體。