除了可信方面的問題,IBM認(rèn)為,想要隨心所欲地使用生成式AI還是很困難的,想要在企業(yè)落地的話,還要具備企業(yè)就緒和開放可擴(kuò)展這兩大要素。
在IBM大中華區(qū)首席技術(shù)官、研發(fā)中心總經(jīng)理謝東看來,企業(yè)手里的數(shù)據(jù)要如何利用起來,大模型要怎么選,要利用什么技術(shù)來開發(fā)大模型,要如何利用大模型開發(fā)出對應(yīng)的應(yīng)用,這些都是非?,F(xiàn)實(shí)的問題。
大體上,模型規(guī)模越大效果會更好,但站在企業(yè)的角度看,模型并非越大越好。謝東解釋說,因?yàn)?,?dāng)模型規(guī)模越大時,成本也相應(yīng)提高,此時,企業(yè)會看重模型是否能滿足企業(yè)的特定任務(wù)需求,如果可以滿足需求,那么出于成本的考慮,模型規(guī)模越小越好。
除此之外,想要在企業(yè)落地大模型,還需要了解企業(yè)的專業(yè)知識來解決具體的問題,而這些要解決的問題本身其實(shí)是不斷變化的,所以,就要求模型有持續(xù)學(xué)習(xí)的能力,讓系統(tǒng)能夠不斷學(xué)習(xí)和進(jìn)化,能力能夠不斷擴(kuò)展。
深度學(xué)習(xí)模型做不到這點(diǎn),一個深度學(xué)習(xí)模型對應(yīng)一個垂直的應(yīng)用,而現(xiàn)在的基礎(chǔ)模型則完全不同,企業(yè)可以基于一個基礎(chǔ)模型演化出不同的應(yīng)用。想要基于基礎(chǔ)模型來開發(fā)不同的應(yīng)用需要新的工具,新的自動化方法來訓(xùn)練、調(diào)試和部署模型,于是,IBM發(fā)布了watsonx。
IBM以前所未有的速度推出了watsonx
2023年8月22日,IBM在北京面向中國市場發(fā)布新一代AI與數(shù)據(jù)平臺watsonx,發(fā)布會上,IBM大中華區(qū)董事長、總經(jīng)理陳旭東坦言,IBM是以前所未有的速度推出了watsonx。
2022年年底,ChatGPT橫空出世,2023年5月,IBM在全球發(fā)布watsonx。對于IBM這種規(guī)模的公司來說,這種速度并不多見。
原因很簡單,IBM在人工智能領(lǐng)域的探索和貢獻(xiàn)可以追溯到上世紀(jì)五十年代。
從跳棋人機(jī)大戰(zhàn)到國際象棋人機(jī)大戰(zhàn),再到2011年做知識競賽,再到2019年人工智能辯手,IBM從沒有放下這項(xiàng)以創(chuàng)始人名字命名的人工智能品牌。
watsonx 是IBM 的企業(yè)級 AI 和數(shù)據(jù)平臺,它可以幫助企業(yè)充分利用基礎(chǔ)模型和機(jī)器學(xué)習(xí),減輕落地人工智能的工作負(fù)擔(dān),使企業(yè)能夠更輕松地大規(guī)模開發(fā)、調(diào)整和部署企業(yè)就緒的AI,而且是值得信任的AI。
watsonx包含watsonx.data,watsonx.ai和watsonx.governance三大部分:
watsonx.data負(fù)責(zé)為人工智能準(zhǔn)備數(shù)據(jù),它提供的企業(yè)內(nèi)部數(shù)據(jù)的管理系統(tǒng),可以高效地把數(shù)據(jù)喂給人工智能訓(xùn)練系統(tǒng)。
watsonx.ai主要用來訓(xùn)練、驗(yàn)證、調(diào)優(yōu)、部署AI模型的,同時還可以用于開發(fā)人工智能應(yīng)用。
watsonx.governance的主要功能是做企業(yè)級AI的治理和監(jiān)管,幫助企業(yè)實(shí)現(xiàn)數(shù)據(jù)合規(guī)和內(nèi)容合規(guī),以滿足越來越多的行業(yè)監(jiān)管和法律要求。
watsonx如何幫助企業(yè)落地可信的生成式AI?
在數(shù)據(jù)準(zhǔn)備,訓(xùn)練模型,驗(yàn)證模型,微調(diào)模型,把模型部署在應(yīng)用和解決方案的過程中,watsonx發(fā)揮了什么作用呢?又是如何幫助企業(yè)落地可信的生成式AI?
為了減少AI幻覺,讓生成的結(jié)果更可靠,IBM有一整套工具和方法論。
從謝東的介紹中了解到,從數(shù)據(jù)準(zhǔn)備階段開始,watsonx會確保數(shù)據(jù)是干凈合規(guī)的,數(shù)據(jù)本身的完整性要足夠,信息量也要合乎要求。
在訓(xùn)練階段,watsonx會清楚地顯示用于訓(xùn)練模型所有的數(shù)據(jù),追蹤模型的每一個版本,甚至可以透明告訴用戶模型是由哪些數(shù)據(jù)訓(xùn)練出來的,以此增強(qiáng)用戶對模型的信心。
在隨后的微調(diào)階段,watsonx可以監(jiān)督模型產(chǎn)生的內(nèi)容是否可用,是符合人的常識,是否符合人的倫理道德。
IBM的watsonx在整個流程里,都盡可能讓生成式AI生成更可信的內(nèi)容。
通常,AI流程都是從準(zhǔn)備數(shù)據(jù)開始的,watsonx.data可以幫助企業(yè)將位于公有云、本地和其他基礎(chǔ)設(shè)施中的數(shù)據(jù)連接起來,讓企業(yè)輕松訪問到各種數(shù)據(jù)。
從謝東的介紹中了解到,IBM的watsonx.data已經(jīng)收集了數(shù)PB的數(shù)據(jù),這些數(shù)據(jù)都被處理成了可用于訓(xùn)練的形式。當(dāng)然,在此基礎(chǔ)上,用戶可以加入自己的數(shù)據(jù)。
值得一提的是,所有存儲在watsonx.data里的數(shù)據(jù),還都帶有每個文件的詳細(xì)元數(shù)據(jù),還會創(chuàng)建數(shù)據(jù)的名片,這為數(shù)據(jù)的追溯治理提供了很大便利。
watsonx.data里的數(shù)據(jù)會按照不同類別進(jìn)行分類,比如英語、漢語、德語等自然語言,以及Java、Cobol等編程語言做很多分類,還會對數(shù)據(jù)進(jìn)行過濾,刪除重復(fù)數(shù)據(jù)、刪除含有仇恨、辱罵、不雅言論的數(shù)據(jù),刪除含有私人信息的數(shù)據(jù)等等,準(zhǔn)備好用于訓(xùn)練的數(shù)據(jù)。
數(shù)據(jù)就緒后,開始用watsonx.ai來訓(xùn)練模型。
watsonx.ai的基礎(chǔ)模型庫提供了基于可信數(shù)據(jù)訓(xùn)練的基礎(chǔ)模型,用戶可以在五大類基礎(chǔ)模型中進(jìn)行選擇。watsonx.ai還提供了訓(xùn)練用的算力支持,可以使用IBM在公有云上構(gòu)建的AI超級計(jì)算機(jī)Vela,它提供裸金屬級別的性能。
watsonx.ai會自動根據(jù)訓(xùn)練所需的計(jì)算資源進(jìn)行調(diào)整,隨著模型參數(shù)規(guī)模的不斷躍升,模型的訓(xùn)練任務(wù)越來越復(fù)雜,需要成百上千個GPU工作數(shù)天甚至數(shù)月。為了簡化使用體驗(yàn),watsonx.ai利用了業(yè)內(nèi)人士熟悉的各種開源技術(shù),還與Hugging face進(jìn)行了合作。
訓(xùn)練完成后,watsonx.ai還會運(yùn)行一組全面的基準(zhǔn)測試,用來評估模型在各種指標(biāo)上的表現(xiàn)。一旦模型在基準(zhǔn)測試中都達(dá)到閾值要求,它就被打包并標(biāo)記為可以使用的狀態(tài)。并且,watsonx.ai會給每個模型創(chuàng)建一個名片,名片里會列出模型的所有細(xì)節(jié)。
在對模型進(jìn)行微調(diào)時,用戶可以在watsonx.ai里設(shè)置微調(diào)的選項(xiàng)和方法,給模型指定要用于微調(diào)的數(shù)據(jù)和對應(yīng)的Prompt(提示詞),用戶獲得模型在Prompt(提示詞)下生成的結(jié)果。經(jīng)過多輪微調(diào)后,用戶可以得到一組比較理想的提示詞和對應(yīng)的微調(diào)后的模型。
最后在watsonx的幫助下,用戶可以將模型部署在公有云、本地或者邊緣設(shè)備當(dāng)中,在模型部署后,watsonx.governance會持續(xù)監(jiān)控著模型,如果有任何可能影響模型使用或性能的變化被watsonx.governance看到了,就會觸發(fā)一個對數(shù)據(jù)和模型進(jìn)行更新的進(jìn)程。