CDP不僅提供了一種自助式數(shù)據(jù)體驗,使數(shù)據(jù)科學(xué)家,數(shù)據(jù)工程師,商業(yè)分析師和開發(fā)人員能夠容易地訪問和分享數(shù)據(jù)。而且還提供了一個完整的機器學(xué)習(xí)工作流,使得數(shù)據(jù)科學(xué)家和機器學(xué)習(xí)工程師可以更快地構(gòu)建和部署模型。
Cloudera 大中華區(qū)技術(shù)總監(jiān)劉隸放表示,Cloudera是一家值得信任的幫助別人管理數(shù)據(jù)的公司,Cloudera的平臺上面管理的數(shù)據(jù)已經(jīng)超過2500萬TB,其規(guī)模與很多云服務(wù)商的整個數(shù)據(jù)體量相當(dāng)。
在劉隸放看來,Cloudera(肯睿)在幫助企業(yè)落地大語言模型方面有獨特優(yōu)勢。
首選,企業(yè)用戶不會直接用公有云上的大模型,這些模型有很多都是根據(jù)互聯(lián)網(wǎng)上的數(shù)據(jù)訓(xùn)練而來的。企業(yè)會基于自己的數(shù)據(jù)做訓(xùn)練,這些數(shù)據(jù)跟企業(yè)的關(guān)聯(lián)性更高,訓(xùn)練出的模型的實用性也更強。巧的是,用戶的很多數(shù)據(jù)原本就在Cloudera的平臺上。
第二點,Cloudera可以幫助企業(yè)落得更值得信任的大語言模型。ChatGPT的AI幻覺問題很明顯,當(dāng)沒有對應(yīng)的答案時,它經(jīng)常會“一本正經(jīng)的胡說八道”。Cloudera一直在做大數(shù)據(jù)分析,盡量在保持原始數(shù)據(jù)的基礎(chǔ)上來加工,對于輸出的結(jié)果還會有一個印證的過程,它可以利用大數(shù)據(jù)分析的能力對AI輸出的答案進行分析和驗證。
如今,Cloudera提供可部署在本地和公有云的數(shù)據(jù)平臺,過去兩年來,Cloudera一直在宣傳在數(shù)據(jù)編織的基礎(chǔ)上面,幫助用戶去做數(shù)據(jù)的治理和管控。同時,也在強調(diào)數(shù)據(jù)庫、數(shù)據(jù)湖、數(shù)據(jù)倉庫融合等技術(shù)的優(yōu)勢。而現(xiàn)在,Cloudera的平臺將轉(zhuǎn)向去成為一個AI平臺。
Cloudera的AI平臺CML(CDP Machine Learning)可以分為三個部分:
首先,就是以CDP為基礎(chǔ)的數(shù)據(jù)平臺,這里有很多用戶數(shù)據(jù);
第二部分,它可以幫助用戶加工用于訓(xùn)練的數(shù)據(jù),這套加工數(shù)據(jù)的流程原本用在大數(shù)據(jù)流程中,AI也同樣需要對數(shù)據(jù)進行加工處理;
第三部分,它可以托管和運行大語言模型,并在模型的基礎(chǔ)上,構(gòu)建和部署AI應(yīng)用。
劉隸放表示,憑借在數(shù)據(jù)技術(shù)方面安全可控的優(yōu)勢,CML用戶也吸引了很多用戶。目前,很多國內(nèi)的企業(yè)用戶都在思考如何落地大語言模型,Cloudera的CML平臺可以讓用戶在有管控的情況下來部署大語言模型。
除了在大語言模型方面的新布局,Cloudera還介紹了監(jiān)控和優(yōu)化CDP部署的新服務(wù),叫做Cloudera Observability。
Cloudera Data Platform (CDP)是一個可以跨私有云和公有云部署的平臺,實際部署中,可能分布在多個基礎(chǔ)架構(gòu)上。在如今復(fù)雜系統(tǒng)架構(gòu)中,想僅僅通過監(jiān)控來掌握所有情況絕非易事,很多時候都會影響資源利用率和性能表現(xiàn)。
此外,由于數(shù)據(jù)和分析都是在混合云上完成的,這對財務(wù)管理也帶來了很大挑戰(zhàn)。將預(yù)算按照團隊或者場景劃分都會很需要會計做很多工作,預(yù)測未來支出也會更麻煩??傊?,財務(wù)管理綿連的挑戰(zhàn)也非常巨大。
此前,Cloudera有一個產(chǎn)品叫Workload Management,它主要是做工作負載調(diào)優(yōu)的,但是在現(xiàn)在混合云的環(huán)境之下,光有調(diào)優(yōu)是不夠的。于是就有了Cloudera Observability ,它可以幫助企業(yè)解決上述問題。
Cloudera Observability 有助于提高系統(tǒng)的可控性和穩(wěn)定性。當(dāng)系統(tǒng)越來越復(fù)雜,對運維人員的技能要求也越來越高,在排查故障,找出問題時的難度也越來越高。而Cloudera Observability 可以減輕運維人員的負擔(dān),從而提高系統(tǒng)的可控性和穩(wěn)定性。
Cloudera Observability 可以提高對于系統(tǒng)資源的管控,多云環(huán)境下的資源經(jīng)常會收縮或者膨脹,資源是在不同動態(tài)的變化當(dāng)中,運維人員希望在運維過程中,對于系統(tǒng)資源的消耗有一個評判的標(biāo)準(zhǔn),從而找到負載的優(yōu)化方向。
Cloudera Observability可以提高財務(wù)管控能力,以系統(tǒng)監(jiān)控和數(shù)據(jù)分析技術(shù)為基礎(chǔ),幫助企業(yè)管理IT資源的使用成本,從財務(wù)角度出發(fā),對整個系統(tǒng)的資源使用狀況做一個評判,從而幫助企業(yè)更好地管理IT資源的使用狀況。
目前,Cloudera Observability是SaaS版本,直接部署在公有云上的,從劉隸放的介紹中了解到,Cloudera很快還會推出一個本地的部署版,更適合那些行業(yè)監(jiān)管嚴格,對數(shù)據(jù)敏感的用戶,它可以在本地做分析。