螞蟻數(shù)字科技事業(yè)部云原生產(chǎn)品總監(jiān)馬振雄

螞蟻數(shù)字科技事業(yè)部云原生產(chǎn)品總監(jiān)馬振雄對(duì)當(dāng)前數(shù)據(jù)智能時(shí)代企業(yè)面臨的三大趨勢(shì)以及螞蟻的對(duì)策進(jìn)行了分析和解讀。

AI時(shí)代的三大趨勢(shì)與螞蟻的對(duì)策

趨勢(shì)之一:全面上云與多云多芯帶來(lái)的復(fù)雜管控

從天然云原生的互聯(lián)網(wǎng),到傳統(tǒng)行業(yè)開(kāi)始轉(zhuǎn)變觀念逐漸上云,如今,傳統(tǒng)行業(yè)進(jìn)入全面上云階段,除了外圍系統(tǒng)上云,最重要的核心系統(tǒng)也在陸續(xù)上云。

在技術(shù)上,大量復(fù)雜的異構(gòu)系統(tǒng),包括資源的異構(gòu)、應(yīng)用架構(gòu)的異構(gòu)、云形態(tài)的異構(gòu),成為平滑統(tǒng)一上云的障礙。大型企業(yè)會(huì)采取多云戰(zhàn)略,把雞蛋分散在不同的籃子里,同時(shí),隨著國(guó)產(chǎn)化信創(chuàng)改造過(guò)程的深入,業(yè)務(wù)應(yīng)用也會(huì)面臨多芯的選擇。因此,多云多芯也成為企業(yè)IT發(fā)展的重要選擇。

在資金方面,從傳統(tǒng)應(yīng)用架構(gòu)走向云原生的應(yīng)用架構(gòu),還要面對(duì)原有投資的巨大浪費(fèi)與新增大量的改造成本需求。

這些挑戰(zhàn)嚴(yán)重阻礙上云進(jìn)程。

在自身實(shí)踐經(jīng)驗(yàn)的基礎(chǔ)上,螞蟻定義了下一代的統(tǒng)一資源調(diào)度架構(gòu)——打通虛擬化和容器層的資源池,將原有上下疊加的關(guān)系改變?yōu)楣渤仃P(guān)系,用統(tǒng)一的引擎去調(diào)度,通過(guò)屏蔽復(fù)雜異構(gòu)的資源管理,同時(shí)讓?xiě)?yīng)用能夠在統(tǒng)一的操作系統(tǒng)之上納管,使得性能得到更大提升,同時(shí)降低了碎片化,資源利用率更高。

同時(shí),螞蟻也嘗試定義了一個(gè)新的應(yīng)用的上云路徑,利用Service Mesh的能力,幫助企業(yè)在應(yīng)用不改造的情況下,快速獲得云原生最佳姿勢(shì)的架構(gòu)。

趨勢(shì)之二:AIGC大模型的火爆與算力緊缺

用AI的方式進(jìn)一步提高企業(yè)在運(yùn)營(yíng)、運(yùn)維、生產(chǎn)等各個(gè)業(yè)務(wù)環(huán)節(jié)的效能,尤其是用大規(guī)模AIGC結(jié)合上云提質(zhì)提效,成為更多企業(yè)的選擇。

然而,大模型的應(yīng)用也意味著對(duì)算力的需求。有調(diào)研數(shù)據(jù)顯示,AI的應(yīng)用對(duì)于GPU算力的需求每三個(gè)半月翻番。盡管每個(gè)企業(yè)都會(huì)配備一些GPU卡,但其利用率通常不足30%,尤其是國(guó)外芯片限制對(duì)我國(guó)出口的情況下,充分發(fā)掘GPU資源的潛力非常重要。

螞蟻的對(duì)策就是探索進(jìn)一步地把GPU資源進(jìn)行池化,最大化利用GPU資源,同時(shí)針對(duì)在線應(yīng)用、3D渲染類(lèi)的應(yīng)用進(jìn)行CPU和GPU的混合調(diào)度,深度支持更復(fù)雜、更異構(gòu)的業(yè)務(wù)的負(fù)載類(lèi)型。

趨勢(shì)之三:降本的同時(shí)實(shí)現(xiàn)減排

后疫情時(shí)代,實(shí)體經(jīng)濟(jì)發(fā)展有所下滑,但雙碳目標(biāo)和壓力也越來(lái)越緊迫,企業(yè)普遍采取人員、資源以及成本結(jié)構(gòu)等優(yōu)化措施推進(jìn)降本增效,在生產(chǎn)過(guò)程中關(guān)注原材料的選擇、能源的消耗以及產(chǎn)成品的回收利用等相關(guān)因素。

事實(shí)上,IT部門(mén)數(shù)據(jù)中心是一個(gè)主要的能耗存在。

螞蟻從科技布局的角度定義了自己的根技術(shù),針對(duì)不用的應(yīng)用環(huán)境采取相應(yīng)的對(duì)策。

在線應(yīng)用和離線應(yīng)用有明顯的錯(cuò)峰特征,白天主要面向在線類(lèi)計(jì)算應(yīng)用,晚上側(cè)重離線類(lèi)大數(shù)據(jù)的應(yīng)用。對(duì)此,螞蟻攻堅(jiān)在離線混部技術(shù),著手整合資源、提高部署密度,均衡有效地布局計(jì)算型與數(shù)據(jù)類(lèi)應(yīng)用的算力需求。

即使是在線應(yīng)用,也存在錯(cuò)峰情況。如早上起床后要搶螞蟻森林的能量,午餐支付用支付寶,下午股票收盤(pán)需要對(duì)基金行情查看和贖回,都會(huì)形成一陣新的高峰。螞蟻采取云原生分時(shí)調(diào)度技術(shù),進(jìn)行錯(cuò)峰的資源削峰填谷。

由于市場(chǎng)需求難精準(zhǔn)預(yù)測(cè),特別是遇有雙11或618大促來(lái)不及擴(kuò)容,很容易導(dǎo)致故障的發(fā)生。螞蟻利用AI對(duì)容量風(fēng)險(xiǎn)識(shí)別和智能彈性擴(kuò)縮,資源利用率從9%提升了到近40%,每年節(jié)省超500萬(wàn)度電,減少了1600多噸碳排放。

在離線混部技術(shù)、云原生分時(shí)調(diào)度、AI彈性容量這三個(gè)法寶,組成了螞蟻綠色計(jì)算的技術(shù)核心,讓SOFAStack變得更綠色。

持續(xù)深化人工智能技術(shù)的應(yīng)用

除了應(yīng)對(duì)上述三大趨勢(shì),螞蟻還將人工智、大模型能深入應(yīng)用到研發(fā)領(lǐng)域。

為了支持應(yīng)用在上云之后能夠更平滑、穩(wěn)定的運(yùn)行,螞蟻正在借助AI技術(shù)推進(jìn)云原生的應(yīng)用實(shí)現(xiàn)“自動(dòng)駕駛”。通過(guò)引入人工智能技術(shù)識(shí)別、對(duì)比基線,去禁入和限流,引導(dǎo)流量的壓力水位快速、自動(dòng)下降到健康的區(qū)間。一旦流量異常情況危險(xiǎn)警報(bào)得到解除,限流智能模塊將自動(dòng)退出。整個(gè)過(guò)程對(duì)于運(yùn)維人員和終端用戶是無(wú)感的。

馬振雄認(rèn)為,大模型可以產(chǎn)生重復(fù)性、相似度比較高的代碼,顯著提升研發(fā)效能,并帶來(lái)顛覆性的重構(gòu)機(jī)會(huì)。為此,螞蟻?zhàn)匝辛?40億參數(shù)的代碼大模型,支持Java、Python、C++等40多個(gè)主流的編程語(yǔ)言。對(duì)于開(kāi)發(fā)人員,通過(guò)大模型支持一鍵生成代碼,自動(dòng)介入、干預(yù),推薦、補(bǔ)全背后的業(yè)務(wù)邏輯的增刪改查的重復(fù)度比較高的代碼并一鍵生成注釋?zhuān)€能夠?qū)Υa進(jìn)行深度分析,提出優(yōu)化建議,提高代碼質(zhì)量;對(duì)于架構(gòu)人員,通過(guò)自然語(yǔ)言的描述和交互生成業(yè)務(wù)領(lǐng)域與應(yīng)用架構(gòu)的建模,一鍵生成所需代碼模塊的初始代碼;對(duì)于測(cè)試人員,在設(shè)計(jì)階段可通過(guò)自然語(yǔ)言的描述快速生成測(cè)試的需求和案例,在開(kāi)發(fā)階段生成單元測(cè)試案例和接口的測(cè)試案例,同時(shí)捕捉整個(gè)生產(chǎn)環(huán)境的流量進(jìn)行完整的業(yè)務(wù)建模的還原;對(duì)于運(yùn)維人員,從發(fā)現(xiàn)故障到定位原因,再到恢復(fù)故障提供智能監(jiān)控、智能異常告警和智能的根因定位以及智能的自愈等能力,實(shí)現(xiàn)技術(shù)風(fēng)險(xiǎn)防控(SRE)全面的智能化升級(jí)。

SOFAStack5.0的內(nèi)涵、成果與責(zé)任

通過(guò)完整的智能的大模型和AIGC的能力的升級(jí),SOFAStack變得更智能;通過(guò)統(tǒng)一的下一代的資源調(diào)度的架構(gòu)和Service Mesh,可幫助應(yīng)用更好平滑的上云路徑;通過(guò)定義一個(gè)讓SOFA變得更多云的形態(tài),增強(qiáng)計(jì)算環(huán)境、軟件供應(yīng)安全和整個(gè)應(yīng)用層面不同維度的安全能力,讓SOFAStack變得更可信,最終實(shí)現(xiàn)智能、綠色、可信和多云。

這4個(gè)關(guān)鍵詞組成SOFAStack5.0的內(nèi)涵。

對(duì)SOFAStack缺乏了解的人,可以這么理解:如果企業(yè)是一臺(tái)計(jì)算機(jī),那么SOFAStack就是這計(jì)算機(jī)上大規(guī)模、高性能、智能化應(yīng)用的操作系統(tǒng)。它以性能、成本、效能、高可用、安全、可信的能力支撐起企業(yè)信息系統(tǒng)高效、安全地運(yùn)轉(zhuǎn)。

2007年,在互聯(lián)網(wǎng)金融驅(qū)動(dòng)業(yè)務(wù)增長(zhǎng)的時(shí)代,螞蟻開(kāi)始布局分布式云原生領(lǐng)域,并將長(zhǎng)期積累的成果形成SOFAStack。它定位于一個(gè)統(tǒng)一的、跨云的PaaS平臺(tái)。這個(gè)跨云的PaaS平臺(tái)向下屏蔽異構(gòu)IaaS,兼容物理機(jī)、虛擬機(jī)、OpenStack云、各種云以及國(guó)產(chǎn)主機(jī)、信創(chuàng)等不同類(lèi)型的基礎(chǔ)資源,客戶無(wú)需關(guān)注底層資源,即可實(shí)現(xiàn)統(tǒng)一的納管支撐以及統(tǒng)一的調(diào)度;向上支持異構(gòu)應(yīng)用,無(wú)論是單體式應(yīng)用還是分布式架構(gòu),無(wú)論采用何種開(kāi)發(fā)語(yǔ)言編寫(xiě)、用何種開(kāi)發(fā)框架來(lái)進(jìn)行組裝、用何種協(xié)議來(lái)進(jìn)行通信,都可以在這個(gè)統(tǒng)一的PaaS上進(jìn)行統(tǒng)一的管理和治理。

SOFAStack以一整套的技術(shù)產(chǎn)品成為當(dāng)前布局最廣泛、最成熟和完善的技術(shù)平臺(tái)。

從業(yè)務(wù)的梳理、設(shè)計(jì)、建模到應(yīng)用的架構(gòu)設(shè)計(jì)、開(kāi)發(fā)、測(cè)試、發(fā)布、運(yùn)行、監(jiān)控和運(yùn)維以及容災(zāi)過(guò)程,SOFAStack實(shí)現(xiàn)了完整的生命周期覆蓋,幫助企業(yè)構(gòu)建更加綠色、智能的能力,提升上層業(yè)務(wù)的穩(wěn)定性以及可能性。

這些能力也抽象出來(lái)了一套金融級(jí)云原生方法論。

螞蟻集團(tuán)數(shù)字科技事業(yè)群云原生科技部總經(jīng)理王磊

螞蟻集團(tuán)數(shù)字科技事業(yè)群云原生科技部總經(jīng)理王磊回顧了SOFAStack從誕生開(kāi)始就不斷在金融支付交易等領(lǐng)域深入合作、探索,把技術(shù)能力賦能整個(gè)行業(yè),支持關(guān)鍵領(lǐng)域和系統(tǒng)的全面上云、自主可控,降低成本,在金融行業(yè)從信息化、數(shù)字化到如今智能化的三次躍遷過(guò)程中展示自己的能力和價(jià)值。

時(shí)至今日,SOFAStack在金融行業(yè)市場(chǎng)占有率位居第一,客戶覆蓋了銀行、保險(xiǎn)、證券、基金100多家重點(diǎn)領(lǐng)域,包括工農(nóng)中建交等國(guó)有大行,8家股份制銀行中以及大量的城市商業(yè)銀行、農(nóng)村信用社;其中典型案有交通銀行核心大機(jī)的x86遷移,富滇銀行的國(guó)產(chǎn)化替代,以及四川農(nóng)信全面的數(shù)字化轉(zhuǎn)型,它們都是基于SOFAStack以及相關(guān)云基礎(chǔ)設(shè)施構(gòu)建起一整套數(shù)字化的基礎(chǔ)平臺(tái)。

目前,SOFAStack也已經(jīng)在能源、電力、交通、政務(wù)、運(yùn)營(yíng)商以及公共科技等關(guān)鍵的國(guó)家重點(diǎn)行業(yè)、重點(diǎn)領(lǐng)域發(fā)揮著重要的作用。

 “在過(guò)去的18年,螞蟻集團(tuán)通過(guò)對(duì)上層顯著復(fù)雜性和多樣化的各樣業(yè)務(wù)不斷地進(jìn)行技術(shù)鉆研和攻關(guān),打造出了SOFAStack這個(gè)云原生分布式的技術(shù)平臺(tái),成為面向未來(lái)最核心的根技術(shù)能力之一?!蓖趵谄诖齋OFAStack進(jìn)一步能夠走向全行業(yè),賦能更多的企業(yè),完成云原生的升級(jí)和數(shù)字化的改造。

SOFAStack不僅僅簡(jiǎn)單是一個(gè)金融行業(yè)的基礎(chǔ)設(shè)施,在未來(lái)也是整個(gè)中國(guó)機(jī)構(gòu)數(shù)字化的關(guān)鍵核心力量。

分享到

xiesc

相關(guān)推薦