在談到雙方合作時,王銳將英特爾和阿里巴巴的合作總結(jié)為早、大、深、廣四個方面,“早”指的是技術(shù)引入的時間早,“大”是指使用的規(guī)模大,“深”就是合作的程度深,而“廣”就是指合作范圍非常的廣。
云棲大會上,英特爾和阿里云回顧了雙方技術(shù)創(chuàng)新合作兩大亮點:容器和AI方面。
其中,云原生底層是容器技術(shù)生態(tài),容器是虛擬化技術(shù)之后IT業(yè)界的又一巨大創(chuàng)新,基于容器的云原生將會為IT架構(gòu)發(fā)展帶來巨大影響。而AI作為智能時代的技術(shù)引領(lǐng),也將在很大程度上影響未來社會發(fā)展,因此雙方在AI方面也有著深入的合作。
沙箱容器技術(shù)
2020年,阿里云發(fā)布了多款基于沙箱容器技術(shù)的云原生產(chǎn)品,阿里云容器產(chǎn)品負(fù)責(zé)人易立表示,沙箱容器技術(shù)主要是為了幫助金融、政府等行業(yè)用戶應(yīng)對容器部署帶來的安全問題,沙箱容器還可以為Serverless輕量、高效、敏捷的算力來充分釋放其彈性優(yōu)勢。
阿里云資深技術(shù)專家劉獎表示,阿里云沙箱容器是基于沙箱技術(shù)運行的容器服務(wù),沙箱技術(shù)要求在保證資源供給的前提下,保障安全、穩(wěn)定、效率以及彈性。為此,阿里云基于硬件虛擬化自研了輕量級虛擬化技術(shù),以此來提供沙箱隔離能力,并把沙箱隔離技術(shù)應(yīng)用到容器服務(wù),滿足容器服務(wù)的快速彈性、高效運行以及能快速拉起業(yè)務(wù)的需求。技術(shù)路線上,阿里云不僅和英特爾的Cloud-Hypervisor一起構(gòu)建沙箱技術(shù),也加入Kata社區(qū),共同打造構(gòu)建容器服務(wù)所需要的核心技術(shù)能力。
螞蟻集團資深技術(shù)專家/Kata Containers架構(gòu)委員會成員王旭表示,Kata Containers是螞蟻金服和英特爾一起來發(fā)布的開源項目,是螞蟻金服的runV和英特爾的Clear Containers合并而成的,Kata Containers用虛擬化來彌補容器技術(shù)在隔離性上的不足,將容器和虛擬化進行結(jié)合,在最近一年的開發(fā)重點是和英特爾的Cloud-Hypervisor一起去降低整個沙箱的消耗。
多位技術(shù)專家都看好開源以及圍繞開源生態(tài)帶來的積極意義,比如樹立業(yè)內(nèi)都認(rèn)可的標(biāo)準(zhǔn),能打造互通的云,能讓更多人都用得上開源技術(shù)。
加密計算容器技術(shù)
易立表示,為避免在對數(shù)據(jù)進行分析、處理、交換時,帶來的安全、隱私、合規(guī)問題,需要對數(shù)據(jù)進行加密。業(yè)內(nèi)通常是通過機密計算技術(shù),保證數(shù)據(jù)在處理過程中始終維持一個加密或隔離的狀態(tài),來保證數(shù)據(jù)的安全和隱私。
英特爾的SGX是一個非常成熟的機密計算技術(shù),從2018年開始,阿里云與英特爾合作推出了可信的執(zhí)行環(huán)境,但對于許多技術(shù)人員來說,直接使用英特爾的SGX SDK來開發(fā)應(yīng)用仍然具備一定的技術(shù)門檻,需要對整個應(yīng)用架構(gòu)進行重構(gòu)。為了進一步普及這項技術(shù),阿里云和螞蟻金服一起開源了加密計算容器,提升加密計算應(yīng)用的開發(fā)效率,降低使用門檻。
王旭指出,Occlum的LibOS是螞蟻金服開源的一個項目,用戶能夠直接對原有的應(yīng)用程序進行重新編譯,因此可以直接用上SGX,從而大幅降低 SGX 應(yīng)用的開發(fā)門檻,既可以保護基礎(chǔ)設(shè)施不受惡意攻擊,也能保護用戶的數(shù)據(jù)和算法,讓用戶可以更加信任基礎(chǔ)設(shè)施。
隨著容器部署的密度越來越高,如何保證容器性能就顯得越來越重要了,為了保障SLA免受外界干擾,英特爾還有資源調(diào)配技術(shù) (英特爾RDT),以提升應(yīng)用程序、虛擬機 (VM) 和容器使用共享資源方式的可見性和可控性,能夠?qū)崟r追蹤服務(wù)器節(jié)點上的容器和虛機的資源使用狀況,并進行精準(zhǔn)控制,從而保證其能有穩(wěn)定的性能輸出,并大幅提高資源利用率。
AI聯(lián)合創(chuàng)新
近年來,英特爾至強不斷提升在AI方面的能力,在第一代至強可擴展處理器Sky Lake中,英特爾引入了AVX-512指令,大幅度提升了FP32模型的執(zhí)行效率。在第二代平臺Cascade Lake之中,英特爾引入了支持Int8數(shù)據(jù)類型的加速指令——英特爾DL Boost的技術(shù)。在AI推理方面,相對于FP32,模型推理性能提升可達到4倍之多。
在最新的第三代至強可擴展處理器Cooper Lake之中,英特爾引入了針對BF16數(shù)據(jù)格式的優(yōu)化指令。所有這些新的硬件加速指令,都可以讓開發(fā)者在開發(fā)新的復(fù)雜模型時,有更多的精度選擇,同時,也能夠讓至強處理器在訓(xùn)練場景應(yīng)用中發(fā)揮更大作用。
為了充分發(fā)揮硬件加速指令的作用,英特爾還做了許多軟件棧的優(yōu)化,最主要的就是oneAPI。oneAPI包含了一系列高性能加速庫和完整的工具鏈,其中和AI性能加速相關(guān)的有兩個,一個是AI分析工具集,另一個是深度學(xué)習(xí)框架開發(fā)工具集,包括常見的OpenVINO、OneDNN,還有Pytorch、Tensorflow、MXNet等等。
在實際應(yīng)用過程中,往往還需要一些定制功能,在阿里云機器學(xué)習(xí)平臺PAI(Platform of Artificial Intelligence)的構(gòu)建當(dāng)中就涉及一些與英特爾的定制化合作。
PAI有一個支持拖拉拽方式構(gòu)建工作流的PAI Studio;有可提供沉浸式開發(fā)體驗的工具DSW,讓機器學(xué)習(xí)開發(fā)者像用Jupyter一樣在云上運行自己的算法,訓(xùn)練并部署自己的模型;還有一個命名為PAI-DLC的基于K8S的分布式訓(xùn)練平臺,以及一系列加速訓(xùn)練工具和模型構(gòu)建工具。
與此同時,阿里云第七代ECS也使用了英特爾第三代至強可擴展處理器,基于雙方的深度合作,其充分發(fā)揮了該處理器AI加速指令的作用。PAI作為首批全面支持BF16的PaaS平臺,充分發(fā)揮了硬件的性能,使得訓(xùn)練和推理都有了明顯的性能加速,而且,用戶無需改變代碼及模型就能直接享受到這些加速能力。
與想象中不同的是,PAI不僅在推理方面的性能有明顯提高,在訓(xùn)練方面效果也很明顯,阿里云智能研究員林偉表示,PAI的用戶群里有很多人在CPU平臺上進行模型訓(xùn)練,通過DL Boost的BF16的能力,訓(xùn)練性能得到了兩倍提升,通過整合英特爾OneDNN1的庫和阿里云的深度學(xué)習(xí)的引擎,性能又提高1.3倍。
傲騰持久內(nèi)存應(yīng)用
阿里云資深技術(shù)專家劉獎還表示,如今大數(shù)據(jù)、AI等許多應(yīng)用對于內(nèi)存的需求非常大,為解決傳統(tǒng)內(nèi)存密度有限的問題,阿里云開始應(yīng)用英特爾傲騰持久內(nèi)存?;谟猩疃鹊募夹g(shù)使用技巧并結(jié)合業(yè)務(wù)模型,阿里云應(yīng)用傲騰持久內(nèi)存后不僅獲得了較大的內(nèi)存容量,計算速度和效率也并未受到影響。
阿里云智能技術(shù)戰(zhàn)略總監(jiān)陳緒介紹說,阿里云基于英特爾傲騰持久內(nèi)存推出了阿里云ECS持久內(nèi)存版,在參數(shù)服務(wù)器這種內(nèi)存密集型場景中使用傲騰持久內(nèi)存后,可以在性能基本不受損失的情況下,大幅降低成本。
同樣基于傲騰持久內(nèi)存,阿里云還推出了企業(yè)版的Redis數(shù)據(jù)庫方案(Tair),性能可達傳統(tǒng)內(nèi)存方案的90%,成本降低30%,而且使每一個操作都是持久化,真正做到了掉電不丟失數(shù)據(jù)。
結(jié)語
對于阿里云來說,超大規(guī)模的用戶數(shù)量、多樣化且復(fù)雜的應(yīng)用負(fù)載以及對領(lǐng)先性能的極致需求,使其在選擇基礎(chǔ)設(shè)施時不僅需要考慮高性價比和高性能,全面的軟硬件支持和完善的生態(tài)體系也必不可少。而作為領(lǐng)先的基礎(chǔ)設(shè)施供應(yīng)端,英特爾通過全面的產(chǎn)品領(lǐng)導(dǎo)力、解決方案創(chuàng)新力和生態(tài)構(gòu)建力,與阿里云以技術(shù)合作為基礎(chǔ),推動全面創(chuàng)新,加速將技術(shù)轉(zhuǎn)化為產(chǎn)品的速度,為用戶創(chuàng)造更多價值。這種強強合作不僅為雙方帶來諸多積極影響,也將深度造福用戶和產(chǎn)業(yè)。