CEO演講的主題是探索廣闊的數(shù)據(jù)領(lǐng)地(Exploring the vast data realm),具體分為合適的工具(Right tools)、數(shù)據(jù)的集成(Integration)、治理(Governance)和洞察(Insights)四部分。

第一部分,合適(正確)的數(shù)據(jù)工具。

合適的工作分成了三個(gè)方面,一個(gè)是數(shù)據(jù)庫服務(wù),一個(gè)是大數(shù)據(jù)分析服務(wù),另一個(gè)是AI/ML服務(wù)。

數(shù)據(jù)庫方面,亞馬遜云科技有引以為傲的一系列數(shù)據(jù)庫,其特點(diǎn)是類別非常全面,用法上,強(qiáng)調(diào)專庫專用。之前我也簡單梳理過,有興趣的可以看一下,了解下基本概念和相互間的區(qū)別。

亞馬遜云科技最自豪的數(shù)據(jù)庫肯定就是Amazon Aurora,性能吊打開源的MySQL和PostgreSQL,成本比商業(yè)版的數(shù)據(jù)庫低,最重要的是,它在亞馬遜跟甲骨文的隔空對線中立下了汗馬功勞。

大數(shù)據(jù)分析產(chǎn)品家族有七大服務(wù),其中以云上數(shù)據(jù)倉庫Amazon Redshift最為出名,七大服務(wù)的功能定位各不相同,絕大部分都以Serverless的方式對外提供服務(wù),除了最后一個(gè)。

就在強(qiáng)迫癥觀眾快要掀桌子的時(shí)候,Adam非常識趣地發(fā)布Serverless版的Amazon OpenSearch Service(預(yù)覽版),至此,數(shù)據(jù)分析家族全是Serverless的了。

在AI和機(jī)器學(xué)習(xí)部分,亞馬遜云科技從IaaS到PaaS和SaaS全覆蓋。IaaS層支持的硬件類型特別多,除了英偉達(dá)的顯卡和英特爾的Habana Gaudi,還有FPGA和自研的訓(xùn)練芯片Inferentia,PaaS層最值得關(guān)注的還是機(jī)器學(xué)習(xí)IDE——Amazon SageMaker。

第二部分,減少數(shù)據(jù)集成的痛苦。

數(shù)據(jù)集成部分的新發(fā)布將現(xiàn)場氣氛推向了一個(gè)小高潮,因?yàn)锳dam喊的是要幫數(shù)據(jù)工程師跳過ETL,繞過手動(dòng)構(gòu)建數(shù)據(jù)通道的過程,創(chuàng)造一個(gè)沒有ETL的理想世界。

2022年,即使沒有操作過也肯定也聽過ETL(extract, transform, load)的大名,ETL簡直就是痛苦的代名詞,重復(fù)操作多,操作過程復(fù)雜,耗費(fèi)時(shí)間巨多。

新發(fā)布的服務(wù)叫Amazon Aurora zero-ETL integration with Amazon Redshift,它是怎么做的呢?

其實(shí),為了減輕ETL帶來的痛苦,亞馬遜云科技有兩類操作:

第一類,讓Amazon Redshift和Amazon Athena都支持聯(lián)邦查詢,所謂聯(lián)邦查詢是讓數(shù)據(jù)停在原地,讓查詢計(jì)算引擎跑到數(shù)據(jù)旁邊,從而避免手動(dòng)ETL;

第二類,讓數(shù)據(jù)源跟Amazon Redshift集成,比如AWS Data Exchange、SageMaker都是如此,它是自動(dòng)將數(shù)據(jù)同步到Redshift里,從Redshift里查數(shù)據(jù),而ETL過程無需手動(dòng)操作;

Amazon Aurora zero-ETL integration with Amazon Redshift大致就就屬于后者,用法上,只要你指定Aurora里的表,表里的數(shù)據(jù)馬上就自動(dòng)地、快速地同步到Redshift里了。

Amazon Redshift integration for Apache Spark的原理也是一樣,把EMR、Glue和SageMaker的數(shù)據(jù)同步給Amazon Redshift,然后讓Spark去Redshift查數(shù)據(jù)就行了。

第三部分,數(shù)據(jù)的治理(Governance)。

數(shù)據(jù)治理解決數(shù)據(jù)價(jià)值挖掘過程中的常見問題:數(shù)據(jù)訪問控制的太嚴(yán)了,容易找不到要分析的數(shù)據(jù),數(shù)據(jù)少了,數(shù)據(jù)價(jià)值就沒法釋放。數(shù)據(jù)訪問控制的太松了,數(shù)據(jù)出現(xiàn)在不該出現(xiàn)的地方,容易出問題。

為了解決這個(gè)問題,于是就有了Amazon DataZone,一個(gè)專門用來給數(shù)據(jù)做分類,做數(shù)據(jù)發(fā)現(xiàn),做數(shù)據(jù)分享和管理的服務(wù),像是一個(gè)給企業(yè)準(zhǔn)備給的數(shù)據(jù)門戶。

個(gè)人覺得,Amazon DataZone的重點(diǎn)是幫你發(fā)現(xiàn)數(shù)據(jù),萬一某一個(gè)不容易發(fā)覺的角落里藏著有價(jià)值的數(shù)據(jù),沒被用上豈不是很虧,實(shí)踐中,企業(yè)可以根據(jù)組織架構(gòu)和業(yè)務(wù)部門的劃分來發(fā)現(xiàn)和組織數(shù)據(jù)。

為了幫企業(yè)發(fā)現(xiàn)和利用數(shù)據(jù),Amazon DataZone支持用元數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù)來對數(shù)據(jù)進(jìn)行分類,分類整理好的數(shù)據(jù)可以交給工程師、數(shù)據(jù)科學(xué)家、產(chǎn)品經(jīng)理、分析師和業(yè)務(wù)人員來使用,在這里開展基于數(shù)據(jù)的分享和協(xié)作。

第四部分,更容易獲得的數(shù)據(jù)洞察。

這部分主要介紹的是亞馬遜云科技的BI服務(wù)QuickSight,最早是2015年發(fā)布的,它能讓非技術(shù)人員進(jìn)行數(shù)據(jù)可視化,獲得洞察。

2020年,QuickSight新增了以自然語言進(jìn)行交互的方式,不過,查詢的數(shù)據(jù)都是當(dāng)前已有的數(shù)據(jù)。

而現(xiàn)在,ML-powered forecasting with Q讓QuickSight用自然語言對未來作出預(yù)測,比如,你可以用英語說:“請告訴我未來12個(gè)月的銷售情況”,然后,系統(tǒng)會(huì)立馬返回一個(gè)預(yù)測結(jié)果。

更有意思的是,你還能追問造成一個(gè)現(xiàn)象的原因,比如,你可以問,“為什么1月份的銷售數(shù)據(jù)增長了那么多?”,而系統(tǒng)會(huì)給出一些具體的解釋。

從技術(shù)上來講,支持中文也完全不是問題,從實(shí)際使用來講,主要是優(yōu)化非技術(shù)人員使用數(shù)據(jù)的能力。最后,能不能獲得好的洞察,得看你會(huì)不會(huì)問問題了,是不是還挺有意思的?

最后,順便看一眼其他發(fā)布

除了關(guān)于“探索廣闊的數(shù)據(jù)領(lǐng)地”這一主題,Adam還零星介紹了其他新服務(wù):

在安全方面,威脅檢測響應(yīng)服務(wù)Amazon GuardDuty新增了對容器運(yùn)行時(shí)環(huán)境的檢測,這項(xiàng)服務(wù)叫做Container runtime threatdetection for GuardDuty,幫用戶發(fā)現(xiàn)容器內(nèi)部的安全威脅。

另外一項(xiàng)安全發(fā)布叫Amazon Security Lake,顧名思義,這是一個(gè)專門分析安全相關(guān)數(shù)據(jù)的數(shù)據(jù)湖,用戶自己創(chuàng)建數(shù)據(jù)湖,湖里導(dǎo)入云上和本地環(huán)境中的各種安全相關(guān)數(shù)據(jù),然后,使用常見的各種安全公司的檢測分析工具從數(shù)據(jù)里找出安全問題,提高企業(yè)的安全水平。

在機(jī)器學(xué)習(xí)方面,發(fā)布了新一代的機(jī)器學(xué)習(xí)推理實(shí)例Inf2,推理的性能提升4倍,延遲降低了十倍。推理方面沒什么可講太多的,能做推理的芯片很多,重點(diǎn)是提升效率,縮短推理的時(shí)間和推理的成本。

在高性能計(jì)算領(lǐng)域,在原有基于AMD霄龍的Hpc6a的基礎(chǔ)上,新推出了兩款主機(jī):

一個(gè)是之前提到過的Hpc7g,采用的是自研的專門為HPC負(fù)載優(yōu)化的Graviton3E處理器和EFA高性能網(wǎng)絡(luò),強(qiáng)調(diào)計(jì)算和網(wǎng)絡(luò)表現(xiàn)都有較大提升。

另一個(gè)是強(qiáng)調(diào)數(shù)據(jù)和內(nèi)存密集型負(fù)載的Hpc6id,其特點(diǎn)是性價(jià)比比較高,它采用的是英特爾第三代至強(qiáng)可擴(kuò)展處理器,能用上英特爾在高性能計(jì)算領(lǐng)域的優(yōu)勢,比如MKL和AVX 512指令集之類的。

最后,還發(fā)布了幾個(gè)面向行業(yè)場景的新發(fā)布:

一個(gè)運(yùn)行大規(guī)??臻g模擬負(fù)載的托管服務(wù)——AWS SimSpace Weaver,省去了用戶做空間模擬任務(wù)時(shí),自己管理配置軟硬件環(huán)境的麻煩。

云呼叫中心Amazon Connect新增了三個(gè)功能,一個(gè)是支持用機(jī)器學(xué)習(xí)來幫助預(yù)測和資源規(guī)劃,一個(gè)是做績效管理的功能,還有一個(gè)是面向最終用戶的交互頁面。

供應(yīng)鏈管理解決方案AWS Supply Chain,可用來提升供應(yīng)鏈的可見性,能給企業(yè)提供具有可執(zhí)行性的洞察和建議,幫助企業(yè)緩解供應(yīng)鏈方面的風(fēng)險(xiǎn)。

面向廣告營銷場景的AWS Clean Rooms,讓用戶跟合作伙伴分享數(shù)據(jù),同時(shí),可以保護(hù)數(shù)據(jù)隱私不泄露。

面向生物醫(yī)療領(lǐng)域的Amazon Omics,用于存儲(chǔ)、查詢、分析生物組學(xué)數(shù)據(jù),并從數(shù)據(jù)中獲得洞察,這是為需要大規(guī)模數(shù)據(jù)分析的生物醫(yī)療研發(fā)場景準(zhǔn)備的。

分享到

zhupb

相關(guān)推薦