據(jù)Matt介紹,許多客戶存儲(chǔ)了數(shù)百萬(wàn)甚至數(shù)十億個(gè) Parquet 文件。為了高效查詢這些文件,現(xiàn)如今多數(shù)人使用 Apache Iceberg 來(lái)提供所需的文件結(jié)構(gòu)支持。
Apache Iceberg 是一種開(kāi)源高性能表格格式,支持跨文件格式(如 Parquet)的靈活操作,用戶可通過(guò) SQL 在龐大的數(shù)據(jù)湖中查詢數(shù)據(jù),同時(shí)利用工具如 Spark 和 Flink 安全分析數(shù)據(jù),無(wú)需擔(dān)心工作負(fù)載沖突。
然而,Iceberg 在性能、擴(kuò)展性和安全性管理方面的復(fù)雜性,特別是在大規(guī)模場(chǎng)景下,給許多組織帶來(lái)了挑戰(zhàn),因此常需專(zhuān)門(mén)團(tuán)隊(duì)負(fù)責(zé)表維護(hù)、數(shù)據(jù)壓縮和訪問(wèn)控制等任務(wù)。
為此,亞馬遜云科技推出了新的Amazon S3類(lèi)型——Amazon S3 Tables,希望用它來(lái)自動(dòng)化處理這些麻煩。
Amazon S3 Tables是專(zhuān)為Iceberg 設(shè)計(jì)的新型存儲(chǔ)桶,能顯著提升性能和擴(kuò)展性。將 Parquet 文件存儲(chǔ)到 Amazon S3 Tables 中,查詢性能可提升 3 倍,每秒事務(wù)處理能力提高 10 倍,整個(gè)過(guò)程無(wú)需任何額外配置。
Amazon S3 Tables自動(dòng)管理表維護(hù)任務(wù),包括壓縮、快照管理和無(wú)效文件清理,幫助優(yōu)化存儲(chǔ)空間和成本。隨著數(shù)據(jù)湖的擴(kuò)展,性能和成本優(yōu)化也會(huì)持續(xù)改進(jìn)。Amazon S3 Tables 為數(shù)據(jù)湖提供更高效、更經(jīng)濟(jì)、更大規(guī)模的支持。
Amazon S3 Metadata:全新元數(shù)據(jù)服務(wù),簡(jiǎn)化數(shù)據(jù)查找與管理
隨著數(shù)據(jù)量不斷增加,快速找到所需數(shù)據(jù)就變得越來(lái)越困難,尤其是當(dāng)數(shù)據(jù)達(dá)到PB或 EB級(jí)時(shí)。
Matt Garman提到,元數(shù)據(jù)在幫助組織和理解存儲(chǔ)信息方面至關(guān)重要,比如手機(jī)上的照片,通過(guò)位置信息和日期等元數(shù)據(jù),可以輕松定位到特定圖片。
在Amazon S3 中,用戶傳統(tǒng)上需要手動(dòng)構(gòu)建元數(shù)據(jù)系統(tǒng),創(chuàng)建事件處理管道,將元數(shù)據(jù)與存儲(chǔ)對(duì)象關(guān)聯(lián),并確保數(shù)據(jù)更新時(shí),元數(shù)據(jù)也要跟著同步。然而,這種方式復(fù)雜且耗時(shí),特別是在大規(guī)模數(shù)據(jù)場(chǎng)景下,管理難度非常嚇人。
為了解決這個(gè)問(wèn)題,亞馬遜云科技推出了元數(shù)據(jù)管理服務(wù)Amazon S3 Metadata,它提供了一種更簡(jiǎn)單高效的解決方案,無(wú)需繁重的手動(dòng)操作,即可輕松實(shí)現(xiàn)元數(shù)據(jù)管理和查詢。
Amazon S3 Metadata能讓用戶快速、輕松地發(fā)現(xiàn)和查詢S3數(shù)據(jù)的元信息。它通過(guò)將所有對(duì)象的元數(shù)據(jù)自動(dòng)存儲(chǔ)在Iceberg表中,并在幾分鐘內(nèi)更新,確保數(shù)據(jù)始終最新。而且,用戶可以使用常用分析工具快速了解數(shù)據(jù)詳情,輕松找到所需對(duì)象。
這一功能大幅簡(jiǎn)化了元數(shù)據(jù)管理流程,改變了用戶與S3數(shù)據(jù)交互的方式,特別是在數(shù)據(jù)分析和超大規(guī)模AI模型應(yīng)用中具有顯著優(yōu)勢(shì)。這是Amazon S3的又一重大創(chuàng)新,為數(shù)據(jù)管理和分析開(kāi)啟了全新可能。
Amazon S3的創(chuàng)新,一直沒(méi)斷過(guò)
Amazon S3對(duì)象存儲(chǔ)是亞馬遜云科技的第一個(gè)云服務(wù),從根本上改變了存儲(chǔ)的方式,為用戶提供了簡(jiǎn)單、持久、高度可擴(kuò)展且安全的云存儲(chǔ)。讓對(duì)象存儲(chǔ)成為整個(gè)互聯(lián)網(wǎng)技術(shù)發(fā)展的數(shù)據(jù)基石。
據(jù)Matt Garman介紹,如今,Amazon S3不僅存儲(chǔ)了超過(guò)400萬(wàn)億個(gè)對(duì)象,更成為企業(yè)數(shù)據(jù)湖、AI訓(xùn)練數(shù)據(jù)和高性能分析的優(yōu)先選擇。通過(guò)持續(xù)的技術(shù)創(chuàng)新,S3不僅解決了規(guī)?;魬?zhàn),還帶來(lái)了性能提升和成本優(yōu)化。
針對(duì)訪問(wèn)頻次和成本需求不同,Amazon S3有多種類(lèi)存儲(chǔ)方案。為了降低管理負(fù)擔(dān),S3用智能分層技術(shù)自動(dòng)根據(jù)訪問(wèn)模式調(diào)整存儲(chǔ)層級(jí),幫助客戶在無(wú)需額外操作的情況下節(jié)省大量成本。截至目前,這一功能已為客戶節(jié)省超過(guò)40億美元。
Amazon S3已成為全球超過(guò)一百萬(wàn)個(gè)數(shù)據(jù)湖的支柱,為PB級(jí)乃至EB級(jí)別數(shù)據(jù)的管理提供支持。尤其是在金融建模、實(shí)時(shí)廣告和AI訓(xùn)練等大型分析場(chǎng)景中,S3的創(chuàng)新功能如強(qiáng)一致性支持和低延遲選項(xiàng)顯著提高了分析效率。