在峰會(huì)發(fā)布的“2024存儲(chǔ)風(fēng)云榜”中,騰訊云數(shù)據(jù)加速器 GooseFS 榮膺“2024年度分布式存儲(chǔ)產(chǎn)品金獎(jiǎng)”。“2024存儲(chǔ)風(fēng)云榜”展示了數(shù)據(jù)存儲(chǔ)領(lǐng)域的創(chuàng)新成果,引領(lǐng)下一代技術(shù)的突破與落地,為行業(yè)選型和應(yīng)用提供了重要參考,同時(shí)也激勵(lì)更多企業(yè)持續(xù)創(chuàng)新。

Date Platform:探索智能存儲(chǔ)之未來之旅

騰訊云存儲(chǔ)專家解決方案架構(gòu)師王登宇應(yīng)邀出席本次峰會(huì),并在“?AI + 存儲(chǔ)協(xié)同發(fā)展論壇”中發(fā)表了題為“騰訊云 Data Platform:探索智能存儲(chǔ)之未來之旅”的演講。本次演講聚焦騰訊云數(shù)據(jù)平臺(tái)如何突破傳統(tǒng)存儲(chǔ)的邊界,通過整合 COS 對(duì)象存儲(chǔ)、MetaInsight 智能檢索、Data Engine 數(shù)據(jù)處理引擎和 GooseFS 數(shù)據(jù)加速器系統(tǒng),構(gòu)建全面的 AI 存儲(chǔ)解決方案,優(yōu)化大數(shù)據(jù)和 AI 業(yè)務(wù)中的數(shù)據(jù)管理,提升計(jì)算效率,為各類智能應(yīng)用的持續(xù)發(fā)展提供堅(jiān)實(shí)支撐。

掌控智能時(shí)代的數(shù)據(jù)存儲(chǔ)挑戰(zhàn)

云存儲(chǔ)的演進(jìn)歷程始終伴隨業(yè)務(wù)需求的變化:從早期的內(nèi)容分發(fā)需求推動(dòng)對(duì)象存儲(chǔ)的快速發(fā)展,到大數(shù)據(jù)業(yè)務(wù)場(chǎng)景下的數(shù)據(jù)湖和湖倉(cāng)一體化方案,再到最近的 AIGC 業(yè)務(wù)場(chǎng)景,存儲(chǔ)方案面臨著低成本存儲(chǔ)、數(shù)據(jù)管理和處理能力以及更高的存儲(chǔ)性能需求。這些都推動(dòng)了云存儲(chǔ)技術(shù)的不斷演進(jìn)。

在這一背景下,騰訊云存儲(chǔ)推出了 Data Platform 解決方案。Data Platform 包含四個(gè)核心產(chǎn)品:COS 對(duì)象存儲(chǔ)提供數(shù)據(jù)存儲(chǔ)功能;MetaInsight 實(shí)現(xiàn)數(shù)據(jù)智能檢索和數(shù)據(jù)目錄功能;Data Engine 提供高效的數(shù)據(jù)處理能力;而 GooseFS 負(fù)責(zé)數(shù)據(jù)加速,從而形成完整的一體化存儲(chǔ)解決方案。

從存儲(chǔ)到數(shù)據(jù)平臺(tái),Date Platform 助力企業(yè)跨越數(shù)據(jù)挑戰(zhàn)

Data Platform 方案從業(yè)務(wù)需求出發(fā),提供一體化服務(wù):通過 S3/COS 接口滿足數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)等業(yè)務(wù)場(chǎng)景中的數(shù)據(jù)存儲(chǔ)需求;MetaInsight 提供的元數(shù)據(jù)和語義檢索接口讓海量數(shù)據(jù)具備了更強(qiáng)的可管理性;Data Engine 通過靠近存儲(chǔ)端的數(shù)據(jù)處理能力提升了數(shù)據(jù)挖掘效率,降低了數(shù)據(jù)處理成本;GooseFS 數(shù)據(jù)加速服務(wù)作為全閃存高性能文件緩存系統(tǒng),支持 HDFS 和 POSIX 接口,為大數(shù)據(jù)和 AI 場(chǎng)景優(yōu)化近計(jì)算端的 IO 訪問效率。

在海量數(shù)據(jù)存儲(chǔ)需求之下,對(duì)象存儲(chǔ) COS 作為 Data Platform 的存儲(chǔ)底座,采用騰訊云自研的 Yotta 架構(gòu),單集群規(guī)模可達(dá)100 EB,支持多種存儲(chǔ)類型和管理功能,為企業(yè)提供高可靠性、低成本的海量數(shù)據(jù)存儲(chǔ)服務(wù),幫助企業(yè)應(yīng)對(duì) AI 數(shù)據(jù)的存儲(chǔ)需求。隨著眾多企業(yè)對(duì) AI 業(yè)務(wù)的投入,當(dāng)算力和模型規(guī)模達(dá)到一定階段后,模型的能力往往取決于數(shù)據(jù)的數(shù)量和質(zhì)量,COS 的高可靠性和可用性、低成本、成為了企業(yè)海量數(shù)據(jù)存儲(chǔ)的首選。

Date Engine 雙引擎:智能數(shù)據(jù)管理與處理

為解決海量數(shù)據(jù)存儲(chǔ)后的高效管理和處理需求,騰訊云通過 MetaInsight 和 Data Engine 構(gòu)建了 Data Platform 的雙引擎。非結(jié)構(gòu)化數(shù)據(jù)在存入 COS 對(duì)象存儲(chǔ)后,通過 MetaInsight 提取元數(shù)據(jù)和向量特征實(shí)現(xiàn)結(jié)構(gòu)化管理,并提供查詢檢索 API;Data Engine 在查詢 MetaInsight 的數(shù)據(jù)后可以進(jìn)一步處理數(shù)據(jù)集,從而形成數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理和數(shù)據(jù)處理的閉環(huán)。通過 COS 的事件觸發(fā)機(jī)制(event trigger),數(shù)據(jù)上傳后可自動(dòng)完成上述所有處理流程,降低數(shù)據(jù)智能化應(yīng)用的門檻。

數(shù)據(jù)萬象 Date Platform 數(shù)據(jù)處理引擎:釋放海量數(shù)據(jù)處理能力

騰訊云的數(shù)據(jù)處理引擎(Data Engine)內(nèi)置了超過百種強(qiáng)大處理能力,涵蓋內(nèi)容審核、圖片處理、視頻處理、音頻處理、文檔服務(wù)、文件處理等多個(gè)領(lǐng)域。結(jié)合騰訊自研的 AI 技術(shù),Data Engine 能夠?qū)D片、視頻和音頻進(jìn)行智能化處理,完成更多復(fù)雜且定制化的數(shù)據(jù)處理任務(wù)。這些處理能力能夠通過數(shù)據(jù)工作流進(jìn)行自動(dòng)化編排,支持批量化處理海量數(shù)據(jù),極大提升工作效率。無論是業(yè)務(wù)需求的高效執(zhí)行,還是大規(guī)模數(shù)據(jù)處理的優(yōu)化,Data Engine 都能夠?yàn)榭蛻籼峁╈`活且高效的解決方案。

數(shù)據(jù)萬象 Metalnsight:提升多模態(tài)數(shù)據(jù)檢索效率

近期,騰訊云發(fā)布了 MetaInsight,這一創(chuàng)新工具旨在提升多模態(tài)數(shù)據(jù)的檢索效率?;贏I大模型和向量數(shù)據(jù)庫(kù),MetaInsight 為用戶提供跨模態(tài)的數(shù)據(jù)檢索能力,能夠高效地挖掘多種類型數(shù)據(jù)中的深層價(jià)值。MetaInsight 的核心定位是作為 COS 對(duì)象存儲(chǔ)的 Data Catalog,針對(duì) COS 存儲(chǔ)中的數(shù)據(jù)提供多場(chǎng)景、多模態(tài)的檢索服務(wù)。它通過自然語言處理或結(jié)構(gòu)化檢索條件分析存儲(chǔ)的數(shù)據(jù),滿足數(shù)據(jù)管理、分析、檢索等全方位需求。

當(dāng)前,MetaInsight 支持兩個(gè)維度的結(jié)構(gòu)化數(shù)據(jù):一是文件的 Metadata,用于支持文件的聚合統(tǒng)計(jì)查詢;二是 Embedding 特征,主要用于圖像內(nèi)容檢索。這些結(jié)構(gòu)化數(shù)據(jù)的組合形成了 COS 的 Data Catalog,極大提高了數(shù)據(jù)的可管理性和查詢效率。

數(shù)據(jù)加速器 GooseFS:提升數(shù)據(jù)清洗與訓(xùn)練效率

在數(shù)據(jù)清洗和訓(xùn)練過程中,數(shù)據(jù)加速器 GooseFS 通過將數(shù)據(jù)智能分布至內(nèi)存、計(jì)算節(jié)點(diǎn)本地盤或全閃存緩存等不同層級(jí)中,提供亞毫秒級(jí)訪問時(shí)延、百萬級(jí) IOPS 和 Tbps 級(jí)別吞吐量,大幅提升數(shù)據(jù)清洗效率。這一加速方案已在自動(dòng)駕駛、大模型等多個(gè) AI 場(chǎng)景下落地,幫助企業(yè)降本增效。

典型案例:數(shù)據(jù)智能的高效應(yīng)用

通過 MetaInsight(語義檢索或元數(shù)據(jù)查詢),從 COS Data Store 中提取所需數(shù)據(jù),并緩存至 GooseFS。GooseFS 通過 POSIX/HDFS 接口將數(shù)據(jù)高效投遞至計(jì)算節(jié)點(diǎn),實(shí)現(xiàn)更高效的計(jì)算操作。?

Data Engine 的智能處理通過大模型自動(dòng)識(shí)別數(shù)據(jù)內(nèi)容,并對(duì)數(shù)據(jù)進(jìn)行定制化標(biāo)注。識(shí)別的標(biāo)簽可寫入 MetaInsight 建立索引,后續(xù)可通過元數(shù)據(jù)查詢快速檢索對(duì)應(yīng)數(shù)據(jù)集,提升數(shù)據(jù)的管理效率。

結(jié)束語:重塑 AI + 存儲(chǔ)數(shù)據(jù)平臺(tái),釋放智能存儲(chǔ)的潛能

騰訊云 Data Platform 基于智能數(shù)據(jù)治理和靈活存儲(chǔ)管理,為 AI 和大數(shù)據(jù)應(yīng)用注入新動(dòng)能。平臺(tái)提供統(tǒng)一的存儲(chǔ)空間,有效整合結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),簡(jiǎn)化管理流程。通過極致的數(shù)據(jù)訪問性能,它支持大規(guī)模數(shù)據(jù)的高吞吐量和低延遲訪問,確保實(shí)時(shí)的數(shù)據(jù)處理和分析能力。創(chuàng)新的 Yotta 架構(gòu)技術(shù)不僅降低了存儲(chǔ)成本,還優(yōu)化了存儲(chǔ)效率。平臺(tái)靈活的資源配置功能使企業(yè)能夠按需擴(kuò)展存儲(chǔ)資源,實(shí)現(xiàn)存儲(chǔ)和數(shù)據(jù)處理的靈活調(diào)度。同時(shí),智能化的數(shù)據(jù)治理大幅簡(jiǎn)化了數(shù)據(jù)管理流程,進(jìn)一步提升了整體數(shù)據(jù)管理的效率。

通過這一先進(jìn)的解決方案,騰訊云 Data Platform 正助力企業(yè)高效釋放數(shù)據(jù)價(jià)值,迎接智能存儲(chǔ)的未來。

分享到

nina

相關(guān)推薦