久久天天躁狠狠躁夜夜av不卡,天堂av色综合久久天堂

過去，Data API 的實現(xiàn)極為復雜，用戶若想搭建一個應用的底層，往往需要使用非常多數(shù)據(jù)系統(tǒng)。例如，數(shù)據(jù)庫橫向擴展可能采用 MongoDB 或 HBase，文本檢索使用 Elasticsearch，還可能需要向量檢索，分析型數(shù)據(jù)庫等。如此一來，用戶最終必然會面對 A、B、C、D、E 等諸多數(shù)據(jù)產品，硬件開銷以及運維和開發(fā)成本急劇上升。

ProtonBase 產品研發(fā)之初是想讓業(yè)務的架構回歸簡單(Simple)，解決架構不得不從 A 到 B，從 B 到 C，從 C 到 D 不斷膨脹的問題。隨著產品面世之后，在與市場不斷磨合的過程中，我們發(fā)現(xiàn) ProtonBase 最強的 PMF(產品與市場的匹配度)在于滿足那些對實時決策(Instant Decision)有需求的業(yè)務，例如金融量化交易和風控、車聯(lián)網(wǎng)、以及數(shù)據(jù)可觀測性等場景，這些場景的數(shù)據(jù)既需要具備極高的端到端的實時性，同時也要支持在這些實時數(shù)據(jù)之上的高并發(fā)復雜查詢—— 而這正是 ProtonBase 的優(yōu)勢所在。

Q3：在 ProtonBase 的研發(fā)過程中遇到的最?技術挑戰(zhàn)是什么?團隊是如何突破這些難題，確保產品順利推進的?

王紹翾：挑戰(zhàn)非常多，因為要把 ProtonBase 打造成一個強大、統(tǒng)一的 Data API 平臺，必須具備五大核心能力：OLTP、文檔數(shù)據(jù)庫、文本檢索、向量檢索，以及 OLAP。

許多客戶會問我們：“你們是如何將這些本質上差異巨大的能力整合到一個系統(tǒng)中的?”其實，我們整個團隊經歷了數(shù)據(jù)庫，大數(shù)據(jù)，再到數(shù)據(jù)庫的時代，積累了大量的工程經驗。我們今天的產品其實就是集成了數(shù)據(jù)庫和大數(shù)據(jù)的最重要的三個能力，第一是存儲，第二是索引，第三是在高速存儲上做到數(shù)據(jù)庫級別的存算分離。

4 年融資 1 億美金，ProtonBase 背后的技術雄心｜專訪小質科技 CEO 王紹翾

·存儲層：ProtonBase 支持數(shù)據(jù)的行存、列存以及行列混存;

·索引層：ProtonBase 實現(xiàn)了數(shù)據(jù)庫最重要的全局二級索引(Global Secondary Index)，以及搜索所需要的倒排索引、向量索引、分析所需要的列存索引等等;

·存算分離：實現(xiàn)數(shù)據(jù)庫級別的存算分離的挑戰(zhàn)非常大。大數(shù)據(jù)的存算分離是基于公有云上高可用的對象存儲，而數(shù)據(jù)庫系統(tǒng)不能選用對象存儲，因為它需要更高的吞吐和更低的延遲。要做好一個實時或者近實時的數(shù)據(jù)庫級別的存算分離，難度和挑戰(zhàn)很大，但我們實現(xiàn)了。

Q4：企業(yè)在選擇一款數(shù)據(jù)庫產品時要考慮的因素很多，ProtonBase 最優(yōu)勢的場景是什么，在哪些技術場景下，企業(yè)適合考慮使? ProtonBase?

王紹翾：ProtonBase 在數(shù)據(jù) Data API 上，幾乎實現(xiàn)了中間層的所有功能，但我們并不希望客戶將 ProtonBase 僅用于單一模式，更希望把它視為多模數(shù)據(jù)庫，發(fā)揮出 1+1>2 的化學效果。目前我們至少在三個方向上看到了這種因為多模的能力帶來的 1+1>2 的場景。

一是真正的 HTAP 場景。如果一個數(shù)據(jù)系統(tǒng)僅將 Transaction Data 存放在 OLTP 數(shù)據(jù)庫，再將數(shù)據(jù)同步到 OLAP 數(shù)據(jù)庫去做報表業(yè)務，那并非真正的 HTAP。真正的 HTAP 首先要實現(xiàn)寫入即可見(OLTP 和 OLAP 的查詢)，其次要支持較為復雜的偏分析類查詢，且查詢吞吐較高，我們將這種場景稱為真正的 HTAP，例如金融量化交易。

二是可觀測性和實時數(shù)倉場景。我們發(fā)現(xiàn)一個有意思的事情，數(shù)倉并不等同于 OLAP，越來越多的場景在數(shù)倉上提出了對數(shù)據(jù)庫能力的需求。例如，用戶在做 OLAP 分析后發(fā)現(xiàn)了一些規(guī)律，就想去查看明細數(shù)據(jù)，按某些主鍵 PK 進行全部數(shù)據(jù)召回，甚至有時不僅需要對 PK 進行過濾召回，還需對非 PK 的主鍵進行過濾召回。此時，就需要 OLTP 數(shù)據(jù)庫的全局二級索引的能力——而這是所有 OLAP 引擎所不具備的。

第三是 AI Agent 場景。因為 AI Agent 背后需要對接 MCP(Model Context Protocol )，假設一家公司有多個服務和數(shù)據(jù)系統(tǒng)，當把數(shù)據(jù)存在 3～5 個數(shù)據(jù)系統(tǒng)之上，就會有 3～5 個 MCP，大模型想去對接 MCP 做一些決策的時候就非常復雜。用一個數(shù)據(jù)庫，一個 MCP 服務，可以大幅降低 LLM 的負擔和推理復雜度。所以 Agent 天然期望用一個多模數(shù)據(jù)庫來?持業(yè)務。

所以，真正的 HTAP、可觀測性+實時數(shù)倉、以及 AI Agent 這三個大場景，非常適合使用 ProtonBase 這種多模數(shù)據(jù)庫。在這些場景下，企業(yè)可以借助 ProtonBase 多模融合、實時響應、高并發(fā)查詢的能力，獲得遠超傳統(tǒng)架構所帶來的業(yè)務回報。

Q5：從 2021 年成立至今，小質科技的客戶已經涵蓋金融、電商、?聯(lián)網(wǎng)與物聯(lián)網(wǎng)、制造、游戲、廣告、快消、教育等行業(yè)。能否簡單介紹下這些行業(yè)是怎么使用 ProtonBase 的，并從中挑選一兩個最具代表性的客戶案例，詳細分享一下合作過程、解決的問題以及最終取得的成效?

王紹翾：經過 4 年發(fā)展，公司已服務幾十個客戶，我們始終聚焦于最能發(fā)揮 ProtonBase 產品特性的場景去打磨與落地。我們有兩個核心 PMF：

第一類 PMF：秒級 Freshness + 高吞吐 Instant Decision(也就是我上面提到的真正的 HTAP)。具體應用包括：

·金融場景：金融行情的量化分析和交易、金融的反作弊;

·廣告/推薦系統(tǒng)：廣告/推薦決策算法復雜且吞吐高，全鏈路越實時越有效;

·車聯(lián)網(wǎng)與 IOT：車機數(shù)據(jù)每秒更新，需即時進行規(guī)則匹配和安全分析。

第二類 PMF：Simplicity，有些應用期望數(shù)據(jù)庫天然具備 Hybrid 的能力。例如 AI Agent 場景中，系統(tǒng)希望直接對接一個統(tǒng)一的數(shù)據(jù)接口 MCP，所以 All-in-One 的多模數(shù)據(jù)庫是非常適合于 AI Agent 的，另外在可觀測性的場景下也越來越需要數(shù)據(jù)庫要具有 Hybrid 的能力。

下面我們挑選兩個最具代表性的落地案例，分別來自金融和車聯(lián)網(wǎng)行業(yè)，幫助大家具體理解 ProtonBase 的實際價值：

【案例一】金融客戶：支撐秒級實時決策的 AI 交易系統(tǒng)

這家客戶來自金融證券行業(yè)，需求非常典型：整個交易行情數(shù)據(jù)需要非常實時的寫入數(shù)據(jù)庫系統(tǒng)，寫入即可見，然后有大量的交易者或者分析師甚至 AI，對這些實時的數(shù)據(jù)做復雜的分析，然后做交易決策，所有過程都需要在幾秒內甚至亞秒級完成(AI Trading)。同時，這個客戶內部有很多數(shù)據(jù)需要做可觀測透出，他們最早使用的是 TSDB 這一類時序數(shù)據(jù)庫，但是 TSDB 不支持 update ，客戶轉而使用 Elasticsearch / ClickHouse 這些 OLAP 系統(tǒng)，但是這些系統(tǒng)不能很好地支持復雜查詢，在冷熱分離和彈性方面也有諸多詬病。最終這家金融客戶選用了 ProtonBase。

【案例二】車聯(lián)網(wǎng)客戶：支撐數(shù)百萬輛車并發(fā)的實時異常檢測系統(tǒng)

該客戶是頭部車企，該車企每輛車每秒上傳更新很多車機信號，需要系統(tǒng)快速應用各種規(guī)則分析數(shù)據(jù)，檢測是否存在軟件更新故障或其他突發(fā)問題。檢測出問題后，需要立即按照某些特定列值召回某輛車或某批車的某些數(shù)值，這就天然形成了一個對 OLTP 和 OLAP 要求極高的場景。最終這家公司也是選用了 ProtonBase。

Q6：ProtonBase 作為?款基于 Data Warebase 理念的產品，既是?個數(shù)據(jù)庫，也是?個數(shù)倉，還?持數(shù)據(jù)實時加?計算和數(shù)據(jù)湖上的查詢加速計算。那么它和 HTAP、流批?體、以及湖倉?體架構的關聯(lián)和區(qū)別是什么?

王紹翾：很多人都會問到類似的問題。簡單來說，ProtonBase 用創(chuàng)新性的架構和實現(xiàn)，解決了數(shù)據(jù)庫和大數(shù)據(jù)領域詬病已久的諸多問題，能力覆蓋了 HTAP、流批一體、湖倉一體等若干多模場景?？蛻魧?shù)據(jù)產品的需求往往只需要使用 ProtonBase 這一款產品就夠了。

Data Warebase 與 HTAP 的區(qū)別

首先 HTAP 不是一個數(shù)據(jù)庫的概念，因為 SQL 天然就是一種既能支持 OLTP，也能支持 OLAP 的語言，但當數(shù)據(jù)量變大、系統(tǒng)負載變復雜時，很多系統(tǒng)不得不在兩者間做取舍。這也是傳統(tǒng)數(shù)據(jù)庫和數(shù)倉系統(tǒng)割裂的根源。所以 HTAP 要求的是一個系統(tǒng)能同時在 OLTP 和 OLAP 這兩個場景下都擁有很好的寫入和查詢的性能。ProtonBase 作為一個 Data Warebase，既是 Database 也是 Data Warehouse，所以天然就能滿足 HTAP 這個場景。

但是光有 HTAP 是不夠的，未來是一個多模數(shù)據(jù)庫的時代，首先要有很好的 OLTP 和 OLAP 的能力和性能，其次要支持實時增量物化視圖做數(shù)據(jù)的 Instant Transform、文本搜索、向量搜索、文檔數(shù)據(jù)存儲和查詢，甚至還要支持對湖上數(shù)據(jù)的查詢，因此我們提出了 Data Warebase 的概念，它是 Database+Data Warehouse 的合集，是未來多模數(shù)據(jù)庫的一個新范式。

Data Warebase 與流批一體的區(qū)別

流批一體這個概念其實最早就是我們提出的。2015 年我加入淘寶的時候負責商品搜索的數(shù)據(jù)加工，當時很多商品的屬性和指標是非實時的，我們引入 Flink 解決了數(shù)據(jù)實時性的問題，還用 Flink 的 Batch 能力解決了批計算問題，在那個場景下將實時增量計算和批計算做到了計算引擎和 SQL 的統(tǒng)一，初步實現(xiàn)了流批一體化。

但這并不是最優(yōu)的架構，因為 Flink 的運維和成本比較高，我們認為物化視圖是解決流批一體的最佳方案，用戶可以根據(jù)對每個物化視圖的 freshness 需要來決定它們的刷新頻率。這樣就完美地實現(xiàn)了實時、近實時、以及 T+1 離線計算的 SQL 與引擎的統(tǒng)一，且運維和開發(fā)的易用性極好。

可惜的是，當前大部分的數(shù)據(jù)庫或數(shù)據(jù)倉庫提供的物化視圖都不支持增量刷新，導致實時刷新物化視圖的成本很高。ProtonBase 投入大量精力實現(xiàn)了物化視圖的增量刷新，成功打造了一款性價比極致的流批一體計算引擎。

Data Warebase 與湖倉一體的區(qū)別

按照我的理解，湖倉一體只需要滿足兩個條件：第一是要打通數(shù)據(jù)倉庫和數(shù)據(jù)湖兩套體系，讓數(shù)據(jù)和計算在湖與倉之間自由流動;第二是數(shù)據(jù)倉庫能夠對接標準的湖存儲，做外表的查詢、計算和寫入。ProtonBase 支持 Iceberg，Delta Lake，以及 Hive (ORC/Parquet)等主流湖存儲的互聯(lián)互通和外表查詢，這意味著 Data Warebase 同時也是支持湖倉一體的數(shù)據(jù)引擎。

Q7：隨著 AI 技術的?速發(fā)展，數(shù)據(jù)與 AI 的融合越來越緊密，這將為企業(yè)數(shù)據(jù)管理和應用帶來全新的變革。在 AI 時代，您還洞察到企業(yè)對數(shù)據(jù)庫和大數(shù)據(jù)的需求有哪些變動?

王紹翾：我分享兩個觀察，一是在數(shù)據(jù)庫領域，PostgreSQL 會變成非常主流的數(shù)據(jù)庫。首先全球幾乎所有的新興數(shù)據(jù)庫都是基于 PostgreSQL API 的。包括被 Databricks 收購的 Neon、被 Snowflake 收購的 Crunchy Data、剛融資的 Supabase、以及最近爆火的 DuckDB、還有 CockroachDB、Yugabyte 等新型分布式數(shù)據(jù)庫公司，無一例外的都選擇了 PostgreSQL 作為查詢 API。所有的 AI 公司也幾乎無一例外都選用了 PostgreSQL，如 OpenAI、Cursor、Notion、Perplexity、Anthropic 等。

大家選擇 PostgreSQL 的原因很簡單， PostgreSQL 非常標準且擁有強大的 Extension，一套 API 幾乎定義了 Data API 所需要的所有能力：OLTP、OLAP、 JSON、GIS、全文檢索、向量檢索。這正是 AI 時代應用和 Agent 所需要的終極 All-In-One 數(shù)據(jù)庫解決方案。ProtonBase 從創(chuàng)立之初就預見到這個趨勢，并基于 PostgreSQL API 構建，提前布局 AI 時代的標準接口。OpenAI o1 發(fā)布之后 AI 的 reasoning 變得非常強大，加上 Anthropic 提出 MCP 的規(guī)范后，使得 language to SQL 成為可能。在 ProtonBase 上使用 PG 標準的 MCP 再配合強大的 AI 模型就可以直接實現(xiàn)很豐富的 language to SQL 的應用場景。

二是在大數(shù)據(jù)領域，未來數(shù)據(jù)湖的標準是 Iceberg。我們看到世界上兩個最大的數(shù)據(jù)巨頭，一個是 Snowflake，主推的是 Iceberg ，另一個是 Databricks，以前主推 Delta Lake ，后來收購了 Apache Iceberg 背后的公司 Tabular。所以我們可以預見到未來企業(yè)的數(shù)據(jù)湖基本都會圍繞著 Iceberg 構建，ProtonBase 也很好地對接了 Iceberg 數(shù)據(jù)湖，完善了湖倉一體的能力。

Q8：創(chuàng)業(yè) 4 年，您對其他 AI 和數(shù)據(jù)的同行或者創(chuàng)業(yè)者有哪些建議分享?

王紹翾：一路走來還是學到很多，邊做邊學。有幾個感觸最深的點：

第一點就是需要想清楚作為創(chuàng)業(yè)公司自己的產品 PMF 是什么?客戶是誰?如何賣給客戶?在這個過程中你的產品能力一定要在這個領域最好是第一，最差也要在前三。ToB 是 Value Selling(價值銷售)和 Solution Selling(解決方案銷售)，對一家創(chuàng)業(yè)公司而言，想清楚自己產品的 PMF 和打造好產品的競爭力至關重要。

其次，前期要專注于服務大客戶。因為大客戶的挑戰(zhàn)和場景非常多且復雜，他們往往代表了其所在行業(yè)最大的挑戰(zhàn)，如果能解決好大客戶的問題，也會極大提升你在此行業(yè)中的影響力和公信力。

最后就是 ToB 業(yè)務繞不開的話題：全球化和出海。這是一個必選項，中國有大量卓越的軟件工程師能夠做出世界一流的產品，我們需要把這些產品和能力輸出，在全球做生意，把利潤帶回來， “Made in China，Sold Global” 是我們這代人的使命。

分享到

zhupb

相關推薦

近期文章

熱門標簽