(復(fù)雜的企業(yè)數(shù)據(jù)分析架構(gòu))
第一,數(shù)據(jù)分析性能不達(dá)標(biāo)。
隨著數(shù)據(jù)驅(qū)動(dòng)的深入,業(yè)務(wù)提出了更多的分析需求,比如多維分析,實(shí)時(shí)分析,高并發(fā)查詢和Adhoc查詢。在很多分析需求場(chǎng)景下,當(dāng)前系統(tǒng)性能表現(xiàn)不佳,無法提供極速分析體驗(yàn)。
第二,數(shù)據(jù)分析的靈活性不足。
很多時(shí)候,為了能夠提供極速分析體驗(yàn),你需要針對(duì)各類場(chǎng)景構(gòu)建大寬表,或者做復(fù)雜的預(yù)處理,而這損失了分析靈活性。特別是在自助化BI這樣靈活的場(chǎng)景下,星型模型和雪花模型的價(jià)值不可替代?,F(xiàn)有的系統(tǒng)難以同時(shí)高性能支持這些建模手段。
第三,數(shù)據(jù)架構(gòu)復(fù)雜度太高。
為了滿足業(yè)務(wù)的多種分析需求,你必須搭建多套系統(tǒng)來組合使用。這讓分析層架構(gòu)變得非常復(fù)雜,導(dǎo)致開發(fā)維護(hù)成本以及業(yè)務(wù)使用成本都很高。另外,隨著各類實(shí)時(shí)分析場(chǎng)景的興起,你需要同時(shí)構(gòu)建離線數(shù)據(jù)鏈路和實(shí)時(shí)數(shù)據(jù)鏈路。但數(shù)據(jù)同步、數(shù)據(jù)一致性、計(jì)算邏輯同步、異常數(shù)據(jù)處理、多系統(tǒng)運(yùn)維等問題馬上就接踵而至。你只能疲于應(yīng)付。
第四,數(shù)據(jù)分析能力彈性不足。
你的數(shù)據(jù)規(guī)模越來越大,對(duì)應(yīng)的數(shù)據(jù)分析系統(tǒng)需要不斷地?cái)U(kuò)容;不同的業(yè)務(wù)線有不同的數(shù)據(jù)分析訪問量,需要保證每個(gè)業(yè)務(wù)線的SLA;有的業(yè)務(wù)還有大促,周年慶等流量高峰,如何保證既能支持好業(yè)務(wù),又能節(jié)省成本?相信這些問題沒少讓你頭疼。
產(chǎn)生這些問題的根本原因,是舊的大數(shù)據(jù)技術(shù)架構(gòu)已經(jīng)不能滿足當(dāng)前業(yè)務(wù)高速發(fā)展的需求。在舊的底層架構(gòu)上進(jìn)行修修補(bǔ)補(bǔ)只能解決部分問題。要想從根本上破局,就需要一套全新的“極速統(tǒng)一”的數(shù)據(jù)架構(gòu)?!皹O速”,意味著全面提升數(shù)據(jù)處理和分析的性能;“統(tǒng)一”意味著將復(fù)雜分散的數(shù)據(jù)架構(gòu)融合為簡(jiǎn)單統(tǒng)一的架構(gòu)。
為此我們決定把我們的核心產(chǎn)品DorisDB升級(jí)為StarRocks,并全面開源(Github搜索“StarRocks”),和全球大數(shù)據(jù)從業(yè)者一起構(gòu)建新一代極速統(tǒng)一的數(shù)據(jù)分析架構(gòu)!
StarRocks開創(chuàng)全新的極速統(tǒng)一分析
2020年初,當(dāng)時(shí)還沒有人相信一個(gè)企業(yè)的數(shù)據(jù)分析架構(gòu)可以統(tǒng)一,但我們相信“極速統(tǒng)一分析”一定可以實(shí)現(xiàn)。經(jīng)過團(tuán)隊(duì)近20個(gè)月夜以繼日的努力,我們攻克了諸多“不可能”的技術(shù)難題,通過自主研發(fā)新一代的技術(shù),我們將StarRocks打造成了具有劃時(shí)代意義的產(chǎn)品:“新一代極速全場(chǎng)景MPP數(shù)據(jù)庫”
·全新設(shè)計(jì)的全面向量化MPP查詢引擎,同時(shí)支持極速的單表和多表查詢性能。
StarRocks自主打造的新一代全面向量化的MPP引擎使查詢性能大幅提高,是非原生向量化系統(tǒng)(Kylin/Druid/Elasticsearch/Impala-Kudu/Presto/Greenplum)的3~5倍以上。ClickHouse向量化引擎并不支持全面的MPP,多表查詢能力差,StarRocks的多表查詢性能是其3~5倍以上。
·全新設(shè)計(jì)的實(shí)時(shí)列式存儲(chǔ)引擎,具備極致的實(shí)時(shí)更新和查詢性能。
在實(shí)時(shí)更新下,StarRocks查詢性能是其他產(chǎn)品的3~5倍以上。
·全新設(shè)計(jì)的數(shù)據(jù)分布模式,具備高并發(fā)查詢能力。
其他系統(tǒng)都無法較好支持高并發(fā)查詢,StarRocks可以支持每秒上萬次的并發(fā)查詢能力。
·全新設(shè)計(jì)的CBO優(yōu)化器,支持極速的秒級(jí)AdHoc查詢。
StarRocks性能可以做到主流AdHoc查詢系統(tǒng)Presto的5倍以上,可以做到秒級(jí)延遲。
·全新設(shè)計(jì)的現(xiàn)代化物化視圖,具備靈活透明的預(yù)計(jì)算加速能力。
其他產(chǎn)品無法做到非常好的透明化加速,具有較高的開發(fā)和管理成本,StarRocks在可以靈活透明加速的現(xiàn)代化物化視圖方面進(jìn)行了大量創(chuàng)新。
通過這些獨(dú)特的技術(shù)能力,StarRocks真正實(shí)現(xiàn)了極速統(tǒng)一分析:
·StarRocks可以同時(shí)高效支持OLAP多維分析、實(shí)時(shí)數(shù)據(jù)分析、高并發(fā)查詢、AdHoc查詢等多場(chǎng)景,并且比上一代同類型產(chǎn)品的分析能力快3~5倍以上。
·全新的OLAP多維分析體驗(yàn),打破“只能做大寬表”的局限性,讓多種數(shù)據(jù)建模模式:預(yù)計(jì)算、大寬表、星型模型和雪花模型等都具備極速分析體驗(yàn)。
·全新的實(shí)時(shí)數(shù)據(jù)分析體驗(yàn),真正支持實(shí)時(shí)更新和刪除,并能保證極速查詢性能。
·全新的高并發(fā)查詢體驗(yàn),突破傳統(tǒng)OLAP無法高并發(fā)的限制,支持?jǐn)?shù)千人同時(shí)訪問。
·全新極簡(jiǎn)統(tǒng)一的OLAP架構(gòu),大大降低了使用和運(yùn)維管理復(fù)雜度,提升了開發(fā)和使用效率。
產(chǎn)品發(fā)布半年以來,StarRocks快速被50多家市值(或估值)在10億美金以上的大型用戶用于生產(chǎn)環(huán)境,有力地支撐了這些用戶的數(shù)據(jù)分析業(yè)務(wù),創(chuàng)造了全新的分析體驗(yàn),并且有不少行業(yè)頭部公司已經(jīng)開始用StarRocks實(shí)現(xiàn)了統(tǒng)一的OLAP平臺(tái),“不可能”的極速統(tǒng)一分析正在快速變成“現(xiàn)實(shí)”!這也是為什么,阿里云、騰訊云、小米、京東、滴滴、貝殼、攜程、小紅書、順豐科技、58同城等行業(yè)頭部公司在第一時(shí)間加入社區(qū),一起攜手為“極速統(tǒng)一”的新時(shí)代夢(mèng)想而努力。
“極速統(tǒng)一分析”并不是終局,而是新的起點(diǎn)
在當(dāng)前極速統(tǒng)一的數(shù)據(jù)分析架構(gòu)的基礎(chǔ)上,我們的下一個(gè)目標(biāo)是要打造“新一代流批融合的極速湖倉(Lakehouse)”。眾所周知,在當(dāng)前主流的數(shù)據(jù)處理鏈路中,實(shí)時(shí)數(shù)據(jù)處理和離線數(shù)據(jù)處理是割裂的。企業(yè)要管理好這兩種數(shù)據(jù)處理場(chǎng)景,往往系統(tǒng)架構(gòu)復(fù)雜、難于維護(hù)。而我們要在StarRocks里實(shí)現(xiàn)這兩種數(shù)據(jù)處理方式的融合。
·我們將設(shè)計(jì)全新實(shí)時(shí)和離線融合的云原生架構(gòu),可以同時(shí)高效管理實(shí)時(shí)數(shù)據(jù)和離線數(shù)據(jù)。
雖然云原生標(biāo)桿Snowflake在離線數(shù)據(jù)場(chǎng)景下打造了先進(jìn)的存儲(chǔ)計(jì)算分離架構(gòu),但是這個(gè)架構(gòu)在實(shí)時(shí)數(shù)據(jù)分析支持上存在很大不足。我們將設(shè)計(jì)新一代云原生架構(gòu),同時(shí)高性能支持實(shí)時(shí)數(shù)據(jù)和離線數(shù)據(jù)的寫入和讀取。
·我們還將設(shè)計(jì)全新流批融合的向量化計(jì)算引擎,可以同時(shí)進(jìn)行極速的批處理和流處理。
通過打造全新的向量化批處理引擎,可以實(shí)現(xiàn)比Apache Spark快5~10倍以上的批處理速度。同時(shí)完美融合流式語義,利用向量化技術(shù)提升流處理性能。用戶無需再忍受使用Spark和Flink分散進(jìn)行批處理和流處理帶來的復(fù)雜性!
“堅(jiān)持大膽嘗試,實(shí)現(xiàn)不可能”是我們一直踐行的價(jià)值觀。在未來一年半左右的時(shí)間內(nèi),我們將和社區(qū)一起打造全新的StarRocks。讓企業(yè)的離線數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)可以采用同一套架構(gòu)、同一種語義、同一個(gè)引擎來處理,讓數(shù)據(jù)架構(gòu)實(shí)現(xiàn)全面的“極速統(tǒng)一”,“讓原本簡(jiǎn)單的事情回歸簡(jiǎn)單”!
一個(gè)人走得快,一群人走得遠(yuǎn)
為了實(shí)現(xiàn)這些偉大夢(mèng)想,我們將在全球范圍內(nèi)構(gòu)建StarRocks開源生態(tài),吸引優(yōu)秀的有志之士一起來參與社區(qū)建設(shè)。我們將不遺余力地推動(dòng)更多的全球用戶加入社區(qū),了解和評(píng)測(cè)StarRocks,使用和改進(jìn)StarRocks。我們還將推動(dòng)全球的數(shù)據(jù)工程師/數(shù)據(jù)分析師與社區(qū)一起,基于StarRocks構(gòu)建各類數(shù)據(jù)分析場(chǎng)景的新一代解決方案。
如果你也和我們一樣,心懷夢(mèng)想,請(qǐng)現(xiàn)在就關(guān)注我們,參與社區(qū)建設(shè),在Github上給StarRocks加一個(gè)星吧。讓我們一起來創(chuàng)造“極速統(tǒng)一”的大數(shù)據(jù)新時(shí)代,向不可能說不!
StarRocks——攜手未來,星辰大海!