TigerGraph創(chuàng)始人兼CEO許昱博士

TigerGraph公司的創(chuàng)始人許昱博士從事數(shù)據(jù)庫(kù)和并行系統(tǒng)研發(fā)已經(jīng)二十年,創(chuàng)辦TigerGraph之前在Teradata負(fù)責(zé)大數(shù)據(jù)面向業(yè)界和未來(lái)五年的方向研究,領(lǐng)導(dǎo)Teradata和Big Data、Hadoop系統(tǒng)的集成,并且與一些大企業(yè)合作解決報(bào)表的查詢(xún)與合并技術(shù)。稍早在Twitter工作,作為一個(gè)社交網(wǎng)絡(luò),圖的分析對(duì)于Twitter意義重大,Twitter自行開(kāi)發(fā)了一套單機(jī)版的純內(nèi)存的系統(tǒng)。再早則是在加州大學(xué)圣地亞哥分校、在中科院計(jì)算所從事數(shù)據(jù)庫(kù)方面的研發(fā)工作。

可以說(shuō),許昱博士是個(gè)“不折不扣”的數(shù)據(jù)庫(kù)專(zhuān)家,在他的周?chē)奂囊彩莵?lái)自硅谷等地高科技公司的數(shù)據(jù)庫(kù)專(zhuān)家。

為什么會(huì)從事圖數(shù)據(jù)庫(kù)研究?

發(fā)掘大數(shù)據(jù)關(guān)聯(lián)和關(guān)聯(lián)后面隱藏的商業(yè)價(jià)值,是一個(gè)技術(shù)難題,但是它的解決無(wú)疑具有極大的商業(yè)價(jià)值。如何解決?

始于Hadoop技術(shù)的大數(shù)據(jù)時(shí)代迄今已經(jīng)過(guò)去了十年,一些簡(jiǎn)單的技術(shù)問(wèn)題如存儲(chǔ)、離線處理等問(wèn)題都得到了解決。十五年前,業(yè)界也開(kāi)始了一些圖數(shù)據(jù)庫(kù)的嘗試。許昱博士指出,圖是以數(shù)學(xué)上點(diǎn)和邊的關(guān)系把所有的數(shù)據(jù)自然存在一起,成為自然的存儲(chǔ)數(shù)據(jù)關(guān)聯(lián)模型。TigerGraph之所以采用知識(shí)圖譜(歐拉圖),是因?yàn)閳D是解決大數(shù)據(jù)互聯(lián)最好的方法。

從計(jì)算角度,歐拉圖更合適大數(shù)據(jù)的機(jī)器學(xué)習(xí)、人工智能。但由于每前進(jìn)一步,接觸數(shù)據(jù)量指數(shù)性增長(zhǎng),又能帶來(lái)更多關(guān)聯(lián)信息,所以計(jì)算能力至關(guān)重要,而技術(shù)上的限制,比如缺乏大數(shù)據(jù)、并行技術(shù)、多核計(jì)算機(jī)等的能力,所以在TigerGraph之前一些圖計(jì)算的工具計(jì)算能力很差。

雖然歐拉圖理論已經(jīng)問(wèn)世有兩百多年,也是最合適的存儲(chǔ)和計(jì)算互聯(lián)數(shù)據(jù)的模型,但現(xiàn)在仍然沒(méi)有企業(yè)中得到最廣泛的使用。一方面,圖數(shù)據(jù)庫(kù)是較為高級(jí)的研究方向,從高深的理論到真正商業(yè)化,大規(guī)模應(yīng)用還是很有難度分不開(kāi);另一方面,關(guān)系數(shù)據(jù)庫(kù)一直以來(lái)都是最大的市場(chǎng),這也是制約圖數(shù)據(jù)庫(kù)發(fā)展的另外一個(gè)原因。同樣的道理,雖然關(guān)系型數(shù)據(jù)庫(kù)時(shí)下正大行其道,但在剛開(kāi)始的前十年,甲骨文的產(chǎn)品和市場(chǎng)都是經(jīng)過(guò)了漫長(zhǎng)的迭代。

許昱博士總結(jié)了圖數(shù)據(jù)庫(kù)和傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的三大區(qū)別。

一是存儲(chǔ)模型不一樣,關(guān)系型數(shù)據(jù)庫(kù)數(shù)學(xué)模型是表格,一個(gè)最簡(jiǎn)單例子,一個(gè)人有一個(gè)身份證號(hào)、一個(gè)住址表、一個(gè)工資表、一個(gè)上學(xué)記錄表等存在幾個(gè)不同的表里,但是物理上、邏輯上都分開(kāi)了,想知道這個(gè)人住在哪個(gè)地方,讀過(guò)哪所學(xué)校,要把表合起來(lái),根據(jù)值一個(gè)個(gè)去拼才能找出來(lái)。而圖里,身份證號(hào)碼是唯一節(jié)點(diǎn),學(xué)校也是唯一節(jié)點(diǎn),馬上與全校學(xué)生聯(lián)系起來(lái)了。另外,圖數(shù)據(jù)庫(kù)的壓縮率是關(guān)系型數(shù)據(jù)庫(kù)的2倍至10倍,雖然儲(chǔ)存的變化不算太重要,但是計(jì)算、內(nèi)存和對(duì)緩存的利用度就不一樣,存儲(chǔ)模型不一樣。

關(guān)系型數(shù)據(jù)庫(kù)是人為打亂成很多表,然后通過(guò)計(jì)算“拼湊”起來(lái)才能建立起關(guān)系來(lái)。它雖然叫關(guān)系型數(shù)據(jù)庫(kù),但這個(gè)名字并不恰當(dāng),圖數(shù)據(jù)庫(kù)才是真正針對(duì)關(guān)系的一個(gè)數(shù)據(jù)庫(kù)。

第二,計(jì)算模型不一樣。在關(guān)系型數(shù)據(jù)庫(kù)的計(jì)算模型本質(zhì)上是“野蠻”的掃描,如兩個(gè)表之間值的比較,是否同一個(gè)人、同一個(gè)產(chǎn)品、同一個(gè)城市,城市有多少人口以及公司在哪個(gè)城市注冊(cè)等。這種方式性能很差,因?yàn)橐^(guò)濾很多無(wú)關(guān)的數(shù)據(jù)。圖就不一樣了,從一個(gè)人出發(fā),幾步關(guān)聯(lián),就能準(zhǔn)確定位。

第三,查詢(xún)方式的不同。關(guān)系型數(shù)據(jù)庫(kù)的SQL語(yǔ)言比較簡(jiǎn)單,不支持復(fù)雜關(guān)系的發(fā)掘和預(yù)測(cè)。TigerGraph采取類(lèi)似于SQL但功能更強(qiáng)的GSQL語(yǔ)言,允許動(dòng)態(tài)生成各種復(fù)雜的數(shù)據(jù)結(jié)構(gòu)來(lái)存儲(chǔ)動(dòng)態(tài)生成的證據(jù),支持用戶(hù)的推薦和打分,這在人工智能、機(jī)器學(xué)習(xí)的時(shí)代更有價(jià)值。

其實(shí),這些不同點(diǎn)恰恰也是TigerGraph新產(chǎn)品發(fā)布之前“沉寂”了五年多時(shí)間不為人知的原因,因?yàn)樗麄兺耆珴撔脑陉P(guān)系型數(shù)據(jù)庫(kù)領(lǐng)域外“另辟蹊徑”。

TigerGraph的優(yōu)勢(shì):“原生”與“并行”

近六年潛心研發(fā)與精心打磨的TigerGraph有哪些優(yōu)勢(shì)?

TigerGraph的技術(shù)突破代表著圖數(shù)據(jù)庫(kù)演進(jìn)的下一個(gè)里程碑——一個(gè)完整的、分布式的并行圖計(jì)算平臺(tái),能夠支持網(wǎng)絡(luò)規(guī)模數(shù)據(jù)的實(shí)時(shí)分析。TigerGraph通用版本是服務(wù)于企業(yè)級(jí)應(yīng)用、世界上第一個(gè)也是唯一的企業(yè)級(jí)原生并行圖數(shù)據(jù)庫(kù)以及圖數(shù)據(jù)庫(kù)云服務(wù),一同發(fā)布的還有GraphStudio——TigerGraph的可視化軟件開(kāi)發(fā)工具包。

TigerGraph是基于原生并行圖(NPG)技術(shù)的全球首個(gè)實(shí)時(shí)圖分析平臺(tái),通過(guò)為具有復(fù)雜和海量數(shù)據(jù)的企業(yè)提供實(shí)時(shí)深度鏈接分析支持,TigerGraph實(shí)現(xiàn)了圖平臺(tái)的真正承諾和好處。

TigerGraph用C++從頭到尾做了一套基于對(duì)圖的存儲(chǔ)引擎,并開(kāi)發(fā)了一個(gè)大規(guī)模并行的圖計(jì)算引擎,而且對(duì)圖進(jìn)行了大量界面可視化工作,包括可視化的開(kāi)發(fā)環(huán)境與探索、挖掘環(huán)境,成為業(yè)界唯一原生并行圖數(shù)據(jù)庫(kù)平臺(tái),其核心之處就是“原生”和“并行”。

原生,是基于圖的理論、基于圖的存儲(chǔ)、基于圖的計(jì)算,從底層開(kāi)始開(kāi)發(fā)的一套系統(tǒng),這是一條性能非常高,但開(kāi)發(fā)周期比較長(zhǎng)的一條路徑。不像用關(guān)系數(shù)據(jù)庫(kù)做存儲(chǔ)或者用文檔數(shù)據(jù)庫(kù)做存儲(chǔ),在上面做一個(gè)圖的API,馬上就有圖數(shù)據(jù)庫(kù)了。

并行,就是多臺(tái)機(jī)器并行處理,時(shí)下數(shù)據(jù)量這么大,一臺(tái)服務(wù)器再?gòu)?qiáng)大也不能解決用戶(hù)一些計(jì)算問(wèn)題。

TigerGraph三大技術(shù)優(yōu)勢(shì)

圖數(shù)據(jù)庫(kù)從最近十年的表現(xiàn)來(lái)看已經(jīng)成為關(guān)注度最高,也是發(fā)展趨勢(shì)最明顯的數(shù)據(jù)庫(kù)類(lèi)型。那從市場(chǎng)上產(chǎn)品的比較看,TigerGraph有哪些技術(shù)優(yōu)勢(shì)呢?

一是實(shí)時(shí)計(jì)算。查詢(xún)涉及到幾千萬(wàn)到上億個(gè)節(jié)點(diǎn)和邊關(guān)聯(lián)(點(diǎn)是實(shí)體,邊是關(guān)系),眨眼間就把復(fù)雜的關(guān)聯(lián)結(jié)果推送出來(lái),不論是做欺詐、分析、推薦還是實(shí)時(shí)的網(wǎng)絡(luò)計(jì)算,都可在1秒鐘以?xún)?nèi)實(shí)現(xiàn),比傳統(tǒng)?法快多個(gè)數(shù)量級(jí)。

二是超大規(guī)模,每臺(tái)機(jī)器每?時(shí)可加載50到150GB數(shù)據(jù),不再需要批量加載,在只有20臺(tái)商用計(jì)算機(jī)的集群上,能夠?qū)?0億以上的每日事件實(shí)時(shí)流式傳輸?shù)骄哂谐^(guò)1000億個(gè)頂點(diǎn)和超過(guò)6000億個(gè)邊的大數(shù)據(jù)圖譜。已成功在世界上最大的電子支付公司生產(chǎn)線上運(yùn)行兩年多,支持?jǐn)?shù)據(jù)庫(kù)的增刪改查,成為可以上線運(yùn)行的數(shù)據(jù)庫(kù)。

三是深度關(guān)聯(lián)。公司現(xiàn)在有高級(jí)易用的開(kāi)發(fā)語(yǔ)言;客戶(hù)完全不需要公司支持,借助TigerGraph網(wǎng)站上的技術(shù)文檔,下載軟件自己去寫(xiě)GSQL,做圖模型、數(shù)據(jù)錄入和二次開(kāi)發(fā);從數(shù)據(jù)深度發(fā)掘看,可以每秒每機(jī)遍歷數(shù)億個(gè)頂點(diǎn)/邊,步數(shù)可達(dá)三步或更多。

五年來(lái),TigerGraph在研發(fā)中其實(shí)踩過(guò)很多“坑”,實(shí)現(xiàn)了非常革命性的突破。許昱博士認(rèn)為,公司做得最好的是兩點(diǎn):一是基于分布式存儲(chǔ)系統(tǒng),選擇了最優(yōu)化的體系結(jié)構(gòu),解決了數(shù)據(jù)一致性的問(wèn)題;二是選型用C++做底層控制一切的內(nèi)存。盡管Java有很多優(yōu)點(diǎn),但是當(dāng)時(shí)TigerGraph做出了這個(gè)艱難的決定。

這些技術(shù)上的突破對(duì)于在最?的數(shù)據(jù)上進(jìn)?實(shí)時(shí)分析至關(guān)重。

這些數(shù)據(jù)應(yīng)用包括世界上最大的電子商務(wù)提供商的欺詐預(yù)防、世界上最大的移動(dòng)電子商務(wù)公司的實(shí)時(shí)推薦,和管理世界上最大的電力公司的能源傳輸網(wǎng)。

TigerGraph今年6月份在美國(guó)發(fā)布了兩個(gè)版本:一是終身免費(fèi)的開(kāi)發(fā)者版本(單機(jī)版),沒(méi)有數(shù)據(jù)限制、沒(méi)有時(shí)間限制;二是企業(yè)版本,是多機(jī)版,但有時(shí)間限制,比如幾個(gè)月。

廣泛的行業(yè)應(yīng)用

TigerGraph是業(yè)界唯一的原生、并行圖計(jì)算的大平臺(tái),特別適?于?圖——深度鏈接分析的最佳模型,這是因?yàn)樗軌蛱剿?、發(fā)現(xiàn)和預(yù)測(cè)關(guān)系。

在反欺詐和反洗錢(qián)方面,企業(yè)可以借助TigerGraph系統(tǒng)在企業(yè)數(shù)據(jù)全景圖上快速部署復(fù)雜有效的反欺詐和反洗錢(qián)業(yè)務(wù),利?實(shí)時(shí)數(shù)據(jù)和實(shí)時(shí)深度鏈接分析應(yīng)對(duì)?融犯罪。

原本許昱博士認(rèn)為T(mén)igerGraph是反洗錢(qián)最天然、最好的應(yīng)用,但去年11月份在美國(guó)發(fā)布以后的應(yīng)用結(jié)果令人驚訝——雖然紐約有不少銀行應(yīng)用于客戶(hù)的360度畫(huà)像、風(fēng)控、合規(guī)等領(lǐng)域,但西雅圖到南加州,到佛羅里達(dá),到美國(guó)的明尼蘇達(dá)不同的城市各行各業(yè)的客戶(hù)蜂擁而來(lái)——健康保險(xiǎn)公司利用知識(shí)圖譜反欺詐、電信公司為流失用戶(hù)畫(huà)像、昂貴新藥上市后制藥公司通過(guò)查悉醫(yī)生的影響力進(jìn)行精準(zhǔn)推送……

此外,采用TigerGraph,可通過(guò)了解企業(yè)控制人的關(guān)系、企業(yè)之間的擔(dān)保關(guān)聯(lián),銀行可最大限度地降低風(fēng)險(xiǎn)。例如,某些企業(yè)可能破產(chǎn)了,為其提供擔(dān)保的企業(yè)就可能陷入糾紛中。

專(zhuān)注為客戶(hù)創(chuàng)造價(jià)值,而非取代

圖數(shù)據(jù)庫(kù)最重要的能力是計(jì)算能力、關(guān)聯(lián)能力。許昱博士表示,TigerGraph生成很多高質(zhì)量的新的訓(xùn)練數(shù)據(jù),然后交給機(jī)器系統(tǒng)去學(xué)習(xí),可極大地減少誤報(bào)率,為各行各業(yè)提供做圖分析和知識(shí)圖譜的通用圖引擎,客戶(hù)可以很快建立針對(duì)自己企業(yè)的圖模型,將任何關(guān)聯(lián)方找出來(lái)。

TigerGraph有很多的優(yōu)勢(shì),但并不意味著要去顛覆傳統(tǒng)的數(shù)據(jù)庫(kù)。許昱博士認(rèn)為,公司是在做復(fù)雜關(guān)聯(lián)、實(shí)時(shí)計(jì)算等別人以前根本做不了的事情,做新一代的應(yīng)用程序,給客戶(hù)帶來(lái)價(jià)值,以解決他們數(shù)據(jù)量快速增長(zhǎng),或者更新成本太昂貴的難題,方便他們的應(yīng)用程序移植到圖數(shù)據(jù)庫(kù)上。

目前,TigerGraph的解決方案已經(jīng)被國(guó)內(nèi)的大型金融機(jī)構(gòu)、電力等不同行業(yè)的大量的客戶(hù)所采用。

在美國(guó),圖數(shù)據(jù)庫(kù)是近年來(lái)所有數(shù)據(jù)庫(kù)里發(fā)展速度最快的。保守的估計(jì),未來(lái)五年里將會(huì)有十倍的增長(zhǎng),圖數(shù)據(jù)庫(kù)市場(chǎng)發(fā)展?jié)摿涂臻g很大。許昱博士十分看好TigerGraph的未來(lái)。

分享到

xiesc

相關(guān)推薦