先智數(shù)據(jù)長期致力于基于AI的主動管理來解決混合多云環(huán)境中的復雜性并為客戶帶來創(chuàng)新價值。Ming還展示了Federator.ai與Datadog Monitoring Services集成的相關(guān)產(chǎn)品演示。
先智數(shù)據(jù)是家怎樣的公司?
先智數(shù)據(jù)團隊由一群在IT管理,基礎架構(gòu)和云運營,數(shù)據(jù)科學和AI技術(shù)方面具有專業(yè)知識的業(yè)內(nèi)資深人士組成。我們的共同愿景是,IT基礎架構(gòu)和云服務的目標是確??梢詽M足應用需求,并且必須積極主動、預先部署以避免事后才反思。如果我們能夠了解工作負載行為并在適當?shù)臅r間用適當數(shù)量的資源來匹配需求,則可以使操作的復雜性最小化,節(jié)省成本以及優(yōu)化性能。
這樣做的理由是什么?
管理現(xiàn)有IT基礎設施和云運營都是非常被動的任務,需要很多人的創(chuàng)造力。當我們引入容器化的應用,DevOps操作和新的多云范例時,情況變得更糟。此外,工作負載大多是動態(tài)的。跟蹤,管理和優(yōu)化具有挑戰(zhàn)性,必須進行巨大的更改。
這里先智數(shù)據(jù)(ProphetStor)CEO,Eric Chen還分享了一個小故事:
多年前,我在一家聯(lián)合創(chuàng)辦的公司工作,那時我們派了一組工程師在遠程客戶站點上部署軟件定義存儲解決方案,花了兩周時間完成,也贏得了要求嚴苛的客戶稱贊,是公司又一個新的成功案例。
一周后,我去拜訪了一同處理這位客戶案例的SI合作伙伴,沒有料想的慶功宴,那家公司CEO告訴我,Eric,這個項目很棒,你的技術(shù)團隊很厲害,客戶很滿意,我們賺了很多錢。但是,我想立即終止我們的分銷商合同。
我很震驚。得到的回答是,“我的團隊與您的技術(shù)團隊一起工作,他們要精疲力竭地了解配置的細節(jié),需要在每個步驟中都非常小心,連接電纜,獲取正確的尺寸信息,密切關(guān)注應用的行為,而且很多時候,他們需要猜測滿足SLA所需的資源。存儲管理只和空間/容量有關(guān),而與性能無關(guān),無法解決我在操作中看到的主要問題,用你的產(chǎn)品機會成本太高了,必須有一種更自動化和智能的方法才行?!?/p>
多年后,當我離開以前的公司后,遇到了麻省理工學院教授同時也是企業(yè)家的Sunny Siu。開始談論將應用意識引入存儲管理,然后再引入IT和云。2012年,AI仍處于休眠狀態(tài)。我們決定建立一家公司來引入AI/機器學習技術(shù)管理應用和資源,Sunny也成為投資者和公司總裁。我們的工作就是——借助AI技術(shù)以及Kubernetes,尤其是OpenShift中的主動管理方式以及如何在多云環(huán)境中進行性能和成本優(yōu)化。
如你所見,我們專注于Kubernetes/OpenShift平臺的次日運營( Day 2 Operation,算是新概念。簡單來說就是當你完成初期的設施搭建,配置,測試并實現(xiàn)運行后,再對平臺進行絕對優(yōu)化,監(jiān)視利用率,確保其可用性和成本優(yōu)化),因為我們著眼于運營自動化和效率。我們認為,這些會是為了讓大眾廣泛接受這個平臺所需解決的主要問題。
用戶角色擔當
由于我們正在開發(fā)一種解決效率和成本問題的產(chǎn)品,因此用戶角色是運營經(jīng)理,CIO,CFO和CEO。 Kubernetes具有敏捷,高性能和靈活性。但管理也非常復雜。盡管如此,平臺用途大于復雜性,因此,流行性迅速上升。
不過,簡化部署至關(guān)重要,是第一階段采用產(chǎn)品的重點。對我而言,Kubernetes和容器范例的最大好處是它向管理層提供的開放性和透明性?,F(xiàn)在,我們能夠觀察到操作的詳細信息,從應用到容器級別,再到基礎架構(gòu),云操作,硬件組件,甚至CPU內(nèi)核和DMA功能。
另一方面,對IT系統(tǒng)(如數(shù)據(jù)庫,MongoDB,Postgress)和虛擬化平臺(如Kubernetes),操作系統(tǒng)RHEL和硬件比如Intel或AMD CPU)都在提供產(chǎn)品方面表現(xiàn)出色,但都對水平層級施加了自我限制。結(jié)果,超出該特定層的任何內(nèi)容,他們都選擇不查看或優(yōu)化。
也就是說,它們傾向于啟發(fā)式和通用型。在Kubernetes/OpenShift平臺中,自我限制是對創(chuàng)新的真正浪費。我們應該利用整個系統(tǒng)的透明度,從應用到系統(tǒng),再到資源。然后引入一個好的編排器來匹配從應用到資源供應的需求。這就是為什么我們要做Federator.ai。
Kubernets/多云/OpenShift的市場格局
在最近的市場發(fā)展中,可以看到提供監(jiān)控服務或解決方案的供應商變得非常受歡迎。工具包括Datadog,Dynatrace,Sysdig,Instana,SignalFX等。它們有助于解決Kubernetes和云平臺中的“可視性”問題。幾年前,容器監(jiān)控解決方案還不夠成熟。而且當你遷移數(shù)據(jù)到云時,除非訂閱了監(jiān)控服務,否則就沒有在云上運行的應用和系統(tǒng)的可見性。因此,我們認為監(jiān)控市場在不久的將來仍將有很高的需求。一個輔助證明是幾周前,IBM剛剛收購了Instana。
接下來要解決的問題是安全性。我們可以在這類市場中看到一些活躍的供應商,例如Sysdig。
我們認為,下一個大趨勢是涉及Day 2 Operation的第2階段采用。在將工作負載部署到云之后,管理員將在性能和成本方面面臨下一個運營效率問題。
很多經(jīng)理在收到云賬單時大為震驚。我本人就是受害者。我認為,如果沒有良好的計劃和對云計算的操作模型以及如何收費的正確理解,應用的性能以及在云上運行工作負載的成本可能不會達到預期。此外,多云環(huán)境還帶來了另一種復雜性——選擇最佳的定價計劃來滿足工作負載的SLA?,F(xiàn)在,你還可以擁有多個云服務提供商。除此之外,一個服務提供商的每個數(shù)據(jù)中心都可能針對同一實例提供非常不同的定價。
因此,我們相信先智數(shù)據(jù)通過提供針對自動化,性能和運營成本的基于AI的主動管理解決方案可以為社區(qū)做出貢獻。我們的解決方案與其他廠商的主要區(qū)別在于我們考慮了全棧式操作。
圖1:Federator.ai –云自動化運行解決方案
圖2:為什么需要應用感知操作:我們的答案
圖3:感知應用的操作:自動化,性能和成本
圖4:應用剖析結(jié)構(gòu)和多層關(guān)聯(lián):靜態(tài)拓撲和動態(tài)關(guān)聯(lián)
圖5:工作負載預測:捕獲應用動態(tài)
了解工作負載變化能幫助我們進行良好的資源規(guī)劃。
Federator.ai允許用戶觀察Kubernetes或OpenShift集群中應用/資源在不同層級的工作負載預測。
通過對不同資源層使用不同的預測粒度和預測結(jié)果,用戶可以更好地進行資源規(guī)劃,以優(yōu)化其性能和資源利用率。
圖6:工作負載預測現(xiàn)場演示
在大多數(shù)情況下,CPU或內(nèi)存使用情況并不是衡量實際工作負載的良好指標。以Kafka分布式日志系統(tǒng)為例;你有很多Kafka生產(chǎn)者在一天內(nèi)不同時間以不同的價格向Kafka代理商發(fā)送消息。代理商要確保自己有足夠的Kafka用戶的同時,還要及時接收和處理這些消息,不會造成大的延遲。 Kafka使用者的CPU使用率并不是最好的工作負載指標。在這種情況下,來自生產(chǎn)者消息的生產(chǎn)率是正確的工作負載指標。借助Federator.ai預測適當工作負載的能力,我們可以動態(tài)擴展Kafka使用人數(shù),以便在適當?shù)臅r間為適當數(shù)量的使用者提供服務。
當我們可以預測到動態(tài)工作負載時就是能提供操作的絕佳示例。
圖7:感知應用的工作負載預測和自動擴展或收縮的實時演示
當我們完全了解未來工作負載并將其用于適當資源時,我們將獲得更多的收益。比如你可能正在考慮將當前的本地集群遷移到公有云。了解未來的工作負載能幫助你選擇最經(jīng)濟高效的正確實例,并同時處理集群的工作負載。
如果你已經(jīng)是AWS的客戶,仍然可以用Federator.ai的分析來獲取建議,說明哪些地區(qū)的實例類型可以降低成本。Federator.ai為您提供基于按需,保留甚至SPOT實例的成本估算的不同方法。
圖8:多云成本分析實時演示
Federator.ai可以進一步分析應用的使用情況和預測,以在下一個級別了解不同應用上的費用。
在此示例中,你可以看到集群超額配置時,系統(tǒng)在空閑狀態(tài)上浪費了多少。 Federator.ai為你提供有關(guān)哪些實例類型和集群大小的建議,這些實例可以通過工作負載預測來優(yōu)化成本。