1. 從傳統運維到AIOps應用
1.1 場景舉例
以企業常見的監控場景為例,傳統的運維模式一般會采用閾值指標對特定的IT對象設置告警策略。閾值的設定往往是固定不變的指標,在某些情形下會出現誤告警或者不告警的問題,固定的閾值指標不能直接反映被監控對象的運行狀態;更有甚者,許多告警事件之間存在共同原因,但是因為現有技術手段的原因不能找到發生告警的根本原因。諸如此類的情形導致組織效率低下、運維成本增高。
以上是傳統運維中發生的典型場景,為了解決類似的問題,我們從場景出發抽象出解決方法的邏輯,可以發現,運維人員要做到:
其實要實現類似的功能或者目的,不可或缺的是機器學習、大數據分析等新興技術手段。
1.2 傳統運維困境特征總結
傳統的運維模式正在面臨兩個主要的運維挑戰:
與上例中傳統運維面對的監控場景的困境類似,日益復雜的運維環境和新技術的更新迭代會帶來一下問題:
一般而言,傳統運維要經過腳本化運維、工具化運維、平臺化運維、大數據運維,才能到達智能化運維階段。如果從執行和決策的角度觀察整個運維體系的演變,運維體系的決策權和執行權逐步的向機器或者系統轉向,越是先進的運維體系或者工具,人在運維工作中的比重越低。具體內容可參看下圖:
1.3 傳統運維困境解決方案—AIOps逐漸浮出水面
我們必須承認:在傳統方案下的運維能力已經達到了傳統運維階段應有的最高效率,因為一旦傳統的運維解決方案進一步改進的空間,那么運維困境就不會這么廣泛和普遍,也就是說以上傳統運維面臨的共性問題是已有的運維體系達到了自身的能力邊界后產生的。
在運維行業,技術的革新和應用是提升運維效率的至關重要的方法。針對傳統運維無法解決的問題,新的技術和方法得到應用,比如大數據技術、機器學習技術。而AIOps正是以這兩種技術為代表的新興的運維技術解決方案。
2. AIOps內容
2.1 AIOps演變
AIOps是從ITOA演變過來的一個行業術語,ITOA是通過軟件或者工具把不同來源的信息收集起來進而運用大數據分析技術形成對運維事件的觀點。AIOps在內涵上與ITOA有一脈相承的地方,但是在以下三個方面做了拓展:
2.2 AIOps定義
根據國際著名管理咨詢機構Gartner的定義,AIOps是大數據和機器學習的結合,使 IT 操作流程自動化,包括事件關聯、異常檢測和因果關系確定。
如何理解Gartner的定義呢?這里有兩個重點,一個是大數據和機器學習的技術手段,另一個是基于技術手段做到的場景功能:運維環境或者事件的可視化(這里的可視化不僅僅是指可視化的界面展示,而是側重運維數據包含能夠導致工作人員得出對運維事件的有價值觀點的信息,如因果關系、關聯關系等)。具體可參考下圖:
我們可以將AIOps理解成:學習人類在運維過程中枯燥乏味的部分,包括機械化的操作、思維固化的判斷識別,并代替人類高效完成這部分工作,讓人類能夠將時間和精力投入到有價值的創造中去,讓企業實現業務價值,讓員工發揮創造性,獲得自我收獲。
機器學習的作用在于:使用算法從運維數據中自動分析獲得規律,并利用規律對未知數據進行預測、預警。
機器學習過程包括:
整個AIOps的運維過程可以概括為:AI幫助人,ML賦能人。
2.3 AIOps的運維目標
作為傳統運維技術方案出現缺陷之后的補救或者優化方法,AIOps旨在得到運維環境中有意義的見解并采取行動,以幫助 IT 運行更高效的運營、做出更好的決策、以及支持業務生產力進一步發展。
2.4 AIOps工作原理步驟
2.5 AIOps最佳實踐
2.6 業界AIOps運維建設進展總結
根據人工智能運維體系在現實中的落地情況,大概可以分成五個發展層級,分別是:初始級、成長級、成熟級、專家級、卓越級,就大多數使用智能運維手段的公司而言,相當比例的企業處于專家級之前的階段。
2.7 AIOps運維服務架構設計
經過前面的敘述,我們要時刻不忘AIOps的運維的本質:數據逐步建設和治理、學件逐步深入和全面、場景逐步擴展和聯動、組織逐步培養和賦能,即無論是任何工具或者技術手段的應用,都要服從于提升運維體系建設、賦能組織的運維目標。
AIOps運維體系架構圖參考:
2.8 AIOps建設路徑
① 路徑架構圖
通過以上的介紹,可以發現,AIOps的發展路徑一直受到數據處理和分析能力的延宕或者推動,換言之,是數據的分析和處理能力決定了企業的智能運維解決方案能夠走多遠。下圖展示了整個AIOps運維的建設路徑,數據管理能力分成了三個階段,由數據管理能力決定的智能分析也如此劃分,智能運維的目標是具備智能數據管理能力以及復合模型的分析能力,從而服務與業務畫像(運維數據的洞察)。
② 數據管理
在AIOps運維體系中,數據的管理以及基于數據的分析能力是整個智能運維的基礎和起點。
從數據屬性上將,數據包括屬性數據、運行數據和服務數據:
從數據的來源上講,智能運維致力于把來自技術、業務及管理的數據元數據進行采集、存儲、分析、應用:
對這三種數據的管理要遵循幾個原則:
3. AIOps相比傳統運維的優勢
AIOps在整體層面而言,可以實現海量數據下的智能決策,提升故障發現、分析、處理的整體效率,并不斷沉淀經驗,實現更為快速和精準的運維運營決策。
具體到各個利益利益相關方,則有如下的優勢:
1. 對一線運維人員:
2. 對企業IT部門:
3. 對使用企業產品
申請演示