视色av,亚洲免费av一区二区,日韩av一区在线观看,日韩色中色

首頁

/

AIOps與傳統運維工具的區別在哪兒?

發布日期:2022-08-30 11:35:59

分享到

1. 從傳統運維到AIOps應用

1.1 場景舉例

以企業常見的監控場景為例,傳統的運維模式一般會采用閾值指標對特定的IT對象設置告警策略。閾值的設定往往是固定不變的指標,在某些情形下會出現誤告警或者不告警的問題,固定的閾值指標不能直接反映被監控對象的運行狀態;更有甚者,許多告警事件之間存在共同原因,但是因為現有技術手段的原因不能找到發生告警的根本原因。諸如此類的情形導致組織效率低下、運維成本增高。

以上是傳統運維中發生的典型場景,為了解決類似的問題,我們從場景出發抽象出解決方法的邏輯,可以發現,運維人員要做到:

  • 在統一信息的基礎上作數據分析,得出告警的根本原因以及彼此之間的聯系。

其實要實現類似的功能或者目的,不可或缺的是機器學習、大數據分析等新興技術手段。

1.2 傳統運維困境特征總結

傳統的運維模式正在面臨兩個主要的運維挑戰:

  • 運維環境的混合度和復雜性日益提高:企業業務往往運行在復雜的基礎設施上(本地數據中心、公有云、私有云等),業務架構混合多樣(集群、分布式、微服務等)。
  • 新的IT技術不斷采用:為了滿足企業員工和終端客戶的更高的需求或者更好的使用體驗,現有業務往往要保持一定頻率的新技術的更新使用。

與上例中傳統運維面對的監控場景的困境類似,日益復雜的運維環境和新技術的更新迭代會帶來一下問題:

  • 運維環境復雜度和規模增加使得數據規模量暴漲,帶來數據分析的困難,以及IT運維團隊無法技術對海量數據背后的事件的出現給出處理的優先級。
  • IT 運維團隊識別運維環境中相互依賴但是獨立存儲和分布的關聯數據,如難以實現故障的根因定位。
  • IT運維難以對要發生的事件進行提前預測,無法根據快速分析實時數據,難以及時響應運維問題。

一般而言,傳統運維要經過腳本化運維、工具化運維、平臺化運維、大數據運維,才能到達智能化運維階段。如果從執行和決策的角度觀察整個運維體系的演變,運維體系的決策權和執行權逐步的向機器或者系統轉向,越是先進的運維體系或者工具,人在運維工作中的比重越低。具體內容可參看下圖:




1.3 傳統運維困境解決方案—AIOps逐漸浮出水面

我們必須承認:在傳統方案下的運維能力已經達到了傳統運維階段應有的最高效率,因為一旦傳統的運維解決方案進一步改進的空間,那么運維困境就不會這么廣泛和普遍,也就是說以上傳統運維面臨的共性問題是已有的運維體系達到了自身的能力邊界后產生的。

在運維行業,技術的革新和應用是提升運維效率的至關重要的方法。針對傳統運維無法解決的問題,新的技術和方法得到應用,比如大數據技術、機器學習技術。而AIOps正是以這兩種技術為代表的新興的運維技術解決方案。


2. AIOps內容

2.1 AIOps演變

AIOps是從ITOA演變過來的一個行業術語,ITOA是通過軟件或者工具把不同來源的信息收集起來進而運用大數據分析技術形成對運維事件的觀點。AIOps在內涵上與ITOA有一脈相承的地方,但是在以下三個方面做了拓展:

  • 可以獲取更多種類的數據
  • 可以處理除歷史數據以外的實時數據
  • 利用機器學習技術來幫助分析總量不斷增長的數據集

2.2 AIOps定義

根據國際著名管理咨詢機構Gartner的定義,AIOps是大數據和機器學習的結合,使 IT 操作流程自動化,包括事件關聯、異常檢測和因果關系確定。

如何理解Gartner的定義呢?這里有兩個重點,一個是大數據和機器學習的技術手段,另一個是基于技術手段做到的場景功能:運維環境或者事件的可視化(這里的可視化不僅僅是指可視化的界面展示,而是側重運維數據包含能夠導致工作人員得出對運維事件的有價值觀點的信息,如因果關系、關聯關系等)。具體可參考下圖:



我們可以將AIOps理解成:學習人類在運維過程中枯燥乏味的部分,包括機械化的操作、思維固化的判斷識別,并代替人類高效完成這部分工作,讓人類能夠將時間和精力投入到有價值的創造中去,讓企業實現業務價值,讓員工發揮創造性,獲得自我收獲。

機器學習的作用在于:使用算法從運維數據中自動分析獲得規律,并利用規律對未知數據進行預測、預警。

機器學習過程包括:

整個AIOps的運維過程可以概括為:AI幫助人,ML賦能人。

2.3 AIOps的運維目標

作為傳統運維技術方案出現缺陷之后的補救或者優化方法,AIOps旨在得到運維環境中有意義的見解并采取行動,以幫助 IT 運行更高效的運營、做出更好的決策、以及支持業務生產力進一步發展。


2.4 AIOps工作原理步驟

  • 提取數據信息:在日益混合的基礎架構中,提取來自基礎設施、中間件、網絡、數據庫、應用的信息,包括實時信息和歷史信息,當然在此過程中會涉及事件和數據的規范化處理。
  • 發現和統一拓撲關系:發現IT資產配置之間的關聯關系并形成拓撲關系,該拓撲關系明確了各個IT配置之間的邏輯依賴關系,讓運維工作人員可以更好的了解運維資產以何種方式支持業務。
  • 利用拓撲關系建立運維事件的關聯性:通過將IT資產配置信息的拓撲關系與相關運維事件的發生時間、邏輯位置聯系起來,把事件進行壓縮,呈現出有效信息。
  • 事件識別:機器學習能力幫助AIOps解決方案持續學習和提升對單個事件模式的理解,達到發現甚至提取預測重要的事件、事故或者異常行為的目的。
  • 事件解決:通過前面四個步驟,AIOps可以修復或者處理異常的事件。高效的AIOps解決方案有兩種主要的事件處理方案:持續觀測以自動處理以及給出清晰的運維指導或者建議。

2.5 AIOps最佳實踐

  • 提供跨領域的運維感知,賦予可操作性:利用企業各個運維領域的數據,通過運維平臺管理,AIOps可以更好的預測問題、更快的解決問題,并始終提供在線服務。
  • 事件降噪:將嚴重事件與常見的普通事件區分開來,以更加清楚的了解導致事件風暴的實際問題。
  • 智能異常檢測:通過整合整個IT環境的數據,AIOps可以過濾冗余或者無效數據,進而觸發適當事件的通知;傳統運維模式往往使用靜態的閾值設置,告警指標難以根據事件的發展動態進行調整,AIOps的異常檢測能力通過將當前數據與歷史趨勢進行比較得出事件運行規律,智能決策是否觸發事件告警。
  • 事件的智能化處理以及智能管理通過持續檢測基礎架構的運行狀態以及服務臺活動,用戶可以主動采取行動處理事件或者根據智能運維系統的建議進行處理,整個事件處理過程更加快速。
  • 跨領域的事件感知和根因分析:使用先進的分析技術整合來自各個運維領域的數據,AIOps有更好的機會得到問題發生的根本原因,進而提高時間升級的效率,降低平均修復時間。
  • 容量分析:理解IT資源的利用方式和使用時間,決定需要資源的應用或者服務的資源分配,識別限制資源以減少資源消耗,削減成本。

2.6 業界AIOps運維建設進展總結

根據人工智能運維體系在現實中的落地情況,大概可以分成五個發展層級,分別是:初始級、成長級、成熟級、專家級、卓越級,就大多數使用智能運維手段的公司而言,相當比例的企業處于專家級之前的階段。



2.7 AIOps運維服務架構設計

經過前面的敘述,我們要時刻不忘AIOps的運維的本質:數據逐步建設和治理、學件逐步深入和全面、場景逐步擴展和聯動、組織逐步培養和賦能,即無論是任何工具或者技術手段的應用,都要服從于提升運維體系建設、賦能組織的運維目標。

AIOps運維體系架構圖參考:



2.8 AIOps建設路徑

① 路徑架構圖

通過以上的介紹,可以發現,AIOps的發展路徑一直受到數據處理和分析能力的延宕或者推動,換言之,是數據的分析和處理能力決定了企業的智能運維解決方案能夠走多遠。下圖展示了整個AIOps運維的建設路徑,數據管理能力分成了三個階段,由數據管理能力決定的智能分析也如此劃分,智能運維的目標是具備智能數據管理能力以及復合模型的分析能力,從而服務與業務畫像(運維數據的洞察)。

② 數據管理

在AIOps運維體系中,數據的管理以及基于數據的分析能力是整個智能運維的基礎和起點。

從數據屬性上將,數據包括屬性數據、運行數據和服務數據:

從數據的來源上講,智能運維致力于把來自技術、業務及管理的數據元數據進行采集、存儲、分析、應用:

對這三種數據的管理要遵循幾個原則:

  • 確保異構數據獲取保證統一管理
  • 實現同源變更
  • 保障多方應用的數據消費
  • 確保數據的質量管控




3. AIOps相比傳統運維的優勢

AIOps在整體層面而言,可以實現海量數據下的智能決策,提升故障發現、分析、處理的整體效率,并不斷沉淀經驗,實現更為快速和精準的運維運營決策。

具體到各個利益利益相關方,則有如下的優勢:

1. 對一線運維人員:

  • 大數據帶來更多價值:傳統運維模式下,包含在海量運維數據之內的有效信息無法得到高效利用,AIOps通過使用機器學習、大數據等技術手段可以從運維系統生成的數據中了解更多的信息,并可以將曾經的數據噪音轉換為有價值的看法或者觀點,輔助運維工作人員做出決策。
  • 具有更流暢的操作:AIOps 可以通過更快的根本原因分析、主動支持、自動化操作和預測分析來幫助公司避免代價高昂的停機時間并提高 MTTD/MTTR。

2. 對企業IT部門:

  • 降低成本:通過時間處理左移,企業可以節省時間、削減成本,同時讓服務臺能夠專注于更高優先級的任務。
  • 提高 IT 效率:AIOps 最終使 IT 員工能夠更多地專注于需要人工解決的問題或者任務,并可以通過人工決策的輸入持續改進IT的運維工作流程,比如通過人工幫助機器處理無法處理的信息甚至決策。

3. 對使用企業產品

  • 改善最終用戶體驗:通過運維工作的主動響應、更快的自動化處理,AIOps可以減少最終用戶在發生IT問題時的時間花費,進而提升用戶體驗,為用戶帶來更好的產品或者服務。


免費申請演示

聯系我們

服務熱線:

020-38847288

QQ咨詢:

3593213400

在線溝通:

立即咨詢
查看更多聯系方式

申請演示

請登錄后在查看!