01. 數據與智能技術在運維業務中的定位
數據與智能技術在運維業務中的應用近幾年進入“實用化提升階段”,無論從供給方,還是需求方,都逐步認識到,“數據與智能”運維有其邊界和條件,“AI加持運維”比“AI顛覆運維”有了更廣泛的聲音;我們樂于看到甲乙方更為聚焦在實用化業務場景上:基于數據與智能的技術手段,補足和提升一體化運維。
回歸業務本質,運維復雜度是由管理場景和技術對象共同來影響的,所以回到一體化運維的定義中:基于運維業務視角的角色、流程、活動(對象)、工具系統的整合,業務運轉順暢、流程運行高速、工具支撐高效是對運維一體化的核心驗證,運維一體化不僅僅是工具全面和單一工具技術功能完備,而是要融入業務設計和整個體系中。因而數據和智能是一種生產力,尤其是在數據整合、高階分析場景上,帶來整體的提升。
運維大數據在運維的定位:跨多數據源系統,實現配置、運行、操作、流程等維度數據源分析,提升性能容量、觀測整合、運營分析等的運維能力。例如:在一站式數據和功能閉環的可觀測架構設計下,數據采集、清洗、存儲、檢測、消費均自行閉環,產品內置大數據能力。然而,由于數據源來自不同的專業監控工具,對數據接入、統一元數據和數據標簽的要求變得更高。因此,需要運維大數據進行管理和處理。
AI技術在運維中的定位:通過機器學習、自然語言處理、大語言模型和其他AI技術,AI in All來對原有運維系統的能力加持,提升故障管理、服務優化、成本節省、安全提升等運維能力。例如:在一體化運維的告警事件中心里,核心是告警接入、標準化與豐富、告警收斂、屏蔽、委派、生成事件、自動化處置,而在規模到達一定量級的告警數,則需要文本相似度等算法來做告警的智能聚合,或基于圖譜的智能聚合,這樣能在原有基礎上進一步升級。
概要設計:運維大數據及AI是技術能力,核心是應用到運維業務場景中;有三個核心基礎:基礎運維系統提供數據和能力、數據及AI平臺提供數據處理和模型訓練能力、運維數據分析及算法工程師和團隊提供組織支撐。
02. 大數據分析運維場景實踐
首先初步定義運維數據域,可以大致劃分成5個域:
① 配置域:IT資產管理系統、配置管理中各類電子信息設備的基本信息、技術參數及關聯關系等信息,包括PC機、服務器、存儲設備、網絡設備、安全設備、輔助設備、機房環境設備、套裝軟件及應用系統軟件等。
② 狀態域:IT監控、自動化運維、安全監測等采集的設備軟硬件性能、狀態、事件、日志、告警及實用化數據等。
③ 流程域:運維流程管理中執行一個業務流程所產生的相關記錄數據。
④ 作業域:自動化作業、故障自愈、編排處置步驟等作業執行流程數據和操作審計數據。
⑤ 知識域:故障事件處理經驗,其他相關知識庫,以知識主題、關鍵字索引、內容等形式存在。
數據治理框架核心要定義幾個問題:
這里有幾個實踐建議:
① 消費場景聚焦在提升性能容量、觀測整合、運營分析的高階運維能力;尤其是在觀測整合上,當前可觀測主要圍繞故障分析和定位展開,基于數據管理框架,則可以完成數據標簽統一、數據聚合計算、數據關聯信息平面、AI模型應用等,例如其中一個觀測場景可以基于告警視角,展開Trace、Log、Metric、場景視圖、知識庫關聯、變更事件關聯分析等,來形成初步的觀測整合分析場景:
② 技術價值主要體現在復雜和大規模的數據清洗、開發和存儲需求;跨數據源的數據關聯計算;聯動MLOps實現數據樣本和數據源的關聯,實現AIOps模型開發和應用。
③ 數據管理采用專業分散,消費驅動的模式管理,專業分散是指如CMDB、Metric、Trace、Log等都在專業管理工具里,消費驅動則是基于場景調用時,再去做數據接入、標簽、關聯計算等,支撐數據之上的場景應用。
而到運維數據平臺自身的應用架構,運維數據平臺應該具備的核心功能包括數據采集接入、數據清洗加工、數據入庫存儲、數據開發、數據探索、數據集市等,并且要具備元數據、數據質量和安全等管理能力和自運維能力。在運維數據管理過程中不僅要關注“穩定”“安全”“可靠”,更要關注“體驗”“效率”“效益”。
03. AI運維場景實踐
數據+算法驅動的分析決策能力是AIOps場景落地的核心能力。基于運維數據平臺提供的高質量、低延遲的統一運維數據,智能分析決策平臺可以根據不同場景需求采用適合的AI算法和模型做出合理判斷或結論,并驅動自動管控平臺執行運維操作。
因此,智能分析決策平臺最核心的模塊是人工智能/機器學習平臺。類似于行業通用的機器學習平臺,它需要具備數據集成和計算、模型開發和訓練、模型部署和推理等基礎功能。然而,為了支撐AIOps場景,該平臺需要在運維領域中加入一些特性,高效地孵化出適配各種智能運維場景的算法和模型。
首先,智能分析決策平臺需要建立運維數據模型、指標體系和知識圖譜。該功能面向可擴展的AI場景,依托于運維數據平臺,采用“采集、治理、應用、采集”的循環迭代方法。通過不斷嘗試落地AIOps場景,發現數據質量問題,并進行補充完善。
其次,智能分析決策平臺最終的用戶是運維人員。因此,它需要具備流程化的低門檻場景建模能力,采用向導式的圖形化建模。這樣可以將運維人員難以理解的算法變成“組件”,將模型訓練過程中的復雜調參過程變成“靈敏度調整”,從而更快地將成熟的AI場景普及到更多的業務中。
最后,可以將運維領域的DevOps理念引入到算法和模型開發過程中,以加速AI場景的開發。
1)指標異常檢測
指標異常檢測是其他智能運維場景建設的基礎,屬于單場景,異常檢測的結果將為后續的告警收斂、故障定位、故障自愈等場景提供重要輸入。指標一般分為業務指標(如訪問量、響應率、響應時間等)、性能指標(CPU、內存、IO、網絡流量等),并且匯總多個獨立的或關系型的指標可以組成不同的多指標異常檢測。這里詳細介紹一下性能單指標異常檢測。
性能指標異常檢測可以采用了時間序列特征提取和深度貝葉斯學習的通用異常檢測方案,它考慮了不同類型曲線(周期型、穩定型、稀疏型)的特征,可以滿足機器指標、業務指標等時序數據的異常檢測需求。
通用單指標異常檢測的檢測流程分為異常模式提取和有監督異常檢測兩部分:
①在異常模式提取階段,基于概率論、極值理論、殘差理論等,從時序數據中提取能多方面表征數據異常模式的特征。
②在有監督異常檢測階段,采用基于主動學習的深度貝葉斯模型,能夠在異常檢測的同時,根據用戶反饋學習未知的異常模式和部分用戶偏好。
單指標異常檢測可以集成應用到監控產品中,當CPU使用率突降和磁盤使用率突降時,通用單指標異常檢測算法可檢測出異常點,并在告警中心可以展示告警詳情。包括告警內容,以及關聯的維度。如下圖所示,其中檢測出異常時刻,會進行標注(紅色框)。
2)時序數據預測
在IT運維領域,對信息系統進行檢測,會產生大量多類型的時間序列數據,如用戶在線數、主機CPU使用率等。時序數據預測利用歷史時間,序列數據預測未來一段時間數據的變化趨勢,可以滿足如CPU、磁盤使用率、在線人數等各類大型在線業務的時序預測需求,為用戶做出重要決策(如資源管理、異常告警等)提供準確有力的數據支撐。
時序數據預測是一種基于Transformer的時間序列預測方法,Transformer是最成功的序列模型架構,在自然語言處理(NLP)、語音識別和計算機視覺等各方面有著非常顯著的優勢。基于Transformer的時間序列預測模型,廣泛運用的相關場景包括交通流量估計、能源管理、金融等領域。在運維領域主要對長時時序數據進行預測,例如資源的容量預測(如服務器的CPU、Mem)、成本預測等。
時序數據預測方案設計了一套基于Transformer模型的融合遷移學習和增量學習的時間序列預測服務,它通過對不同頻率下的時間序列指標進行歸一化,以確保模型能在多源系統之間實現共享,采用基于貝葉斯估計的Transformer模型來生成預測邊緣分布,同時將遷移學習和增量學習引入到模型訓練過程中以避免概念漂移風險,確保模型的長期預測性能。
時序數據預測算法可以集成應用在配置管理平臺的資產盤點分析和容量管理平臺的容量分析預測等場景,分析和預測IT系統的關鍵應用未來的容量情況,支撐報表展示和輔助客戶進行資源規劃。下圖是在容量管理平臺里的一個業務彈性擴縮容場景,應用時序數據預測AI模型對某業務服務器集群CPU使用量進行預測分析,并結合自動化系統執行擴縮容任務,在保障業務穩定的情況下,降低了30%的成本。
3)多維下鉆
業務系統的管理人員需要監控大量的指標來了解和維護系統的可用性,通常這些指標會包含一些維度,例如,一個微服務調用數相關的指標可能會包含服務供應方(Internet Service Provider,ISP)、服務所屬業務信息等維度。通過組合不同維度來匯總指標,可以從不同粒度,不同角度來充分展示系統的實時狀態。然而,由于維度的組合爆炸問題,系統管理人員通常需要篩選并重點關注某些維度組合下的指標匯總值;這些指標的匯總方式可以是求和,求均值等。經過篩選出來的指標匯總值又稱為SLI (Service Level Indicator)。當從SLI中檢測出異常時,為了診斷異常,就需要找出實際上導致SLI出現異常的維度與這一維度下的元素組合,這一過程又稱為多維下鉆。
基于多維下鉆和貝葉斯網絡的多維指標異常根因維度定位方法流程如下圖所示,由檢測出的SLI異常觸發。多維下鉆算法包含維度映射構造和維度下鉆兩個核心步驟。維度映射構建旨在指定各個最細粒度指標與聚合形成的SLI之間的計算公式。這一計算公式可由用戶配置的,用戶可基于業務自身需要定制任意SLI指標計算方式。用戶對SLI指標計算方法的需求包含但不限于計數型,求和型,求均值型,求最值型,求分位數型和求比例型。異常維度下鉆,就是要利用各個最細粒度指標的值作為輸入,最終找出真正導致匯總形成的SLI指標出現異常的維度和對應的元素組合。由于組合爆炸問題,需要充分挖掘異常維度的特征,以設計啟發式搜索的方法來實現這一目的。
在某些情形中,在下鉆出具體的異常維度后,需要更進一步地明確這些異常維度之間的因果關系。最終識別的異常維度及其因果關系會提供給用戶,輔助其對系統中出現的故障進行根因分析,做出快速響應與恢復。
在監控場景的單指標告警策略,如果沒有配置完整的維度信息,可能在告警時無法準確判斷當前異常是由哪個維度導致的。維度下鉆功能可以自動分析異常的維度信息,輔助定位問題。如某業務的在線人數檢測到異常,通過下鉆該時間點的異常,給出具體異常的維度(比如用戶所屬省份、客戶端版本等),以及最有可能異常的具體維度值 (含排序)。
4)指標關聯推薦
在生產環境下,在線系統的系統管理人員需要管理大量的運維對象(例如,關鍵績效指標等描述應用服務能力的指標,服務器、公共和自定義組件等基礎物理設施)來維護系統的可用性。其中,每個運維對象會暴露大量的監控指標,供系統管理人員從各個方面來監視系統的實時狀態。通常,這些監控指標的數量可達成百上千個,并且,隨著系統可觀測性的發展,這一數量只會越來越大。大量的監控指標使得系統管理人員疲于觀察和分析,極大地影響了故障發現和診斷的效率。
指標關聯推薦算法設計了一種基于異常共現頻率和隨機游走的監控指標推薦方法。它由兩個主要部分組成:指標關系構建和關鍵指標推薦。指標關系構建首先計算監控指標兩兩之間的異常共現頻率和曲線相似度,然后基于異常共現頻率確立指標間的關系,并使用曲線相似度剪枝,避免冗余推薦,最終確立指標間關系圖。關鍵指標推薦則利用隨機游走算法分析上一步驟得出的指標關系圖,確定監控指標的推薦排名。
監控配置的單指標告警策略,只能對單個指標的異常進行告警,在排查問題時可能需要結合關聯指標進行人工的根因定位。關聯指標推薦功能會根據是否同時異常、告警發生時的曲線形態來推薦關聯指標。如下圖所示,某服務器的磁盤空間使用率檢測到異常,通過關聯指標推薦,發現了【操作系統】層級的其他7個關聯指標(僅展示3個示例),存在形狀相似或同時異常。
5)日志聚類
日志聚類的主要流程是日志經過預處理后,通過計算日志間的相似度,將相似度高的日志聚在一起,通過模式識別生成日志模式,從而得到日志聚類模型,供日志檢索和實時預測使用,降低運維人員查看海量異構日志的工作負擔。
聚類是找出日志分詞和已有聚類簇的最大相似度,進行閾值判別,放入對應類/創建新類。
模式識別是從聚好的類簇中提取日志模式。模式識別包括日志對齊和模式生成兩部分。
日志對齊:日志對齊的最佳方式是在合并后生成最小數量的通配符和變量。在對齊的過程中,分詞之間可能會插入一些GAP。對齊算法確保插入GAP后同一類的日志長度相等。
模式生成:得到相同長度的日志后,遍歷分詞,將不一致的替換為通配符,并輸出日志模式。
在藍鯨日志平臺,開啟日志聚類后,可以高效查看日志聚類結果,了解新出現的日志模式。同時可以根據Pattern從少到多的不同檔位,來靈活地選擇不同粒度的聚類結果。
6)日志異常檢測
日志異常檢測屬于相對復雜的場景,本方案采用了離線冷啟動訓練和在線訓練相結合的方式,依賴日志聚類單場景能力。離線冷啟動訓練,是將離線冷啟動日志樣本經過預處理后,計算日志間的相似度,將相似度高的日志聚在一起,通過模式識別生成日志模式,得到日志聚類模型,供在線訓練作為冷啟動模型使用;在線訓練以流式方式實時解析日志,快速匹配到已有的日志模式,對未匹配到的日志即為新的日志模式,即為新類日志。
當使用日志模板模型檢測出新的模板后,將會發出異常告警,可以在日志出現新的異常/錯誤模式時,第一時間收到告警,并查看對應的模式及日志內容。
7)告警收斂
在運維監控系統中,告警收斂是指對告警信息進行分析、合并和丟棄,以此來降低告警信息的規模,其對降低網絡運維的壓力意義重大。
在運維監控系統中,可以把告警分為噪聲告警、事件告警、故障告警。根據告警出現的頻繁程度和基于統計的方式,區分出噪聲告警和非噪聲告警,其中噪聲告警指的是在歷史上頻繁出現的告警。再根據非噪聲告警的數量和涉及的指標范圍,區分為事件告警和故障告警,一個故障的重要告警更多,涉及的指標也更廣。
聚集維度的告警收斂主要是基于頻繁項集進行挖掘,找到告警聚集的維度,比如告警都聚集在某個服務上、某個主機上、某個Pod上,幫助用戶快速定位告警的影響范圍或者根因。層級分析的告警收斂使用有監督的方式,對告警進行分類,假設常見的告警類型有應用層、服務層、主機層、數據中心層等,由于一般來說,越偏低層告警數量越多,用戶關心程度越低,因此采用高層級的告警收斂低層級的告警,將影響的最高層級通知用戶。
告警收斂后的降噪比如下圖所示,整體降噪比達到98.4%,某個業務的降噪比84.6%。
8)大語言模型應用
大語言模型在運維領域對于我們來看,改變了人與運維系統的交互模式,其中場景就包括智能問答、故障解決建議、數據統計分析等。
提供了集中核心能力:
嘉為藍鯨作為業內領先的平臺化、一體化、數智化運維解決方案提供商,我們堅定地致力于把成熟的業務實踐、領先的技術架構,賦能給我們的客戶。
本期我們共同探討了“數智化”相關內容,“一體化”、“平臺化”相關內容請點擊下方“系列推薦”。
最后,歡迎隨時與嘉為藍鯨共同探討!
總結:以上為筆者對數據與智能運維的剖析,歡迎探討交流,謝謝!
申請演示