视色av,亚洲免费av一区二区,日韩av一区在线观看,日韩色中色

首頁

/

IT可觀測產(chǎn)品剖析——告警全生命周期管理

發(fā)布日期:2024-07-18 15:14:23

分享到

01. 告警事件管理三個階段

1)告警事件管理三大階段

告警事件的全生命周期管理可以分為三大階段:事前、事中、事后。其中事前核心關注的是預防以及發(fā)現(xiàn)問題;事中核心關注的是快速發(fā)現(xiàn)和解決問題,確保業(yè)務連續(xù)性,降低損失;事后核心關注的是問題的復盤、知識沉淀積累以及持續(xù)優(yōu)化業(yè)務系統(tǒng),確保業(yè)務健康運行。


2)告警事件管理關鍵指標

業(yè)界最常用定義告警事件本身全生命周期的核心指標包含MTBF(故障前平均時間)、MTTR(平均恢復、修復、響應或解決時間)、MTTF(平均故障時間)和MTTA(平均確認時間),這一系列指標可以幫助技術團隊了解故障發(fā)生的頻率以及事件恢復的速度。

嘉為藍鯨告警中心(以下簡稱“告警中心”)基于CMDB模型和實例,以告警事件為中心,圍繞告警接入、告警豐富、告警收斂、告警處理&通知以及告警分析對企業(yè)業(yè)務系統(tǒng)告警統(tǒng)一管理。以下為一條告警在告警中心的全生命周期的流轉(zhuǎn)路徑。


02. 告警中心產(chǎn)品功能

功能點1:告警接入

告警中心支持Zabbix、Prometheus、VMware、華為云、阿里云等20余種常見監(jiān)控系統(tǒng)的標準化插件,開箱即用快速對接不同類型的監(jiān)控系統(tǒng)。此外還支持通過REST API方式對第三方系統(tǒng)推送的告警進行接入。


功能點2:告警豐富

  • 插件清洗:在接入不同系統(tǒng)的告警時,會根據(jù)插件中定義的數(shù)據(jù)清洗邏輯將關鍵的告警字段內(nèi)容進行輸出;
  • 常規(guī)豐富方案:若輸出的告警內(nèi)容不滿足標準格式要求,可進一步使用常規(guī)豐富方案對告警字段內(nèi)容進行替換、提取、調(diào)整的操作;
  • CMDB豐富方案:告警中心可以聯(lián)動CMDB,根據(jù)對象模型實例關聯(lián)關系,自動將CMDB中的配置信息豐富到告警詳情內(nèi)容中。
告警詳情信息
常規(guī)豐富方案
CMDB豐富方案


功能點3:告警收斂

對于企業(yè)中的告警風暴以及各類告警誤報漏報的場景,告警中心具備成熟的告警收斂解決方案。包含自動去重算法、告警抑制、告警屏蔽、告警合并。這些收斂方案可根據(jù)不同的業(yè)務場景進行靈活配置使用,告警壓縮占比高達90%以上。


① 自動去重算法

內(nèi)置自動去重會根據(jù)一條告警的告警源ID、告警對象、告警指標以及告警等級四個字段信息使用哈希算法生成告警事件ID,相同ID的告警將被系統(tǒng)自動去重處理。

② 告警防抖抑制

防抖抑制主要針對抖動較高的指標例如CPU使用率,網(wǎng)卡流量等可以通過配置在一定周期內(nèi)出現(xiàn)多少次才會產(chǎn)生一條有效告警。

防抖抑制方案


③ 關聯(lián)聚合抑制

可以根據(jù)自定義字段進行相同的告警進行抑制,例如:當業(yè)務名稱、告警對象、告警指標、告警等級都一樣的告警可以認為是同樣的告警,通過這些字段對原始告警進行組合條件判斷,相同則被抑制掉。

關聯(lián)聚合方案


④ 時間屏蔽

時間屏蔽通常會在企業(yè)系統(tǒng)維護期內(nèi)、業(yè)務系統(tǒng)需要的時候?qū)Ω婢M行集中屏蔽,避免大量告警產(chǎn)生和通知。

時間屏蔽方案


⑤ 依賴屏蔽

依賴屏蔽,顧名思義即通過自定義依賴關系,或根據(jù)CMDB中模型之間的關聯(lián)關系進行屏蔽告警策略的配置。

例如當一臺服務器的網(wǎng)卡發(fā)生告警時,此時該服務器上的交換機肯定也會產(chǎn)生一條告警。針對這類場景我們就可以根據(jù)這些對象的關聯(lián)關系配置對應的依賴屏蔽策略,這樣就可以減少干擾告警的產(chǎn)生。

依賴屏蔽方案


⑥ 告警合并

告警合并功能針對企業(yè)中由于某一個故障導致產(chǎn)生大量與之相關的告警的場景進行合并處理。

例如,當某一業(yè)務領域的交易率偏低時,這往往可能歸因于多種因素,如該業(yè)務所依賴的服務CPU使用率居高不下、服務響應時間顯著延長等。當這些因素的告警信號同時觸發(fā)時,為了提高處理效率,可以將它們整合為一條綜合性的有效告警。

告警合并方案


功能點4:告警處理

在經(jīng)過一系列的告警收斂方案后,運維人員只需要關注和處理那些有效的告警。告警中心提供人工&自動處理方案,加快企業(yè)運維人員對告警事件的響應以及處理速率。此外,告警中心還具備豐富的通知渠道覆蓋PC端以及移動端,讓企業(yè)相關人員第一時間收到通知,及時感知系統(tǒng)問題。

① 自動關閉

針對一些可能并不影響系統(tǒng)的核心功能或并不是緊急問題的告警,比如:測試機器的性能告警、非工作日無需處理的告警。通過自動關閉策略可以減少對告警管理的工作量。

自動關閉策略


② 自動分派

可以根據(jù)運維管理要求自動將告警分派以及通知到對應的人/組/值班人員。

例如,當服務器宕機或者性能異常時,告警中心會自動分派給負責服務器維護的運維團隊;當遇到交換機、路由器、網(wǎng)絡設備故障告警時,系統(tǒng)將自動分派給網(wǎng)絡運維團隊。

自動分派策略


③ 自愈處理

告警中心支持告警自愈處理能力,例如常見的自愈場景有服務器重啟、日志清理、磁盤清理等。根據(jù)這些場景,可以分別使用對應的腳本去執(zhí)行自愈流程。并且支持自愈流程參數(shù)的填寫,可快速執(zhí)行自愈腳本對故障進行處理。

自愈處理策略


④ 自動轉(zhuǎn)工單

支持內(nèi)置對接ITSM以及第三方工單系統(tǒng),實現(xiàn)告警產(chǎn)生到生成工單的自動化處理方案。并且支持工單模版的創(chuàng)建,可以快速套用模版對工單參數(shù)進行快速填寫,方便運維人員及時創(chuàng)建事件工單、變更工單等,加速告警故障問題的流轉(zhuǎn)。

自動轉(zhuǎn)工單策略


功能點5:告警通知

告警中心具備強大的告警通知能力,包含靈活的告警通知頻率的配置、多樣的告警通知渠道、自定義通知模版設置等。

① 通知頻率

針對那些重要且緊急的告警,例如主機CPU使用率、磁盤使用率、網(wǎng)絡不可達等核心關注的監(jiān)控項,一旦觸發(fā)警報,系統(tǒng)應被配置為立即發(fā)送緊急通知;當無人響應時,系統(tǒng)將按照一定周期進行循環(huán)通知、響應后告警持續(xù)未關閉的循環(huán)通知。

而對于那些相對不那么緊急,但仍需關注的預警信息,例如網(wǎng)絡帶寬使用率在70%左右達到預警時,這種告警可以延遲進行通知。

告警通知頻率


告警通知渠道

支持多樣的通知渠道配置如常見的郵件、短信、ESB微信、語音、釘釘、企微/釘釘移動端、企微/飛書/釘釘群機器人、針對值班大屏使用的頁面語音播報功能。

告警通知渠道


③ 告警通知模版

針對不同的通知場景可以自定義配置通知模版,可以按照企業(yè)告警通知要求進行配置,讓告警更快更詳細地通知到對應負責人。

告警通知模版配置


功能點6:告警分析

① 關聯(lián)拓撲

聯(lián)動CMDB,根據(jù)對象模型以及實例自動拉取CMDB的拓撲關系圖,并在產(chǎn)生告警的節(jié)點上標紅處理,直觀地了解故障上下游關聯(lián)關系,快速定位故障影響范圍。

告警關聯(lián)拓撲


② 告警報表

內(nèi)置多類型、樣式的統(tǒng)計報表模塊,可直觀查看告警統(tǒng)計數(shù)據(jù)以及各個人員的MTTA、MTTR指標情況。

告警報表


③ 輔助分析

告警中心支持對接知識庫以及工單系統(tǒng),可以在告警產(chǎn)生后快速匹配關聯(lián)的解決方案以及關聯(lián)的歷史變更工單,輔助運維人員對故障進行定位以及處理。

告警輔助分析模塊


功能點7:智能處理

告警中心基于大模型算法能力,進一步加強告警處理的能力,降低運維門檻,加速故障處理速度和效率。

① 關聯(lián)知識庫

目前內(nèi)置運維知識庫,開箱即用。可批量導入知識庫文件,基于大模型算法對知識庫內(nèi)容進行監(jiān)督學習訓練,實現(xiàn)將告警內(nèi)容與知識庫進行匹配,并且按照匹配度高低進行展示。

自動關聯(lián)知識庫


② 智能助手

使用大模型生成式AI能力,支持ChatGPT、LLaMa2等模型,通過對話式方式進行故障定位分析和推薦處理方案的建議。

智能小助手

免費申請演示

聯(lián)系我們

服務熱線:

020-38847288

QQ咨詢:

3593213400

在線溝通:

立即咨詢
查看更多聯(lián)系方式

申請演示

請登錄后在查看!