视色av,亚洲免费av一区二区,日韩av一区在线观看,日韩色中色

首頁

/

大興機場IT告警全覆蓋建設之路,引領業務持續性顯著提升

發布日期:2024-06-27 17:16:57

分享到

01. 建設背景

某大型機場安全可靠、優質高效的運行狀態離不開大量網絡基礎設施的建設和先進信息技術的支撐。截至目前,該機場已經投運使用了9大平臺,100多個業務系統,部署在上千臺服務器上。同時應用了大數據、物聯網、云計算、Docker、移動應用等多種新技術。

隨著航空運輸量的逐年增加,某大型機場信息資源規模日漸龐大,日常信息資源監控管理出現了缺乏管理措施、告警有效性持續降低、監控告警覆蓋度不足、缺乏持續運營等問題。傳統的監控工具已無法滿足管理規范和業務需求。

基于以上背景,該機場打造IT運營管理平臺,完成自動化運維工具、配置管理中心、IT服務管理中心、監控告警中心等運維工具的建設,實現運維工具的打通,進一步提升業務連續性和監控故障處理效率,滿足未來運維工作的發展需求。


02. 建設目標

為解決告警管理問題,該機場通過引入嘉為藍鯨告警中心,實現告警生命周期管理能力提升,并期望達到以下目標:

  • 深化拓廣監控、告警覆蓋范圍;
  • 提升告警有效性和告警處理效率;
  • 優化管理措施,實現告警閉環管理;
  • 通過告警治理,反向觸發監控策略優化治理;
  • 實現業務連續性運行,減少因業務日益增長帶來的業務故障。


03. 建設方案

1)告警統一接入,實現運維場景聯動

IT運營管理平臺以PaaS為底座,接入各種監控系統的告警數據,實現告警數據統一標準和管理。基于平臺的CMDB、運營大屏、ITSM和標準運維功能,實現統一的告警生命周期管理。這一過程中,各環節與各運維工具緊密交互聯動,不僅顯著提升了運維效率,同時也為系統的優化和改進提供了寶貴的數據和深入的分析結果。


2)多告警源并行,提升告警覆蓋率

監控的覆蓋面和完善程度影響告警的有效性和可靠性。在接入原有的Zabbix、帶外監控、VCenter等監控工具的基礎上,結合藍鯨監控平臺的能力,增加服務撥測、日志關鍵字、業務個性化監控、組件監控、NTP監控,全面提升告警覆蓋率。

① 多層級、多對象、多指標、多維度的監控

結合告警收斂和告警關聯,通過更多維度的告警數據和更完善的告警信息,輔助排查和定位故障產生的原因,實現了信息系統24小時運行保障。


② 大屏展示業務健康,告警快速響應

為保證業務正常運行和運維告警的及時解決,該機場對于告警的要求是告警空屏。

ECC值班含十多個服務商,有完整的值班體系,對于告警響應制度和責任人也有完善的管理規范。為了能快速的響應,在ECC值班室有一塊大屏,用于展示各業務的健康度,業務人員基于健康度情況快速響應且處理告警。

告警產生以后,根據CMDB豐富將告警的歸屬業務信息補充完整,再基于業務維度做告警的統計,大屏展示所有的業務狀態。業務無告警的狀態時為綠色,當有告警產生時,系統會根據告警等級在對應的業務顯示健康度狀態,且會伴有提醒音,對應業務的值班人員進行響應處理。ECC的值班運維人員目的就是解決所有的告警,實現全屏健康的狀態。


③ 告警自愈,實現告警快速恢復

對于處理措施確定且重復產生的告警,如果等待人工響應且處理,會導致告警處理時間延長。通過告警自愈的方式,自動觸發相應的處理措施,以恢復正常運行狀態或減少潛在的風險。

在前期的運維值班工作中,該機場已積累了部分常規且固定的告警處置方式。如部分非核心業務因進程錯誤導致的告警,根據告警帶出的信息匹配處理策略,并自動執行告警治愈,實現進程重啟,快速自動修復告警,恢復系統的正常運行狀態。


④ 告警治理,提升告警有效性及效率

監控范圍的擴大帶來告警數量的增多,如何通過收斂實現有效告警尤為重要。該機場通過打標簽的方式標記告警處置,定期對告警進行復盤,將告警處理方式、告警誤告、告警策略不合理等情況進行總結。并根據復盤信息優化監控策略、告警收斂策略、告警處理策略等進行優化和調試,逐漸提升告警有效性。目前告警命中率達到75%。

并通過告警的報表分析,對廠商、業務等告警處理效率進行分析,通過配合考核指標,提升告警的處理效率。


04. 建設成效

1)告警及時發現

告警通知的及時性提升150%,在告警產生1分鐘內準確觸達。減少了業務影響時間,提升了業務穩定性和用戶滿意度。


2)有效輔助分析故障原因

通過告警的覆蓋率增加和告警的有效收斂,結合告警拓撲視圖和關聯告警等輔助信息,在告警產生后實現關聯分析排查,更快速找到告警的根因和關鍵,加速告警處理效率,減少告警影響范圍和時間。


3)保證業務持續性

結合監控平臺,在原有的監控系統基礎上,完善服務撥測、日志關鍵字、業務個性化監控、組件監控、NTP監控,實現更多維度及更細顆粒度的監控,告警覆蓋率達到90%。在未發生業務故障前就已經發現了局部告警,并根據告警關聯分析判斷相關業務及其他關聯告警,及時解決,減少因多種故障積累導致的業務故障。最大程度上保障了業務的持續性。


05. 產品適用性

嘉為藍鯨告警中心適用于告警生命周期管理,結合企業組織架構和業務需求,總結出適合企業提升告警覆蓋和業務連續性的方案。適用存在以下業務場景需求的企業:

  • 監控系統較多,沒有集中管理告警的系統,需要覆蓋告警方便管理;
  • 值班人員較多或外包廠商較多,通知不及時或不到位的;
  • 系統較多且運維人員較多,告警產生后需要關聯分析盡快定位問題和人員;
  • 有告警治理需求,系統通過告警治理優化監控指標及運維體系;
  • 業務連續性用戶滿意度有較高要求。

免費申請演示

聯系我們

服務熱線:

020-38847288

QQ咨詢:

3593213400

在線溝通:

立即咨詢
查看更多聯系方式

申請演示

請登錄后在查看!