隨著業務和IT信息化的發展建設,為確?;A設施的全面監控,企業積極采購了多樣化的監控設施,這些設施廣泛覆蓋了操作系統、關鍵組件以及硬件等多個層面,從而初步完成了IT技術設施和運維管理工具的建設。然而,隨著業務的迅速增長,現有的運維設施和系統開始暴露出諸多挑戰,資源分散,缺乏有效的統一規范化管理,導致監控覆蓋不全,告警治理變得困難重重。此外,監控配置成本高昂、效率低下,且團隊協作難度增加,這些因素都使得企業難以迅速響應業務的變化和需求。在這個背景下,建設一體化監控平臺的訴求逐漸成為各個企業的監控建設重心。
面對這些問題,某大型運營商企業基于嘉為藍鯨監控中心,啟動了基礎設施運維管理系統建設工程,通過重塑運維體系,構建統一的一體化監控平臺,全方位提升監控管理水平,提升運維管理效率,為IT系統的安全、持續、不間斷運行提供有力的支撐。
01. 業務場景
該企業在多年的運維監控中,通過自行搭建Zabbix、Prometheus等開源監控平臺,自行實施了大量操作系統、組件服務的監控,同時外采了硬件監控產品補足硬件監控能力。但隨著企業的發展,這種缺乏完整監控體系的管理模式逐漸暴露出監控缺乏監管——覆蓋率低、沒有統一規范——策略配置混亂、各監控系統混合部署——運維管理復雜等問題。傳統的監控管理模式越發難以推進,亟需建設統一的監控平臺。
02. 分析痛點
該公司目前的監控建設正處于煙囪工具式監控建設階段,且各類監控場景尚不完備??蛻羝谕谘a足監控能力的同時,建立成熟的一體化監控平臺。從各個運維場景下看,企業目前具備以下痛點:
03. 解決方案
1)操作系統監控 —— 基于藍鯨Agent的指標采集
嘉為藍鯨監控中心以藍鯨Agent為核心,內置操作系統采集插件,只要部署了藍鯨Agent,就會自動采集操作系統相關指標數據,無需手動配置。通過One Agent的方式,該公司實現內部操作系統的統一監控、采集。
2)組件監控 —— 強大的采集擴展能力,積累豐富
監控中心采用Agent+Plugins的設計模式,支持通過系統腳本、SQL語句、Exporter、Datadog插件等模式快速擴展各類監控對象的監控,解決Agent模式下各類組件對象的監控數據采集問題。
同時監控中心支持通過協議/接口(支持SNMP、IPMI、JMX、SQL、BK-Pull等)模式進行擴展,遠程收集數據,解決了各種無代理場景下的組件監控問題。
基于上述模式,監控中心同時還積累內置了大量標準化插件,覆蓋絕大部分主流數據庫、中間件。同時具備成熟的指標體系建設,提供最佳實踐配置模板,引導用戶進行監控檢測。
3)容器監控 —— 覆蓋容器資源、容器服務指標,全方位監控
基于K8s原生的Prometheus監控方案優化改造,該公司實現以下場景的容器監控:
支持對容器內各類資源對象進行發現,并采集相關性能指標,包括Cluster、Workload、Pod、Container、Node
支持容器上部署的組件服務監控,可通過以下方式進行數據采集:
- 支持serviceMonitor(主推)和podMonitor
- sidecar 方式( 以sidecar模式部署exporter抓取器暴露出metrics,結合serviceMonitor進行采集)
- 中心遠程統一采集 (組件本身暴露了/metrics,結合serviceMonitor進行采集)
4)統一監控 —— 第三方監控源數據接入,建立一體化監控平臺
該公司通過嘉為藍鯨監控系統,實現第三方監控數據接入,通過開發監控源插件進行對接,抓取或接收其他監控系統數據。如果對數據進行一定的數據結構清洗,還可將接入數據與藍鯨CMDB實例進行關聯,從而在指標管理、數據檢測、可視化等能力上與嘉為藍鯨監控中心自采集數據完全持平,建設真正的一體化監控平臺。
04. 成果展示
1)操作系統監控 —— 基于藍鯨Agent的指標采集
2)組件監控 —— 企業內核心數據庫、中間件監控接入,策略配置
3)容器監控 —— K8s容器管理平臺監控接入
4)統一監控 —— 第三方監控源數據接入,建立一體化監控平臺
05. 建設成效
06. 場景適用性
嘉為藍鯨監控中心目前已在各個運維分層場景中,具備了完整的監控方案和最佳實踐引導,可以幫助企業盡可能多地完成監控覆蓋;同時提供成熟的監控數據集成方案,既能與第三方監控系統進行數據對接,也能在數據處理、存儲、可視化等層面提供完全一致的能力與體驗。適用于以下類型的企業:
申請演示