可觀測(Observability)作為現代運維理念,相較于監控,不僅僅是問題的發現,更加強調系統在運行時應具備全面的、深入的、可理解的狀態獲取能力。通過收集和分析系統的各種可觀測數據(涉及指標、日志、Traces、事件、告警等數據),構建一個全方位監控與分析體系,讓運維團隊能夠在復雜多變的 IT 環境中實時了解系統內部的健康狀況、性能表現以及故障原因。
嘉為藍鯨全棧智能觀測中心·鯨眼(以下簡稱“全棧智能觀測中心”)作為嘉為傾力打造的一款全棧可觀測產品,經過持續的沉淀和迭代,目前已經實現了業務全棧系統資源監控、K8s容器監控、云平臺監控、硬件設備監控、網站服務撥測、日志統一管理、應用性能觀測、業務場景監控、告警閉環管理等多個領域的可觀測。
01. 產品場景介紹
1)系統監控
基于CMDB的業務和業務資源(主機、數據庫、中間件等業務資源件)的全棧系統資源監控,一眼看全。
從業務的視角入口,呈現業務資源拓撲,支持拓撲節點下鉆指標、告警詳情視圖。同時支持從資源的視角切入,直接按資源類型展示所有資源的監控情況。
2)容器監控
基于容器形態的資源探針,實現容器及容器內運行組件資源的指標和日志的統一監控,云原生必備監控利器。
① 容器指標監控
② 容器日志監控
③ 云監控
云資源視角的跨云平臺監控,實現私有云、公有云的統一監控告警管理;云上云下資源一體化監控。
支持VMware、FusionCompute、云宏、阿里云、騰訊云等多種云平臺開箱即用;支持單云視角和跨云視角兩種資源展示模式;針對私有云支持自動發現資源實例的關聯拓撲,輔助問題排錯定位。
④ 硬件監控
通過標準協議SNMP、IPMI、Syslog、Trap實現硬件設備的指標、日志、告警的統一監控。
⑤ 硬件指標監控
⑥ 硬件日志監控
⑦ 網絡拓撲管理:支持用戶自定義網絡拓撲,并結合拓撲自動發現能力,自動輔助繪制網絡拓撲圖,掌握企業全局網絡概況。
5)網站撥測
基于業務的視角,通過遠程訪問協議HTTP(s)、TCP、UDP、ICMP(Ping)對應用服務和網站進行黑盒監控,實現業務最基礎的存活監測。
6)日志統一管理
針對日志數據的統一接入、統一配置策略、統一查看檢索的統一日志管理,打通運維排障“最后一公里”。
支持主機操作系統、容器環境下的日志采集,內置多種日志采集模板;存量日志支持通過ES、Kafka的方式接入支持kafka接入,進行統一接入和管理。
① 支持日志指標和關鍵字監控,并支持聚類智能指標監控。
② 日志檢索,支持AI算法智能聚類、聯合等檢索模式,并支持檢索脫敏。
7)APM
分布式服務調用鏈路監控,自動生成服務調用拓撲,從應用、服務、接口、調用 4個層次層層深入,監控應用的健康狀態和調用性能;并支持基礎資源監控進行聯動和下鉆分析,輔助問題根因分析,提升問題定位效率。
支持應用服務調用視角、應用資源關聯視角、服務分析視角、接口分析視角、Trace調用鏈路視角多視角分析查看和追蹤問題。
8)業務監控
以業務場景作為切入口,串聯跨應用的系統調用,打通關聯應用內服務的調用關系,追蹤每一次活動軌跡。
9)統一告警
面向企業ECC、監控組、運維人員等,基于告警事件的生命周期,實現告警管理的閉環,提升團隊效率,保障業務穩定。
提供一站式告警處置平臺:包含告警事件統一接入、告警豐富、告警壓縮(去重、合并、抑制和屏蔽)、告警處理(自愈和派單、通知)、告警關閉的閉環管理,以及告警事件的統一查詢、報表統計、關聯分析,輔助問題定位。
02. 產品能力介紹
為了實現上述各種觀測場景的落地,產品設計上結合PaaS+SaaS的理念,抽象各個場景的公共能力,融合成一套底層能力框架,并且能夠和企業內的運維體系工具聯動集成,支撐上層的場景擴展,以適應企業不斷變化的可觀測場景和管理訴求。圖中由下而上,依次是監控對象、數據集成、數據中臺、能力中心、觀測場景五層以及外部集成模塊。
基于上述功能架構規劃設計,本文將從對象和指標管理、插件集成管理、策略配置管理、告警視圖管理、場景視圖管理5個基礎能力層面介紹當前全棧智能觀測中心的功能。
1)對象和指標管理
① 對象模型
引入監控對象模型作為指標管理的載體,連接對象和指標。對于監控對象模型設計如下圖:
② 承載對象模型的分層體系
利用監控對象模型的樹形分層設計,對應運維對象的分層體系,實現對象模型的建模和分層設計。例如對于組件服務層下的數據庫,我們可以抽象出 MySQL、MSSQL、Oracle 等一系列監控對象,從而構建3層乃至4層的對象模型設計,靈活設配企業內的分層管理訴求。
③ 聯動 CMDB,關聯資源實例
監控對象模型通過與 CMDB 模型關聯,將 CMDB 模型下的資源實例,納管為監控對象模型實例,實現監控對象模型與資源實例的關聯。
④ 關聯插件采集,落地指標體系
監控對象模型通過關聯插件或指標上報任務等方式關聯指標,并以此作為指標數據的獲取方式,確保這批指標都是真實可采集、可獲取、可度量的指標,從而建設屬于該對象的指標體系。
⑤ 指標管理
基于對象進行指標管理,支持指標的分類、名稱、描述、單位、等級、數據類型的管理,支持枚舉類型的指標值映射管理,實現狀態指標翻譯展示。
支持衍生指標管理,基于插件原生指標計算定義新的衍生指標,指標計算能力支持單指標函數計算、多指標四則運算、復雜規則的PromQL計算,靈活適配各種衍生計算指標的應用場景。
⑥ 動態分組
基于屬性條件對監控對象進行分組,具備動態更新的特性,可實現監控目標根據CMDB的實例變化自動應用或者取消監控。
2)插件集成管理
通過插件、協議、SDK等多種數據接入的方式,支持企業全棧觀測數據(指標、日志、Traces、告警)接入。
① 指標接入
除內置的操作系統、云平臺、K8s容器、協議撥測等指標采集能力之外,還支持多種自定義接入的方案,并且均支持產品頁面直接進行插件制作和調試。
② 日志接入
支持主機操作系統、容器環境下的日志采集,內置多種日志采集模板;存量日志支持通過ES、Kafka的方式接入支持Kafka接入。
③ Trace接入
支持Skywalking和OT協議探針接入。
④ 告警接入
默認支持RestAPI推送接入,支持頁面編寫告警源插件的方式接入,插件支持推送和拉取兩種模式,內置常見監控系統接入插件。
3)策略配置管理
監控策略:支持設置策略的基礎信息、監控目標、檢測配置、告警配置4種配置,如下:
4)告警視圖管理
實時刷新的活動告警列表,支持自定義展示字段和多種篩選條件,并支持告警實時檢索和自定義告警視圖,滿足ECC、管理員等多種角色的查看訴求。
分析視角的告警詳情,支持詳情、指標、關聯告警、拓撲關聯、流轉記錄統一查看,一站式告警分析。
基于對象/業務的告警分類統計分析,并內置提供常用的告警統計報表,跟蹤企業告警治理效果。
詳細的告警全生命周期閉環管理后續將在專門的專題文章中進行具體介紹。
5)場景視圖管理
除了本文開頭說到的內置觀測場景,還支持自定義場景,可基于監控對象模型管理,可自行擴展每種對象的監控場景視圖,滿足企業持續發展的訴求。
數據檢索,支持指標、日志、Trace檢索,支撐問題排錯追蹤,探索挖掘數據價值。
集成Grafana儀表盤,支持按照用戶個人喜好,定制自己專屬的指標、日志儀表盤。
基于上述介紹的對象、采集、策略、告警、視圖5大基礎能力模塊,便可以自由構建企業中所需的觀測場景。接下來我們將基于觀測場景視角,詳細介紹告警全生命周期管理、基礎組件監控、容器監控、云平臺監控、硬件監控、網站服務撥測、日志統一管理、調用鏈追蹤、業務監控9大觀測場景,敬請期待。
申請演示