视色av,亚洲免费av一区二区,日韩av一区在线观看,日韩色中色

首頁

/

企業可觀測體系建設:運維對象監控指標

發布日期:2024-07-18 15:08:39

分享到

指標指用于描述一個物體或事物的某個性質的指數、規格、標準,使其可以和其他的物體或者事物比較;從軟件的角度講度量即把所有東西都量化、數據化、可采集。指標即表示對這些量化后的數據的目標值。

觀測指標體系是指對監控指標進行體系化的規劃、實現全生命周期管理、建設管理規范等的系統方法論。

在了解指標體系前,先了解下為什么需要進行指標體系的建設,結合過往的建設經驗,主要有以下六個方面的原因:

  • 衡量業務健康情況:指標體系可以反映業務客觀事實,看清業務健康現狀,有效衡量業務質量,優化應用運行。
  • 完善指標體系閉環管理:規范指標定義、指標評估、指標上線、指標運營的過程,指導圍繞指標全生命周期的管理體系的建設。
  • 衡量企業監控落地效果:建立指標的規范和管理方法,更好衡量企業監控的能力完善程度和監測有效性。
  • 支撐故障問題的快速定位:圍繞指標的全生命周期管理內容,建設指標數據體系,在故障出現時能夠快速定位問題所在。
  • 明確指標管理規范:清晰定義指標管理流程、分級分層規范,命名規范等,實現指標的全生命周期管理。
  • 為運維團隊提供數據支持:企業內統一指標體系建設,提供指標查詢、檢測、健康分析等消費能力,實現指標數據的價值挖掘。

經過嘉為藍鯨多年的項目積累,對于指標管理體系的總結如下圖。

基于圖中的內容,接下來將詳細介紹如何進行指標體系建設和設計。


01. 指標管理閉環

指標全生命周期管理,包含指標定義、指標評估、指標上線、指標運營四個階段。

1)指標定義

  • 監控對象:指標關聯的對象,例如基礎設施(動環)、硬件設備、操作系統、數據庫、中間件、應用服務、業務數據等;
  • 指標名稱:指標規范命名,用于指標標識和理解傳播;
  • 指標分級:指標的重要等級--核心(生死指標)、關鍵(告警指標)、常規(分析指標);
  • 指標維度:指標關聯主體的標識信息,例如主機IP、磁盤分區、網卡名稱等;
  • 指標描述:如指標的含義、長度限制、映射規則、指標數據類型、單位、計算規則等。

2)指標評估

  • 指標申請:申請添加指標,主要考慮問題驅動、行業實踐、業界標準,例如谷歌SRE定義的黃金指標;
  • 指標開發:開發指標的獲取邏輯——插件、協議、上報等多種方式;
  • 指標計算:基于現有指標的二次計算獲得新的指標,一般也稱衍生指標;
  • 指標驗證:獲取并驗證指標數據的正確性,確保指標可靠可用;
  • 指標審核:審核指標是否符合設計原則、風險性,例如是否對目標有性能影響、是否暴露敏感數據等,最終審核確認是否要上線。

3)指標上線

  • 指標上報:符合格式規范的指標數據主動上報至監控/觀測系統;
  • 指標采集:由監控/觀測系統主動下發插件采集指標數據,或者通過協議/API遠程獲取目標的指標數據;
  • 閾值設置:設置指標的檢測規則閾值,用于指標的告警;
  • 指標檢索:查看指標的數據,觀察指標運行趨勢,探索不同指標的差異對比等;
  • 指標告警:驗證指標策略是否可以按照預期產生正確的告警。

4)指標運營

  • 告警檢驗:檢驗告警的有效性,告警能否反映一個真實問題?告警是否具備可處理性?
  • 場景實踐:基于場景是否能夠產生預期的告警效果,例如不同的業務系統:計算密集型、IO密集型、網絡密集型;數據型、任務型等;
  • 問題復盤:問題是否有告警?考慮監控對象是否覆蓋?指標是否覆蓋?指標是否冗余?閾值是否正確?并記錄結論報告;
  • 統計分析:指標運營數據的統計分析——覆蓋率、關聯策略數、指標告警頻率和告警數、指標告警趨勢等,持續運營反饋優化指標體系;
  • 標準沉淀:通過復盤和統計分析,不斷沉淀企業自有指標最佳實踐,建設企業自有的指標標準庫和規范。


02. 指標管理規范

1)指標設計原則

  • 標設計要遵循可度量、可采集、可理解、可消費的原則。比如用 timestamp 作為指標,這個就不是一個很好的指標。
  • 指標設計要有明確監控目標和消費場景。在進行指標選取時,需要明確監控目標和消費場景,避免指標冗余、混亂、隔離、不一致以及謬誤等。
  • 指標設計具有可以賦予數學運算的屬性。比如可排序(全序、偏序),可運算(加減乘除與或非),或者可進行數學統計運算(Percentile, Deviation, Correlation, Gaussian / Poisson / Unique Distribution等)。
  • 指標最好是具有時序性的。比如服務是否啟動了,這個布爾值指標,就沒有太大意義了;但是換一個角度,服務的運行狀態,這個指標可以周期性采集探測,具備時序特征,可以反映不同時間的服務狀態。
  • 指標定義首選是代表服務可用性的關鍵指標的。可以參考Google SRE定義的黃金指標。比如說請求量,耗時,緩存命中率,消息隊列Ingress & Egress的數量,消費速率,積壓請求數量等,這些都可以成為自定義指標的首選。
對于部分跟業務相關的指標,也可以作為該業務鏈路的指標。
用文件下載作為例子,請求的耗時跟請求的文件大小有正相關性,將每次下載文件的大小作為指標,在這個業務場景中也是很好的一個選擇。

2)指標分級規范

指標本身一般分三級,按重要程度區分:核心指標(生死指標)、關鍵指標(告警指標)和常規指標(分析指標)。

  • 核心指標一般不會定太多,主要反映這個監控對象是活著還是死了,1到2個即可。
  • 關鍵指標是看核心性能是否正常,參考谷歌定義的SRE四大黃金指標。
  • 常規指標可以根據實際的業務場景去考慮,主要用于告警分析時的數據參考。

核心指標一定要配置告警基線,關鍵指標建議配置,而常規指標可以按業務場景考慮是否配置。后續通過不同指標的分級、權重,便可以很容易地建設起企業內的應用健康評估模型,衡量整個應用的健康情況。

3)指標命名規范

核心是可視可讀,定義統一的指標命名規則,如包含編號的長度限制、編碼的構成、各組成部分的具體含義等。

命名示例:

(1) 組件名_指標獲取方式_指標分類_指標描述:

nginx_exporter_cachezone_max_size

(2) 系統名_插件獲取方式_指標描述:

blueking_script_host_num


4)指標數據規范

指標數據規范,支撐上層場景實現的基石,定義需要謹慎,下面提供兩種常見的指標數據格式規范供參考。

① JSON格式示例

數據示例
字段說明
data說明


② Prometheus Metrics 標準格式

數據格式需遵循
字段說明:(一個指標一行)


03. 指標分層體系

從企業業務應用的全面管理視角出發,通常將監控體系劃分為六個核心層級,以全面覆蓋并優化企業的IT架構。這些層級依次為:基礎設施層、硬件設備層、操作系統層、組件服務層、應用性能層、業務運營層。當然,企業也可以根據自身的實際情況和特定需求,對上述監控層級進行靈活調整或定制。

1)基礎設施層

基礎設施層,指機房的基礎設施配備,用于保證機房的正常運轉,包含動力、環境、安防等設備。

動力主要包含供電系統、發電機、UPS電源等電力供應設備,核心關注電力的狀態、容量、電壓、電流、穩定性、頻率等指標。

環境主要包含溫濕度計、空調、通風等環境監測和調節設備,核心關注環境設備的運行狀態、環境溫度、濕度等指標

安防主要包含視頻攝像頭、門禁、煙霧探測器、消防設備等安全防護設備,核心關注設備的運行狀態、視頻穩定性、門禁狀態等指標。

該層設備的監控指標主要通過IOT傳感器結合接口/SNMP協議以及HTTP接口的方式進行監控。


2)硬件設備層

硬件設備層,指服務器、存儲、網絡、安全四類常見硬件設備對象,用于提供應用運行所需的硬件資源。

服務器設備主要包含X86服務器、小機、大機等計算資源設備,隨著分布式計算技術的普及,小機、大機這種性能超強的專用機器逐漸淘汰,X86服務器成為當下主流;核心關注服務器的電源、CPU、內存、磁盤、風扇等配件的工作狀態和性能指標。服務器主要通過IPMI、Redfish、SNMP幾種協議以及HTTP接口的方式進行監控。

存儲設備主要包含磁盤陣列、磁帶庫、存儲交換機等存儲資源設備,隨著虛擬存儲的技術的出現,專用而昂貴的存儲設備逐漸減少,取而代之的是廉價的服務器設備配合大量的硬盤通過虛擬化技術提供的存儲資源;核心關注存儲設備的容量、IOPS、運行狀態、讀寫速率等指標。存儲設備主要通過SNMP、SMI-S、SSH協議以及HTTP接口的方式進行監控。

網絡設備主要包含交換機、路由器、負載均衡等網絡資源設備;核心關注網絡設備的運行狀態、端口狀態、端口流量、吞吐量、錯誤包、丟包率等指標。網絡設備主要通過SNMP協議進行監控。

安全設備主要包含防火墻、入侵檢測設備、防病毒設備、加密機等;核心關注安全設備的運行狀態、接口狀態、速率、丟包數、網絡攻擊數等指標。安全設備主要通過SNMP、SSH協議以及HTTP接口的方式進行監控。


3)操作系統層

操作系統層,除了包含傳統意義上的各類操作系統之外,虛擬化、容器也納入該層,虛擬化、容器本質上也是由操作系統驅動而提供的一種資源服務,如有需要,可單獨劃分虛擬化層。

操作系統主要包含Windows Server、Linux系的CentOS、RHEL、Suse、Ubuntu、AIX、HP-Unix等服務器操作系統;核心關注CPU使用率、內存使用率、磁盤使用率、磁盤IO速率、網卡流量等指標。操作系統主要通過Agent/插件的方式調用系統接口(例如WMI)或者內置命令行/文件進行監控。

虛擬化主要包含VMware、OpenStack、KVM、Citrix等虛擬化平臺;核心關注平臺主機、集群、存儲的狀態和資源容量、資源數、配額等指標。虛擬化主要通過HTTP接口的方式進行監控。

容器監控主要指K8s容器管理平臺的監控;核心關注Cluster、Node、Container、Service、Workload等資源的狀態、CPU負載、內存使用、磁盤使用、網絡流量等指標。容器平臺主要通過HTTP接口(ServiceMonitor)的方式進行監控。


4)組件服務層

組件服務層,一般指數據庫、中間件及其運行進程等軟件資源對象,部分監控系統經常將進程歸屬于操作系統監控,或者獨立進行監控,反映的都是進程本身的狀態,但是進程本質是各種數據庫、中間件軟件資源服務化的表現形式,應當隸屬于資源實例監控的一部分。

數據庫主要包含企業常用的各種關系型數據庫MySQL、Oracle、MSSQL等,以及非關系型數據庫MongoDB、Redis、InfluxDB等;核心關注的是數據庫的連接數、讀寫速率、鎖、索引命中率、連接數等指標。數據庫主要通過數據庫的Client/命令行或者通用的JDBC/ODBC協議執行SQL的方式或者自帶的監控接口進行監控。

中間件主要包含Web中間件、消息中間件兩種,例如WebLogic、Was、Tomcat、kafka、RabbitMQ等,其他的還有配置中間件、分布式事務、任務調度中間件等;核心關注的是中間件的吞吐量、連接數、JVM性能等指標。中間件主要通過中間件的自帶的命令行工具或者通用的JMX協議或者自帶的接口進行監控。

一般只有數據庫、中間件或者應用本身的進程才會進行監控,進程監控核心關注進程狀態、端口狀態、進程的性能使用率等指標。進程主要通過Agent/插件的方式調用系統接口(例如WMI)或者命令行進行監控。


5)應用性能層

應用性能層,包含應用系統服務端和客戶端兩個方面,其中服務端主要指調用鏈,客戶端主要包含移動端APP、PC端Web頁面。

對于服務端的調用鏈,核心關注可用率、錯誤率、響應時間、吞吐率等關鍵性能指標。主要通過Traces調用鏈的方式進行監控。

對于客戶的移動端APP和PC端的Web頁面,核心關注瀏覽量、請求數、首屏時間、渲染時間、可用率、響應時間等關鍵性能指標。主要通過安卓/蘋果的SDK以及JS的SDK進行監控。

另外,對于應用和服務的基礎探測,也可以采用協議撥測的方式來實現,此時主要關注網站或接口的撥測可用率、撥測響應時間。主要通過HTTP/TCP/UDP協議通過撥測進行監控。


6)業務運營層

業務運營層,主要指業務系統中的業務數據的監控,需要根據業務系統的特點來進行梳理,常見的業務系統主要關注交易量、交易耗時、庫存量、用戶數、活躍用戶數、在線用戶數等業務核心指標。主要通過HTTP接口、數據庫SQL、腳本、日志提取等方式進行監控。

以上便是指標管理體系的全部內容,但是指標的管理不僅僅是指標體系內容建立,還包括指標的管理規范和治理。不僅僅需要觀測工具的承載,還需要相應的配套工具,如CMDB的建設,提供數據治理,對象管理等能力;ITSM流程系統,保障指標管理過程中的流程規范,保障順利完成整個落地過程。

免費申請演示

聯系我們

服務熱線:

020-38847288

QQ咨詢:

3593213400

在線溝通:

立即咨詢
查看更多聯系方式

申請演示

請登錄后在查看!