之前我們分享了可觀測體系整體規(guī)劃建設(shè)戰(zhàn)略與落地實(shí)踐,而進(jìn)一步深入可觀測體系中,在數(shù)字化轉(zhuǎn)型和國產(chǎn)化大背景下,監(jiān)控的對象種類繁多,新技術(shù)新對象層出不窮,企業(yè)內(nèi)部監(jiān)控體系的建設(shè)、監(jiān)控工具支撐都面臨極大的挑戰(zhàn):傳統(tǒng)的監(jiān)控系統(tǒng)無法快速滿足國產(chǎn)化的要求,也無法快速擴(kuò)展支撐快速變化的監(jiān)控需求,各種監(jiān)控指標(biāo)混雜一起,難以管理和分析。
為了解決這些問題,支撐一體化的可觀測系統(tǒng)建設(shè),實(shí)現(xiàn)統(tǒng)一采集、統(tǒng)一管理、統(tǒng)一告警、統(tǒng)一展示,降低運(yùn)維成本,進(jìn)行監(jiān)控指標(biāo)管理體系的建設(shè)和落地將變得不可或缺。本次我們邀請到了兩位嘉為藍(lán)鯨產(chǎn)品經(jīng)理蘇文和孟世一,以自身在監(jiān)控領(lǐng)域多年的耕耘經(jīng)驗(yàn),分別為大家?guī)?/span>《可觀測指標(biāo)管理體系建設(shè)落地》與《插件功能設(shè)計(jì)及生態(tài)打造》兩個主題分享,與大家一同探討:
主題一:可觀測指標(biāo)管理體系建設(shè)落地
如今,傳統(tǒng)監(jiān)控日益無法滿足企業(yè)快速發(fā)展的需求,越來越多企業(yè)開始進(jìn)行可觀測體系的探索,在建設(shè)初期可能也會存在很多的問題:可觀測體系建設(shè)中為什么需要建設(shè)指標(biāo)體系?指標(biāo)體系究竟“長什么樣”?應(yīng)該如何設(shè)計(jì)管理?接下來我們就一一解答這些問題。
1)可觀測指標(biāo)體系設(shè)計(jì)
① 為什么需要建設(shè)指標(biāo)體系?
在了解指標(biāo)體系前,我們先來看看為什么需要進(jìn)行指標(biāo)體系的建設(shè),結(jié)合過往的建設(shè)經(jīng)驗(yàn),我們總結(jié)了六個方面的原因:
② 指標(biāo)體系設(shè)計(jì)邏輯
了解為什么要設(shè)計(jì)指標(biāo)體系后,接下來我們再來看看可觀測指標(biāo)體系應(yīng)該如何設(shè)計(jì)。
可觀測指標(biāo)體系的設(shè)計(jì)對整個可觀測性的落地起著至關(guān)重要的作用。其設(shè)計(jì)的核心理念是:以監(jiān)控對象為骨架、以監(jiān)控指標(biāo)為經(jīng)脈。
那么運(yùn)維主要監(jiān)控的對象都有哪些呢?我們以下圖的一種拆分方式為例,從應(yīng)用視角來看,從下往上可以分為數(shù)據(jù)中心、硬件設(shè)備、系統(tǒng)、組件、應(yīng)用服務(wù)、用戶體驗(yàn)六個層面,每個層面相應(yīng)的對象也有不同的指標(biāo)設(shè)計(jì)。
上述五層更多關(guān)注在應(yīng)用系統(tǒng)的本身以及其相關(guān)運(yùn)行環(huán)境的指標(biāo)設(shè)計(jì),而在此之上到業(yè)務(wù)運(yùn)營層面時,可能會超出運(yùn)維的范疇,但依舊是屬于可觀測體系中的一部分,這部分主要是聚焦于業(yè)務(wù),包括應(yīng)用系統(tǒng)對外提供的服務(wù)時的相關(guān)數(shù)據(jù)指標(biāo),如交易系統(tǒng)的交易、訂單以及用戶數(shù)據(jù)等一些數(shù)據(jù)指標(biāo)。用來衡量前端用戶的指標(biāo),建立業(yè)務(wù)數(shù)據(jù)層面的觀測能力。
以上的六層式的指標(biāo)設(shè)計(jì)僅僅只是一個參考示例,不同的企業(yè)由于所提供的業(yè)務(wù)不同,對應(yīng)用的觀測有不同的側(cè)重點(diǎn),企業(yè)需要根據(jù)自身的實(shí)際情況,進(jìn)行合理的調(diào)整或更加細(xì)致的劃分。
當(dāng)然,可觀測指標(biāo)體系的建立不僅僅只是確定這些指標(biāo)的內(nèi)容,同時還需要對指標(biāo)的定義、建模、接入、消費(fèi)全生命周期過程持續(xù)做好管理,除此之外,指標(biāo)設(shè)計(jì)也并不是“拍腦袋”就能決定的,需要建立相應(yīng)的指標(biāo)管理規(guī)范,包括設(shè)計(jì)原則,指標(biāo)分級、分層、命名等,以支撐整個指標(biāo)生命周期的正常運(yùn)作。
接下來,將對指標(biāo)的設(shè)計(jì)原則、分級規(guī)范以及指標(biāo)生命周期管理過程進(jìn)行重點(diǎn)介紹。
2)指標(biāo)設(shè)計(jì)規(guī)范和生命周期
① 指標(biāo)設(shè)計(jì)原則
指標(biāo)的設(shè)計(jì)過程中需要遵循一定的設(shè)計(jì)原則,我們選取了在行業(yè)中比較通用的六個原則進(jìn)行介紹。
② 指標(biāo)分級規(guī)范
指標(biāo)分級規(guī)范也是指標(biāo)管理規(guī)范中的關(guān)鍵環(huán)節(jié),通常會分為三級指標(biāo):
③ 指標(biāo)生命周期
一般指標(biāo)生命周期主要經(jīng)歷四個階段:指標(biāo)定義→指標(biāo)建模→指標(biāo)接入→指標(biāo)消費(fèi)。
指標(biāo)定義:主要明確指標(biāo)所屬的層級、指標(biāo)名稱描述,維度如何設(shè)置,以及指標(biāo)屬于何種級別。
指標(biāo)建模:指標(biāo)是依賴于對象的,如果沒有對象,那么指標(biāo)也就沒有實(shí)際意義,建模的過程可以聯(lián)動CMDB模型對象,然后通過插件關(guān)聯(lián)等方式導(dǎo)入指標(biāo),再通過原生指標(biāo)間的運(yùn)算獲得較為復(fù)雜的計(jì)算指標(biāo),最后完成權(quán)重和等級的配置,便于后續(xù)分析。
指標(biāo)接入:完成指標(biāo)的定義和建模后,要把指標(biāo)真正應(yīng)用起來還需要通過指標(biāo)接入采集到明細(xì)的數(shù)據(jù),一般有第三方上報(bào)、插件采集、協(xié)議采集等方式,通過采集任務(wù)統(tǒng)一進(jìn)行管理。
指標(biāo)消費(fèi):有了采集的數(shù)據(jù)之后,就要發(fā)揮數(shù)據(jù)的價(jià)值,支撐消費(fèi)場景。可觀測的核心消費(fèi)場景主要是進(jìn)行指標(biāo)檢測,對異常狀態(tài)進(jìn)行監(jiān)控告警;除此之外還能進(jìn)行健康分析,數(shù)據(jù)運(yùn)營等工作,同時也能通過指標(biāo)接口,為其他第三方系統(tǒng)提供消費(fèi)。
了解了可觀測指標(biāo)體系的內(nèi)容建設(shè)和管理規(guī)范之后,在實(shí)際落地建設(shè)時,企業(yè)應(yīng)該如何建設(shè)相應(yīng)的工具體系來承載指標(biāo)體系呢?
① 指標(biāo)體系建設(shè)的核心承載工具——監(jiān)控
在監(jiān)控中,也可以按照指標(biāo)的生命周期來進(jìn)行相應(yīng)的能力建設(shè)。
指標(biāo)定義&建模階段:支持對指標(biāo)的定義、層級、屬性的管理。以及對象和指標(biāo)模型的統(tǒng)一管理。
指標(biāo)接入階段:支持采集插件管理,采集、接入任務(wù)管理。
運(yùn)營消費(fèi)階段:支持指標(biāo)數(shù)據(jù)消費(fèi)和運(yùn)營過程中的的檢測告警以及可視化管理等。
② 指標(biāo)體系建設(shè)的配套工具
正如上文所提到的,指標(biāo)的管理不僅僅是指標(biāo)內(nèi)容的建立,還包括指標(biāo)的管理規(guī)范和治理。不僅僅需要監(jiān)控工具,還需要相應(yīng)的建設(shè)配套的工具,如CMDB的建設(shè)主要提供數(shù)據(jù)治理,對象管理等能力,ITSM主要保障指標(biāo)管理過程中的流程規(guī)范,保障順利完成整個落地過程。
主題二:插件功能設(shè)計(jì)及生態(tài)打造
以上我們已經(jīng)對可觀測體系指標(biāo)建設(shè)的一些相關(guān)內(nèi)容做了分享,那么在實(shí)踐落地方面應(yīng)該如何著手呢?接下來我們將以嘉為鯨眼可觀測產(chǎn)品為例,從數(shù)據(jù)采集模式設(shè)計(jì)理念,插件功能模式設(shè)計(jì),以及插件生態(tài)運(yùn)營積累三方面介紹實(shí)踐經(jīng)驗(yàn)。
1)Agent+Agentless結(jié)合
早期監(jiān)控的采集模式通常是以Agent-less方式進(jìn)行,主要通過一些采集協(xié)議訪問目標(biāo)設(shè)備,再使用一系列的查詢命令將數(shù)據(jù)進(jìn)行上報(bào),進(jìn)一步進(jìn)行后續(xù)的分析操作。
早期IT的安全要求并不高,但隨著企業(yè)IT要求逐漸嚴(yán)格,操作系統(tǒng)安全性的逐漸提高,這種模式在當(dāng)前場景下已經(jīng)不再適用,同時Agent-less模式本身過于龐大的鏈路開銷和采集的深度無法滿足等問題也被運(yùn)維人員所詬病。
除此之外,由于Agentless采集通常都是基于已有的采集協(xié)議去進(jìn)行,不具備更多拓展的空間,甚至有一些操作系統(tǒng)和應(yīng)用程序已經(jīng)不再提供訪問接口,在這種情況下我們需要采集更多的指標(biāo)就只能通過Agent-based,也就是基于Agent采集的模式來進(jìn)行監(jiān)控工作。
但實(shí)際上,在一些IT頭部企業(yè)開始嘗試使用Agent模式進(jìn)行采集的探索過程中,發(fā)現(xiàn)Agent-less仍然具備這一些不可替代性,其中包括在一些網(wǎng)絡(luò)、存儲、硬件服務(wù)器等設(shè)備不支持Agent模式,以及一些高級網(wǎng)絡(luò)平臺無法安裝Agent,虛擬化平臺、公有云平臺無法直接訪問基礎(chǔ)設(shè)施等問題,依然只能依賴于Agent-less監(jiān)控方法。
在這種環(huán)境下,鯨眼監(jiān)控中心采取二者相結(jié)合的模式,通過在節(jié)點(diǎn)管理建立OneAgent統(tǒng)一管理模式,Agent支持按需擴(kuò)展功能以及按需下發(fā)指定的功能模塊,Agent既可以支撐Agent-based的數(shù)據(jù)收集模式,又可以作為Agent-less的集中監(jiān)控設(shè)備,圍繞藍(lán)鯨Agent使得監(jiān)控中心具備對各類不同設(shè)備的采集能力,并解決了多云區(qū)域下跨網(wǎng)遠(yuǎn)程收集的問題。
2)插件功能模式設(shè)計(jì)
在了解完插件能力的設(shè)計(jì)之后,如何將這些插件利用起來,打造監(jiān)控插件在各類場景下的各種能力呢?接下來我們就一一深入介紹。
① 主機(jī)監(jiān)控插件:主機(jī)監(jiān)控幾乎是所有企業(yè)都繞不開的監(jiān)控場景,對于這類典型的場景,我們通過內(nèi)置監(jiān)控插件來幫助采集,在部署藍(lán)鯨Agent時會自動部署B(yǎng)aseReport插件,自動采集CPU、內(nèi)存、IO等數(shù)據(jù)并上報(bào)至監(jiān)控中心,實(shí)現(xiàn)內(nèi)置開箱即用的監(jiān)控場景。
主機(jī)監(jiān)控是較為典型的場景,但除此之外企業(yè)常常也會有打造屬于自己的監(jiān)控插件的訴求,針對這些非典型的場景,監(jiān)控中心也能夠提供強(qiáng)大的在線插件制作能力,根據(jù)接入模式的不同區(qū)分,提供各類場景下的插件功能的結(jié)合。
提供Exporter/DataDog插件,無縫兼容主流Prometheus/DataDog,同時也能進(jìn)行插件進(jìn)行自定義調(diào)整以滿足自身需求。
② 腳本插件:一些企業(yè)中運(yùn)維人員會存在通過指標(biāo)的查詢命令進(jìn)行手動查詢的場景,插件制作中心也會能夠提供腳本設(shè)計(jì)能力,運(yùn)維人員可以將腳本寫入后自動化執(zhí)行采集工作。
③ 自定義插件:除了上述采集場景外,還有一些設(shè)備需要不同的協(xié)議(SNMP、JMX等)進(jìn)行采集,我們也能夠支持進(jìn)行自定義插件的制作。
同時,基于低代碼和低門檻思路的插件功能設(shè)計(jì),運(yùn)維人員也能夠自主構(gòu)建一些運(yùn)維插件以輔助更好的進(jìn)行運(yùn)維工作,對于運(yùn)維人員自身從傳統(tǒng)運(yùn)維向運(yùn)維插件開發(fā),甚至向運(yùn)維工具開發(fā)進(jìn)階也有著良好的推動作用。
3)插件生態(tài)積累&運(yùn)營
嘉為鯨眼監(jiān)控中心目前已集成了80余款組件服務(wù)插件及120余款網(wǎng)絡(luò)、硬件設(shè)備插件。覆蓋適配了硬件層、系統(tǒng)層、軟件層、應(yīng)用層乃至云計(jì)算層的絕大部分主流設(shè)備、系統(tǒng)及組件服務(wù)。同時,當(dāng)前信創(chuàng)建設(shè)如火如荼,嘉為藍(lán)鯨也實(shí)現(xiàn)了信創(chuàng)各類設(shè)備廠商的兼容適配并持續(xù)不斷支持信創(chuàng)發(fā)展。
除此之外,我們也致力于幫助企業(yè)建立標(biāo)準(zhǔn)化的插件積累,打造成熟的插件生態(tài)能力。完整的標(biāo)準(zhǔn)化插件包含指引手冊與指標(biāo)清單兩部分。當(dāng)企業(yè)具備了成熟的標(biāo)準(zhǔn)化插件以后,能夠自主根據(jù)業(yè)務(wù)的發(fā)展進(jìn)行相應(yīng)的插件生態(tài)打造,從而實(shí)現(xiàn)可持續(xù)優(yōu)化的插件體系。
指引手冊包含各類說明、使用指引等,讓小白運(yùn)維也能夠快速上手。
指標(biāo)清單是從分類、采集、閾值等多個角度針對各類型插件指標(biāo)梳理的完整清單,這部分并不是簡單指標(biāo)列表,需要具備科學(xué)的指標(biāo)分類、合理的維度設(shè)置、完整的指標(biāo)信息以及核心指標(biāo)閾值推薦。
SRE轉(zhuǎn)型:銀行SRE模式推廣策略
查看詳細(xì)
從設(shè)備到數(shù)據(jù):存儲監(jiān)控的關(guān)鍵與實(shí)踐
查看詳細(xì)
AI破圈爆火!殊不知運(yùn)維才是幕后“定海神針”!
查看詳細(xì)
AI賦能DevOps:智能排錯、代碼修復(fù)與需求生成,打造高效開發(fā)新范式!
查看詳細(xì)
LLMOps+DeepSeek:大模型升級一體化運(yùn)維
查看詳細(xì)
DeepSeek賦能企業(yè)研發(fā):DevOps+AI 新時代再升級!
查看詳細(xì)
申請演示