01. 云平臺監(jiān)控痛點(diǎn)
相較于傳統(tǒng)的服務(wù)器架構(gòu),云平臺展現(xiàn)出了顯著的優(yōu)勢,其核心在于能夠?qū)⑽锢碣Y源高效地虛擬化為一個(gè)動(dòng)態(tài)的虛擬機(jī)資源池,靈活調(diào)用軟硬件資源。在運(yùn)行過程中,根據(jù)用戶并發(fā)量的不同,云平臺可以實(shí)時(shí)遷移虛擬機(jī)資源,不僅確保了服務(wù)的高質(zhì)量與連續(xù)性,還實(shí)現(xiàn)了資源成本的最小化,提高CPU、內(nèi)存的利用率,因此對于云上資源的監(jiān)控就非常重要。
目前企業(yè)在對平臺監(jiān)控有以下一些痛點(diǎn):
本文我們將核心圍繞云平臺監(jiān)控的場景及特性,介紹嘉為藍(lán)鯨監(jiān)控中心(以下簡稱“監(jiān)控中心”)是如何實(shí)現(xiàn)云平臺監(jiān)控的。
02. 產(chǎn)品亮點(diǎn)
1)云平臺對接
支持本地私有云和公有云的一體化納管,同時(shí)支持插件化的方式對云平臺進(jìn)行擴(kuò)展。目前已經(jīng)集成VMware、阿里私有云/公有云、騰訊公有云、華為私有云、H3C CAS以及云宏CNware,此外可通過插件的方式快速對接企業(yè)內(nèi)不同類型的云平臺,實(shí)現(xiàn)單云、混合云平臺一站式監(jiān)控管理的目標(biāo)。
2)內(nèi)置私有云&公有云
對于已納管的云平臺,接入時(shí)只需填寫對接參數(shù)即可實(shí)現(xiàn)一鍵納管,極大降低部署接入成本,輕松實(shí)現(xiàn)輕量化的云平臺監(jiān)控能力。
3)云資源發(fā)現(xiàn)&采集
對于私有云環(huán)境,監(jiān)控中心利用云平臺資源發(fā)現(xiàn)插件與云平臺采集插件的協(xié)同工作,實(shí)現(xiàn)了云資源對象一旦創(chuàng)建完成,即可自動(dòng)納入管理范疇,并持續(xù)追蹤云上資源的動(dòng)態(tài)變化,無需人工介入。對于公有云,監(jiān)控中心可通過接口調(diào)用的方式直接獲取云上資源的監(jiān)控?cái)?shù)據(jù)。
4)云平臺視圖查看
對于云平臺運(yùn)維管理員來說,能夠直觀地看到每個(gè)云平臺的健康狀態(tài)是非常重要的訴求。
對于混合云,如何統(tǒng)一管理云上復(fù)雜且海量云資源數(shù)據(jù)是企業(yè)最為關(guān)注的能力點(diǎn)。監(jiān)控中心對混合云也設(shè)計(jì)了統(tǒng)一管理的資源列表,可以集中展示所有云平臺資源的運(yùn)行狀態(tài)和告警故障信息。這種跨云資源的管理模式有助于云管理員更高效地識別并篩選出故障資源,從而加快問題定位和解決,提升整體管理效率和資源可用性。
除了對整體云平臺的視圖查看,監(jiān)控中心還提供具體某一個(gè)云資源實(shí)例監(jiān)控的詳情,包含云資源實(shí)例實(shí)時(shí)的指標(biāo)視圖、告警列表以及云資源實(shí)例信息的關(guān)鍵信息。
云資源拓?fù)?/span>是對分布在不同云平臺上的資源進(jìn)行可視化和結(jié)構(gòu)化展示的工具,展示資源之間關(guān)系和依賴的清晰視圖。通過云資源拓?fù)?,云管理員可以更直觀地了解和管理云環(huán)境中的復(fù)雜資源,快速識別潛在的性能瓶頸、故障節(jié)點(diǎn)以及資源使用的優(yōu)化空間。它不僅提升了故障排除和資源配置的效率,還支持更有效的容量規(guī)劃和策略調(diào)整,進(jìn)而提高了整個(gè)云環(huán)境的可靠性和可操作性。
5)云平臺監(jiān)控策略
支持云資源視角下的多指標(biāo)策略模版的配置,實(shí)現(xiàn)對云資源對象批量策略配置的能力。監(jiān)控策略包含目標(biāo)選擇、檢測配置、告警配置,簡化邏輯,一次性配置,輕松管理。
策略能力上,支持批量啟停檢測策略能力,支持靜態(tài)閾值、同比環(huán)比等8種檢測算法,支持指標(biāo)計(jì)算以及兼容promql表達(dá)式,內(nèi)置防抖抑制算法檢測,三種自動(dòng)處理套餐、多樣化的告警通知渠道等。
6)云平臺權(quán)限管理
監(jiān)控中心還支持多種權(quán)限配置,通過靈活的授權(quán)模式滿足企業(yè)運(yùn)維的不同管理需求。可以選擇以云平臺整體進(jìn)行授權(quán),或者細(xì)化到具體的云資源類型進(jìn)行授權(quán)。這種多模式的權(quán)限管理方案,確保了運(yùn)維管理的精準(zhǔn)性和靈活性。
03. 結(jié)語
總結(jié)來說,云平臺監(jiān)控不僅是確保系統(tǒng)健康運(yùn)行的基礎(chǔ)工具,更是提升業(yè)務(wù)穩(wěn)定性和安全性的關(guān)鍵手段。通過持續(xù)監(jiān)測和及時(shí)響應(yīng),企業(yè)可以有效預(yù)防故障、優(yōu)化資源利用、并提高用戶體驗(yàn)。作為信息化管理的重要組成部分,云平臺監(jiān)控在數(shù)字化轉(zhuǎn)型的道路上,將繼續(xù)發(fā)揮不可或缺的作用。
SRE轉(zhuǎn)型:銀行SRE模式推廣策略
查看詳細(xì)
從設(shè)備到數(shù)據(jù):存儲(chǔ)監(jiān)控的關(guān)鍵與實(shí)踐
查看詳細(xì)
AI破圈爆火!殊不知運(yùn)維才是幕后“定海神針”!
查看詳細(xì)
AI賦能DevOps:智能排錯(cuò)、代碼修復(fù)與需求生成,打造高效開發(fā)新范式!
查看詳細(xì)
LLMOps+DeepSeek:大模型升級一體化運(yùn)維
查看詳細(xì)
DeepSeek賦能企業(yè)研發(fā):DevOps+AI 新時(shí)代再升級!
查看詳細(xì)
申請演示