當遇到運維管理對象的急速增長,業務需求頻繁變更等傳統運維場景問題時,依靠手工運維已經遠遠滿足不了需求,因此我們需要搭建一套自動化運維平臺,來實現運維質量和效率的提升。那么一個成熟的自動化運維平臺是什么樣的?企業運維平臺又該如何建設呢?
整個自動化運維平臺如何搭建,可以參考OASR模型,結合運維流程,將IT運維對象 (Object)、運維活動(Activity)、運維場景(Scene)、運維角色(Role)進行分層剖析。先梳理清楚我們擁有的運維對象、每天所需進行的運維活動、由這些活動衍生出來哪些典型的運維場景、以及完成這些場景所需的運維角色應具備什么樣的能力。
然后依據不同的運維角色在運維場景中的需求,拆解每個運維場景涉及的運維活動和對應的執行對象是什么?底層的不同技術棧對象如何納管?運維活動如何在一個平臺上實現?以及平臺未來如何擴展等,這些都需要考慮。
成熟的自動化運維平臺不僅要滿足大量自動化運維場景的支撐,更需要具備一體化能力,基于一套平臺孵化和建設包括自動化、標準化、數據化在內的統一運維平臺,其中的一體化主要體現在管控一體、平臺一體、聯動一體等幾方面。
01. 管控一體
自動化運維平臺為了能夠覆蓋多種技術棧,所有上層場景都可以可以統一Super Agent管控。其Agent還需要支持海量并發、兼容異構、跨云擴展、采集框架擴展等能力,這樣才算做到了平臺對底層資源的管控一體。
如果沒有管控一體,意味著需要很多個Agent掛在服務器端,文件分發一個、數據采集一個、腳本執行一個等,除了帶來服務器資源過多的消耗外,還無法實現運維對像的輕松擴容,以及大規模跨網絡區域管理,維護成本非常高。顯然,這不是一個成熟的自動化運維平臺。
02. 平臺一體
面對各種運維活動和運維場景,通過統一的自動化運維平臺PaaS架構來實現能力的治理和沉淀,使得企業構建運維系統能避免煙囪模式和重復投資建設,實現可持續建設。并基于運維開發能力還可以助力企業實現運維自主可控和能力升級,完全滿足不同運維角色的運維場景需求。
如果沒有平臺一體,就意味著需要不斷的建設工具,每新建一個系統,就需要不斷打通原來的系統,難度和成本很高,此外,想實現自主可控和運維開發幾乎不可行。這也是成熟的自動化運維平臺需要滿足的特點。
03. 聯動一體
企業自建的自動化運維平臺,通常采用開源工具和商用工具組合而成,各模塊之間無法天然聯動,容易形成煙囪化建設。
而基于藍鯨平臺之上建立的配置管理、監控告警、IT運維服務管理、應用發布自動化等工具可以實現天然的聯動交互,并且外圍工具也可以基于藍鯨平臺提供的標準接口做集成對接,快速實現外圍工具與運維平臺的聯動一體。
如果沒有聯動一體,意味著工具是割裂的,想做告警和事件的聯動是不可行的,變更發布和CMDB、流程之間的打通也實現不了,最終就會導致運維管理工作割裂,無法成功落地,自動化運維也就淺嘗輒止了。
一個成熟的自動化運維平臺很重要的判斷標準,是經過大規模客戶的考驗,從而沉淀出最佳實踐。企業要快速建設一套成熟的運維平臺,也可以考慮借鑒行業實踐,縮短建設周期和試錯成本。
嘉為藍鯨目前已經實現納管了30W+全球海量架構、企業級20W+統一管理和千萬級每日接口調用,達到了一個成熟的自動化運維平臺需要達到的標準。同時嘉為藍鯨具備600余家企業客戶落地實踐經驗,行業覆蓋金融、政務、運營商、能源、交通、汽車、智能制造等多個行業,能夠很好的助力客戶實現運維升級,加快數字化轉型進程。
申請演示