之前接到一位客戶咨詢,說自己是300人的公司,4名運維人員。負責桌面支持,網絡,視頻等所有it工作。有什么辦法能提高并量化it運維效率。為他解答的過程自己也整理除了一些思考,和大家一起聊聊。
如這位咨詢者所描述的公司內部IT運維現狀,其實是一種很普遍地存在于各類中小型企業中的IT運維挑戰。多數情況下,這4名運維人員都是類似全棧工程師的角色,處理公司內部的各類運維問題。
員工大多數情況下以郵件或線下方式提出大量的服務請求,或者干脆找到自己熟悉的運維人員口頭尋求幫助,久而久之,會進入一種怪圈,即每個運維工程師每天都會接收來自不同地方的大量服務請求,一整天都會十分地忙碌,但公司的同事卻始終對運維部門所提供的服務不滿意,認為自己的請求解決太慢,領導也對運維部門不滿意,認為看不到工作的成果與工作量的度量展現,反而會聽到大量對運維部門效率低下的抱怨。
出現這種怪圈的時候,證明公司的運維管理已經開始面對巨大的挑戰,此時的運維部門負責人甚至公司的CIO就要考慮如何考核IT人員工作量、提升IT問題處理效率,是時候開始重新規劃運維部門的運作方式了。
01. 業務戰略決定IT戰略
首先需要認識到一點,企業的業務戰略會決定IT戰略,而IT戰略會決定我們運維部門的最核心職能,如果不跳出怪圈,我們的運維部門就會背離企業的IT戰略,從而不能服務于更高級別的企業戰略,拖累企業的發展。
從這位咨詢者的問題描述來看,該運維部門的核心職能主要有兩點:一是保證公司IT業務系統的穩定性與連續性(運維的核心),二是保證有能力對公司各部門提供相應IT服務(大量桌面運維)。
想做到以上兩點,不妨利用業界通用的OASR模型,先梳理清楚我們擁有的運維對象(Objects)、每天所需進行的運維活動(Activities)、由這些活動衍生出來哪些典型的運維場景(Scenes)、以及完成這些場景所需的運維角色(Roles)應具備什么樣的能力。
就本運維部門來看,所負責的運維對象主要有基礎架構、桌面端、各類賬號資源等,每天進行的運維活動就是對承載業務系統的IT資源進行維護,包括基礎資源的分配、應用系統的監控、部署等,同時承接大量的諸如賬戶開通、資產申請、桌面配置等桌面運維所涉及的活動。
可以將上述活動歸結為資源運維場景、桌面運維場景這兩大類,而涉及到的角色就僧我們的四個運維工程師,他們一定要具備相應能力才能完成自己部門的核心職能。
一個好的運維部門規劃應該最大化的針對自身情況和人員能力做相應的調整,而不應該一股腦照搬一些運維理論或者為了提升而專門用自身運維團隊去匹配某些固定場景、流程的運維工具。
因此,根據OASR模型對運維工作所做的梳理,可以提供三點最主要的改進點,分別是:
1)組織保障
從該公司來看,因組織架構簡單,只對人員做分工即可。這里推薦使用職能型的組織分工,各成員專注于自己的工作與任務,有如下幾種分工方式做參考:
如果桌面運維請求量特別多的話還可以變為兩名桌面運維,2桌面,1基礎架構/數據庫,1網絡/安全。這樣的分工可以在滿足內部運維場景的同時,讓各工程師有機會合理安排自己工作的優先級,并且在自己的專業領域內不斷深耕,更高質量地完成自己的運維工作,提高用戶對于其工作的滿意度。
由此引出在合理分工保證員工各司其職的同時,出于持續經驗的考量,企業還應建立相應的職級與人才培養機制,初期可設立兩到三級(工程師、高級工程師、專家)的崗位職級,同時定期對其專業領域的工作做相應技術培訓,確保其能力有一定冗余,能夠支撐企業業務發展和擴張帶來的更大更復雜的IT運維挑戰。
2)流程管控
同樣地,基于業界最佳實踐ITIL體系,我們要找到最適合企業現狀的調整策略,規劃活動藍圖,形成適合自己內部情況的部門流程管理規劃。就本例來說,當務之急是收斂服務入口、做出服務承諾(SLA)、度量運維工作。
建立統一的服務臺門戶,讓用戶可以從服務臺處統一提單,服務目錄的設計方式可以根據兩大運維場景進行拓展,同時規定每種服務的響應與處理時間。
可以讓桌面運維的工程師負責一線和部分二線的服務請求,剩余的人作為二線處置人員,兼有一些三線專家的能力,最重要的是,服務臺一定要對所有服務請求做到閉環跟蹤,在保證服務滿意度的同時,方便后續進行度量計算來評估工作質量,如:是否滿足SLA的指標要求,以及針對故障的MTTA、MTTR等。
值得一提的是,由于企業中經常會遇到大量相似的IT問題,因此知識庫的建設必不可少,用戶如果可以有相應的技術文章作為參考,可以自己處置大量常見的IT問題,這樣可以釋放部分桌面運維人力到其他更需要專業技術的運維工作中去,對此我們稱之為零線服務。
3)技術支撐
為了滿足資源運維與桌面運維兩大場景,以及針對公司的運維流程管控,除人員能力外,我們一定要有相應的技術工具去支撐這些運維工作。
首先我們需要有靈活的流程工具去匹配流程管控的對應功能要求,需要具備的功能主要有:
其次,針對運維人員相對較少,卻需要管理整個企業的IT資源的情況,我們需要有具備自動化能力的一體化平臺去幫助工程師簡化操作難度,完成日常的資源運維場景,該平臺需具備如下能力:
有了上述三點的改進,相信該咨詢者一定會在較短的時間內看到運維部門乃至整個公司的運作效率有很大的改觀。
02. 咱們嘉為藍鯨是如何做的?
1)嘉為藍鯨一體化運維平臺
嘉為藍鯨以騰訊藍鯨PaaS平臺為底座,構建了一整套完整的運維體系解決方案,其中不僅包括實現對應運維場景的SaaS應用,還提供專業團隊,輔以配套的輕咨詢、方案、測試、交付、售后及客戶成功整套服務,幫助企業平穩完成數字化轉型升級,以下為嘉為藍鯨產品地圖全貌:
除以上這些常見運維場景外,憑借平臺強大地可擴展能力,我們還可以快速構建符合企業自身運維場景的SaaS應用,正所謂授人以魚不如授人以漁,通過雙方的共同努力,使運維工作更好地服務于企業的IT戰略,甚至從成本中心轉變為運營中心、利潤中心才是我們的共同目標,因此我們更愿意企業與我們一道加入整個藍鯨運維開發的生態,不斷發掘自身潛力,做到運維自增長,通過雙方的努力,使整個運維工作水平邁上自主可控的新臺階。
針對這位咨詢者的提問,嘉為藍鯨可以提供以下的產品及服務來實現我們的3點改善目標:
① 配置管理中心
上面提到的兩大運維場景,資源運維與桌面運維,涉及的內容歸根結底就是我們常說的IT服務管理與IT運維管理,而這兩者的連接點就是配置管理中心,因此我們要首先構建整個運維工作的基石——配置管理中心(CMDB)。
根據企業內部的常用業務系統分類,規劃整個業務系統的層級,將IT資源合理地劃分到各層級中,同時梳理運維活動中所需的配置屬性并自動化維護起來,使得人員、系統不斷地去消費并更新這些配置屬性,始終保持運維配置主數據的高質量性,這樣即使只有一兩個運維人員也可以隨時清楚地知道企業所擁有資源的實時變動情況。
與此同時,規范的配置管理工作不僅能夠提高運維工作的效率,使自動化操作成為可能,還可以通過周報、月報、統計度量的方式,去量化運維人員的工作成果,滿足管理者的管理需求。
② 可觀測中心
在將資源納管到我們的CMDB中之后,離不開的便是我們的“運維之眼”——可觀測中心。
在一個四個人組成的運維團隊中,做到專門有人實時利用多種監控工具去感知系統狀態是不現實的,因此如何快速發現有效告警并及時處理,這部分工作很大程度上就要依靠統一的可觀測中心去實現。
嘉為藍鯨依托多年在運維領域深耕的經驗,按照數據中心層次劃分,從縱向構建了豐富完整的指標體系,同時還可以利用日志工具、服務可觀測工具,建立功能齊備的可觀測中心,實時感知業務系統狀態。
當然,發現問題不是目的,快速形成事件處理閉環才是我們實現部門“保障穩定性”職能的本質目的,因此,從橫向構建對于告警事件的全生命周期管理才是最終實現監控價值的有效方式,嘉為藍鯨告警中心提供告警事件全生命周期閉環管理,可與工單系統無縫聯動,有效計算MTTA、MTTR等指標,保障企業業務平穩運行。
③ IT服務管理中心
實現對于企業流程管控的要求,我們就必須利用相應的流程管理工具——IT服務管理中心去支撐。第一部分我們提到,想要規范運維部門對外提供服務的方式,就一定要提供統一的服務入口,嘉為藍鯨可以根據不同用戶設置不同門戶界面,開放不同服務權限,滿足企業對于不同部門的IT服務要求。
同時平臺具備畫布式靈活編排的能力,匹配不同企業個性化的流程需求,還可以提供知識庫服務,讓用戶在提單時自動發現可能的解決方案,減少重復的基礎IT請求,除此之外還有SLA、值班表等IT服務管理常見工具來完善整個的IT服務治理。
針對領導關心的運維人員工作量度量問題,我們還可以提供相應指標如服務請求、事件管理、問題管理績效指標來度量運維人員的工作情況,體現運維的價值。
④ 自動化中心
為了使4個運維人員完成整個企業的IT運維工作,除了上述三個中心之外,平臺一定要具備的就是串聯各中心的自動化能力——自動化中心。
對于腳本執行、文件下發、巡檢等日常運維操作,或者日志空間將滿、服務進程重啟等常見故障恢復動作,如果沒有自動化方式去執行,將占據運維人員大量的時間去手動完成許多機械、重復的作業,往往還會因為疲勞導致一些不該發生的誤操作。
同時現在企業的IT多以應用為中心,針對應用的大量復雜操作都有比較長的流程,其中涉及多個系統聯動,如應用發布、災備切換演練等,這些如果沒有統一的自動化流程去規范和沉淀,很容易發生一些本不會發生的生產故障,敏捷時代,每天大量的變更發布已經不是人力所能解決的問題,沒有自動化能力的支撐,運維人員將很難獨立的完成這些運維活動。
2)完整的解決方案服務體系
① 豐富的配套服務(咨詢、培訓、大運維)
上面提到,嘉為藍鯨不僅提供產品來滿足運維場景的功能需求,同時提供完整的解決方案來滿足企業的需要,其中常見服務有咨詢、培訓以及針對該企業類似規模的大運維服務,來保證我們的客戶取得IT的成功。
針對常見的運維場景,如CMDB建設、ITSM建設等,提供相應的輕咨詢服務,幫助企業落地完整的建設管理體系,建的好,更要用的好。
針對類似咨詢者公司的情況,同為我們集團的嘉為教育還可以提供相應能力提升課程的售賣,滿足組織保障中對于能力提升的要求,如果類似公司還有大量桌管需求,我們還可以提供諸如SCCM的大運維服務,全方位滿足對于企業運維部門運作方式提升的要求!
② 全行業落地實踐(核心價值)
在運維行業深耕20余年,利用豐富的行業經驗,我們在大量頭部客戶側落地了嘉為藍鯨一體化運維平臺,幫助客戶實現了高質量、高效率、高可靠、低成本的運維價值,在接下來的日子里我們希望與更多客戶建立共同目標并為之努力,期待您的垂詢!
申請演示