發布日期:2022-11-25 18:16:23
中國人民保險集團股份有限公司南中心是中國人保集團的生產中心,目前在建的還有北中心和北方同城中心。基礎運維保障是南中心數據中心的核心能力,通過組織、人員、制度、流程和工具層面的完善和調優,包括引入GB/T 33136和Uptime M&O運維管理體系以體系化的方式進行管理。在此基礎上,南中心還縱向拓展了網絡運維、設備運維、安全運維以及災備運維等能力,之后將橫向拓展到北中心和北方同城中心。
隨著管理的進一步深入,新的運維提升要求不斷地涌現,比如:云運維、AIOps、DevOps等,對于南中心而言,如何實現工具層面的統一運維是提升運維效率的關鍵;如何利用好平臺化運維提升運維管理的深度和廣度是體現其運維價值的關鍵。
01. 搭建統一運維管理平臺
2020年,根據集團科技藍圖的相關規劃安排,為提升數據中心南中心機房精細化和智能化管理水平,南中心攜手嘉為藍鯨,打造“機房統一運維中臺+機房運維服務場景+數據報表及展示”的統一運維管理平臺。
基于藍鯨PaaS平臺底座,構建一級原生工具五大域,含配置管理域、監控與故障處理域、運維自動化域、ITSM運維流程自動化域、運維大數據域。同時,在此基礎上構建了二級專用SaaS:網絡管理域。在最上層構建統一信息展示窗口,以實現業務綜合信息、業務監控數據、統一報表數據、網絡性能數據、數據中心架構的可視化。
通過統一運維管理平臺,納管南中心機房資源,建設機房可視化、運維流程及告警體系、統一CMDB數據及網絡自動化管理,逐步構建自主可控、高效敏捷的研運體系與組織架構。
02. 建設網絡自動化管理SaaS
依托統一運維管理平臺,南中心建設了網絡自動化管理SaaS,作為集團統一網管平臺的監控手段及工具的補充,整合納管過往建設的網管系統,如傳統監控、Zabbix監控、SDN監控等;在此基礎上,構建專有的管理工具,如配置管理工具、自動化工具、集中監控工具等,夯實平臺的服務能力。
通過網絡自動化管理SaaS,實現對多種告警源的數據對接;基于配置發現工具及自動化工具,可以生成不同的防火墻腳本及交換機配置。同時,對集中監控做了優化,實現集中展示及告警分析。
03. 構建防火墻自動化運維場景
隨著南北中心的整合及集團體制化改革的進程,南中心網絡團隊接手了防火墻的運維工作,在團隊人員不變的情況下,需要額外運維接近50臺防火墻,梳理超4萬條策略。任務重,要求高,給網絡團隊帶來極大的挑戰。因此,提高工作效率成了重中之重。
在統一運維管理平臺落地過程中,南中心已經構建了一系列基礎運維的能力,如ITSM、CMDB,并能夠把需求回寫到數據庫中,實現需求可統計、可跟蹤、可回溯。網絡運維SaaS依托上述基礎能力,建設了5大自動化能力,工作效率得到大幅提高:
同時,通過標準化、自動化、可視化、智能化的4大舉措為用戶提供優質高效的運維服務。
1)標準化
自動化的前提是標準化,需要統一思想,規范流程。網絡團隊在制定統一的策略規則后,對外開啟統一的服務接口,對內加強內部運維團隊意識培訓。
2)自動化
① 歷經三次迭代,最終實現自動生成變更。
第一次迭代:不依托平臺,僅通過Excel及宏執行生成,人工清洗;缺乏回溯性,無法記錄和統計;
第二次迭代:基于藍鯨平臺,將生成規則寫到平臺上,與ITSM相結合,可以生成對應工單、形成對應代碼;沒有與CMDB相聯動,無法對CMDB數據做校驗;
第三次迭代:結合CMDB數據,對用戶輸入的需求進行清洗,同時匹配到不同的產品及型號,如華為、飛塔、華三、山石的防火墻。
② 自動執行變更
用戶提交服務請求后,通過SaaS生成腳本,返回到堡壘機。其中涉及到SaaS與ITSM的聯動、ITSM與堡壘機不同系統間的對接,該功能還在加快推進,預計年內實現全自動的下發工作。
③ 自動保存配置信息
第一次迭代:將ITSM的數據寫進工具,同時讀出設備的配置數據,回寫到CMDB,將ITSM審批過的數據寫進CMDB;
第二次迭代:操作人員存在刷錯腳本的情況,后續很難發現腳本的修改,且成本很高;在第二次迭代時,推進CMDB的AB庫建設,在審批完后,將審批過的數據寫到CMDB的一個庫里面,在下一步自動化執行結果校驗的時候,對CMDB的數據進行AB庫的校驗。
④ 將設備的配置信息與工單數據做比對
第一次迭代:已錄入半份ITSM數據,如有哪些工單、哪些防火墻策略需要修改,但無法知道修改成什么樣;因此,通過讀取防火墻信息,把兩邊的信息結合,形成一條防火墻記錄,該過程存在校驗問題;
第二次迭代:將工單錄入數據錄入B庫,自動采集數據至A庫,AB庫進行比對校驗,針對不同的校驗結果做分析,提高運維準確率。
3)可視化
通過提高效率,網絡團隊得以騰出手來,基于工單數據分析準確率及服務效率,同時可以審查是否存在垃圾、冗余的策略,提升設備的運行性能。
服務分析:分別以防火墻維度、公司維度展示防火墻策略、工單數據;
工單分析:按不同維度,通過一段時間內完成的工單數量統計工作效率;在工單中可以查詢防火墻策略明細以及各類信息,同時可以查詢服務請求與對應的變更關系,使得工作更加一目了然;
策略分析:基于CMDB的靜態數據,分析防火墻的新增策略及可合并策略,以及各防火墻策略數變化趨勢;基于運行過程中產生的命中率的動態數據,如策略命中情況、命中趨勢,分析策略是否合理及其變化情況。
04. 經驗分享
① 選用高頻、重復度高、有痛點的場景
高頻、重復度高的場景,能夠支撐運維團隊快速多次迭代;痛點代表有價值,克服痛點,SaaS才有價值所在;
② 標準化
SaaS設計之初是建立標準化的過程;
③ 做好增量,管住存量(適用于改造場景)
增量可能會線性爆炸發生,甚至非線性發展,做好SaaS就可以管好增量,然后再逐步去做存量策略及場景的優化,SaaS就有了生命力;
④ 小步快跑,快速迭代
SaaS要能不斷推出功能,滿足業務側的需求,才能得到肯定與支持;
⑤ 橫向擴展,縱向深挖
橫向將已有能力拓展到其他數據中心或區域,縱向深挖某一場景的需求;
⑥ 自有團隊,持續保障
在SaaS開發過程中,需要有自主團隊來保障知識產權持續發展,同時,保障迭代持續進行。
「隨著南北中心的整合及集團體制化改革的進程,南中心網絡團隊接手了防火墻的運維工作,在團隊人員不變的情況下,需要額外運維接近50臺防火墻,梳理超4萬條策略。任務重,要求高,給網絡團隊帶來極大的挑戰。因此,提高工作效率成了重中之重。」
人保科技隨著數字化轉型的深入,基于中臺和PaaS架構的一體化運維建設也在各行各業快速展開,但是如何將運維平臺本身的能力與企業已有的工具能力進行中臺化整合、工具場景如何聯動,是個復雜而龐大的工程......
零束科技定位于平臺型科技公司,作為“數據決定體驗,軟件定義汽車”的踐行者,智能車聯云平臺需要支持百萬車輛接入,同時支持大量數據管理調度,這對云平臺的性能、穩定及安全性提出了極高要求。為進一步縮短云端研發迭代周期、提升軟件產品交付質量及開發效率、提高信息技術對車端業務需求的響應速度,零束科技與嘉為藍鯨合作,打造DevOps研運一體化平臺,提升持續集成、持續交付、持續部署能力,有效提升研發效能。
創立于1929年的周大福,是全球著名的珠寶集團,零售網絡遍及中國、日本、韓國、東南亞與美國。嘉為藍鯨WeOps平臺上線后,除了主機監控,監控范圍增加了操作系統、數據庫、中間件、虛擬化、云平臺、基礎應用等維度,運維人員可以主動針對影響業務的關鍵指標設置發現和解決問題的流程。
數字經濟的蓬勃發展,為證券行業添加了新動能,但突如其來的疫情爆發,使得行業無接觸經濟需求快速增加,也讓數字經濟展現出了無限可能。在數字經濟大勢下,證券行業紛紛加大了IT建設投入,并提出數字化轉型的戰略。
互聯網時代,AI、5G、大數據、萬物互聯等新技術推動著各行業態的轉變與發展,汽車行業順勢而動,在技術上致力于讓汽車更加聰明、環保;在管理上以互聯網打破時間與空間的限制進行協同,讓周轉更迅速、讓成本有效控制;在業務上提供精細化、定制化、多元化的服務。“行業領先”不再僅限于產品的市場定位,同時也受管理、服務與技術支持的影響。
申請演示