近年來,隨著企業(yè)業(yè)務規(guī)模日益龐大,IT架構日益復雜,云計算、微服務等一系列技術在各企業(yè)內部開始逐步探索落地。技術的發(fā)展不僅對企業(yè)內部運維管理產生了極大的挑戰(zhàn),對于監(jiān)控體系也提出了更高的要求。
某運營商公司在IT架構搭建、組織部門規(guī)劃時,大膽采用先進理念,進行了全部業(yè)務系統(tǒng)的分布式設計、SRE運維部門的分工創(chuàng)建。嘉為藍鯨全棧智能觀測中心在其中為業(yè)務系統(tǒng)的研發(fā)測試、快速迭代提供了重要的工具能力支撐;為SRE運維組觀測業(yè)務系統(tǒng)運行情況、及時定位分析處置告警提供了統(tǒng)一能力平臺。
01. 業(yè)務場景
分布式、微服務、云原生等先進應用架構在落地敏捷開發(fā)、快速迭代、彈性伸縮的同時將原有的單體應用拆分成多個獨立部署相互通信的組合應用。應用數量指數級增長,業(yè)務模塊間依賴關系錯綜復雜,不同業(yè)務層級不同維度難以建立實時有效的映射關系。同時,隨著容器頻繁啟停,監(jiān)控對象及其指標變化成為常態(tài),故障現場難以留存、故障問題難以有效定位。
02. 分析痛點
以上云原生架構的觀測難點給應用運維的故障分析、根因定位、業(yè)務連續(xù)穩(wěn)定帶來嚴峻挑戰(zhàn)。應用觀測難點概述為以下兩點:
1)信息維度復雜,難以建立多維數據關聯(lián)映射關系
云原生應用的監(jiān)控度量涉及應用進程、中間件、容器編排平臺、容器進程、資源基礎設施等相關層級資源屬性和性能指標;其次,應用排障及性能剖析涉及多個服務、多個組件復雜交互關系,需根據請求鏈路依賴關系分析故障根因。
2)架構動態(tài)變化,故障現場難以留存,問題難以定位
容器部署架構基于聲明式面向終態(tài)的設計思想,部署資源實例對象變更頻繁,服務節(jié)點漂移成為常態(tài)。基于多維明細數據和指標數據關聯(lián)映射構建的運行時觀測分析矩陣能有效回溯歷史故障現場。
03. 解決方案
1)合縱連橫故障尋址
縱向:建立運行時軟件架構級聯(lián)對象下鉆分析邏輯。基于實際業(yè)務流量構建不同服務的全局依賴拓撲,實現可選時間范圍的單業(yè)務領域全景分析,通過拓撲節(jié)點大小、顏色差異有效分析服務流量負載及服務健康狀態(tài),支持對服務節(jié)點的下鉆分析、指定時間范圍內服務請求、負載、錯誤、耗時黃金指標,在服務內可下鉆分析服務的單一接口/單一服務實例進一步故障尋址分析。將服務實例與CMDB管理資源(主機、容器)關聯(lián),可下鉆至IaaS層資源,分析IT基礎資源指標異常對服務流量的影響。
橫向:基于Trace串聯(lián)構建單筆請求鏈路追蹤。每筆業(yè)務請求調用在入口服務生成請求唯一標識,當流量在下游多個服務傳遞時將請求唯一標識、當前節(jié)點請求標識、上游服務信息作為上下文傳遞,從而構建完成業(yè)務調用鏈路。此外,用戶可結合實際業(yè)務場景從HTTP請求頭、請求參數、cookie等獲取業(yè)務特征數據完成數據埋點,在鏈路分析時根據指定業(yè)務特征的請求依賴關系輔助業(yè)務異常分析。
2)調用鏈與日志明細關聯(lián)根因定位
在KAPM和KLC共同交付場景下,可將調用鏈和日志明細進行關聯(lián),實現高效根因定位。通過KAPM調用鏈分析能力用戶可以確定請求依賴關系、縮小排障范圍、準確故障尋址,但無法獲取故障根因明細,在此場景下將調用鏈和日志明細關聯(lián)無縫鏈接排障最后“一公里”。
04. 成果展示
1)核心應用系統(tǒng)全覆蓋
2)根據應用運行情況,展示應用概覽看板
3)應用關聯(lián)資源自動發(fā)現
4)接口級運行狀況監(jiān)控
5)系統(tǒng)請求Trace實時檢索
05. 建設成效
06. 場景適用性
嘉為藍鯨可觀測中心適用于企業(yè)內部系統(tǒng)分布式架構設計,微服務化系統(tǒng)單元的場景。適用于以下類型的企業(yè):
申請演示