01. 觀測場景
分布式、微服務(wù)、云原生等先進(jìn)應(yīng)用架構(gòu)在落地敏捷開發(fā)、快速迭代、彈性伸縮的同時將原有的單體應(yīng)用拆分成多個獨立部署相互通信的組合應(yīng)用。應(yīng)用數(shù)量指數(shù)級增長,業(yè)務(wù)模塊間依賴關(guān)系錯綜復(fù)雜,不同業(yè)務(wù)層級不同維度難以建立實時有效的映射關(guān)系。同時,隨著容器頻繁啟停,監(jiān)控對象及其指標(biāo)變化成為常態(tài),故障現(xiàn)場難以留存、故障問題難以有效定位。
02. 場景痛點
以上云原生架構(gòu)的觀測難點給應(yīng)用運維的故障分析、根因定位、業(yè)務(wù)連續(xù)穩(wěn)定帶來嚴(yán)峻挑戰(zhàn)。應(yīng)用觀測難點概述為以下兩點:
1)信息維度復(fù)雜,難以建立多維數(shù)據(jù)關(guān)聯(lián)映射關(guān)系
云原生應(yīng)用的監(jiān)控度量涉及應(yīng)用進(jìn)程、中間件、容器編排平臺、容器進(jìn)程、資源基礎(chǔ)設(shè)施等相關(guān)層級資源屬性和性能指標(biāo);其次,應(yīng)用排障及性能剖析涉及多個服務(wù)、多個組件復(fù)雜交互關(guān)系,需根據(jù)請求鏈路依賴關(guān)系分析故障根因。
2)架構(gòu)動態(tài)變化,故障現(xiàn)場難以留存,問題難以定位
容器部署架構(gòu)基于聲明式面向終態(tài)的設(shè)計思想,部署資源實例對象變更頻繁,服務(wù)節(jié)點漂移成為常態(tài)。基于多維明細(xì)數(shù)據(jù)和指標(biāo)數(shù)據(jù)關(guān)聯(lián)映射構(gòu)建的運行時觀測分析矩陣能有效回溯歷史故障現(xiàn)場。
03. 解決方案
1)合縱連橫故障尋址
縱向:建立運行時軟件架構(gòu)級聯(lián)對象下鉆分析邏輯。基于實際業(yè)務(wù)流量構(gòu)建不同服務(wù)的全局依賴拓?fù)洌瑢崿F(xiàn)可選時間范圍的單業(yè)務(wù)領(lǐng)域全景分析,通過拓?fù)涔?jié)點大小、顏色差異有效分析服務(wù)流量負(fù)載及服務(wù)健康狀態(tài),支持對服務(wù)節(jié)點的下鉆分析、指定時間范圍內(nèi)服務(wù)請求、負(fù)載、錯誤、耗時黃金指標(biāo),在服務(wù)內(nèi)可下鉆分析服務(wù)的單一接口/單一服務(wù)實例進(jìn)一步故障尋址分析。將服務(wù)實例與CMDB管理資源(主機、容器)關(guān)聯(lián),可下鉆至IaaS層資源,分析IT基礎(chǔ)資源指標(biāo)異常對服務(wù)流量的影響。
橫向:基于Trace串聯(lián)構(gòu)建單筆請求鏈路追蹤。每筆業(yè)務(wù)請求調(diào)用在入口服務(wù)生成請求唯一標(biāo)識,當(dāng)流量在下游多個服務(wù)傳遞時將請求唯一標(biāo)識、當(dāng)前節(jié)點請求標(biāo)識、上游服務(wù)信息作為上下文傳遞,從而構(gòu)建完成業(yè)務(wù)調(diào)用鏈路。此外,用戶可結(jié)合實際業(yè)務(wù)場景從HTTP請求頭、請求參數(shù)、cookie等獲取業(yè)務(wù)特征數(shù)據(jù)完成數(shù)據(jù)埋點,在鏈路分析時根據(jù)指定業(yè)務(wù)特征的請求依賴關(guān)系輔助業(yè)務(wù)異常分析。
2)調(diào)用鏈與日志明細(xì)關(guān)聯(lián)根因定位
在KAPM和KLC共同交付場景下,可將調(diào)用鏈和日志明細(xì)進(jìn)行關(guān)聯(lián),實現(xiàn)高效根因定位。通過KAPM調(diào)用鏈分析能力用戶可以確定請求依賴關(guān)系、縮小排障范圍、準(zhǔn)確故障尋址,但無法獲取故障根因明細(xì),在此場景下將調(diào)用鏈和日志明細(xì)關(guān)聯(lián)無縫鏈接排障最后“一公里”。
04. 產(chǎn)品功能
功能點1:應(yīng)用分析
鏈路拓?fù)洌?/strong>通過探針埋點服務(wù)進(jìn)程,自動探測繪制應(yīng)用運行拓?fù)洌煌ㄟ^節(jié)點面積大小區(qū)分服務(wù)流量情況,并根據(jù)相應(yīng)耗時/請求錯誤等數(shù)據(jù)對服務(wù)節(jié)點進(jìn)行Apdex評分染色。
資源關(guān)系:根據(jù)探針采集數(shù)據(jù),自動關(guān)聯(lián)主機、數(shù)據(jù)庫及消息隊列的基礎(chǔ)監(jiān)控實例,實現(xiàn)APM與ITIM的聯(lián)動觀測能力。
指標(biāo)分析:通過頁面集中展示應(yīng)用運行黃金指標(biāo)(健康狀態(tài)、請求負(fù)載和請求錯誤數(shù)),展示服務(wù)及接口的請求TOP列表。
功能點2:服務(wù)分析
服務(wù)列表:展示應(yīng)用所屬全部服務(wù)列表,匯總概要指標(biāo)數(shù)據(jù)。
指標(biāo)分析:展示服務(wù)視角運行指標(biāo),包括Apdex評分、請求負(fù)載、請求錯誤數(shù)和請求耗時等。
鏈路拓?fù)洌?/strong>展示從指定服務(wù)出發(fā)的局部拓?fù)渖舷掠侮P(guān)系,精準(zhǔn)定位服務(wù)運行影響范圍。
接口列表:集中展示服務(wù)所屬接口,匯總概要信息。
請求列表:羅列詳細(xì)請求數(shù)據(jù),精準(zhǔn)記錄每一次業(yè)務(wù)運行,支持一鍵跳轉(zhuǎn)接口分析、服務(wù)分析、調(diào)用鏈檢索等場景頁面。
錯誤列表:集中展示錯誤調(diào)用,支持一鍵跳轉(zhuǎn)調(diào)用鏈檢索頁面,可在頁面一鍵查看錯誤堆棧信息。
實例分析-請求概覽:針對服務(wù)實例(Java進(jìn)程)級別的分析概覽頁面,支持用戶查看健康狀態(tài)、請求負(fù)載、請求錯誤數(shù)和請求耗時等數(shù)據(jù)
實例分析-JVM分析:針對實例級別的進(jìn)程進(jìn)行JVM分析,包括GC分析、堆內(nèi)存分析、線程分析等指標(biāo)視圖。
SQL/NOSQL分析:針對服務(wù)調(diào)用的周邊數(shù)據(jù)庫進(jìn)行應(yīng)用層面的數(shù)據(jù)分析視圖,包括針對SQL命令/慢命令/錯誤的匯總分析視圖。
功能點3:接口分析
下鉆至具體服務(wù)接口,查看應(yīng)用運行情況,包括應(yīng)用運行數(shù)據(jù)概覽、請求列表和錯誤列表匯總分析;支持一鍵跳轉(zhuǎn)服務(wù)分析,支持下鉆至調(diào)用鏈檢索進(jìn)行詳情查看。
功能點4:調(diào)用鏈檢
Trace/Span檢索:針對調(diào)用鏈Trace和Span環(huán)節(jié)的詳情檢索頁面,支持通過Trace/SpanID精準(zhǔn)定位請求詳情,支持通過請求耗時范圍檢索請求列表;
請求詳情:通過查看詳情數(shù)據(jù)分析系統(tǒng)運行情況,包括探針原始數(shù)據(jù),與日志聯(lián)動的分析能力。
功能點5:應(yīng)用配置
健康度評分:支持用戶手動配置健康度閾值,針對不同應(yīng)用情況進(jìn)行不同條件下的應(yīng)用運行評估。
SQL/NOSQL慢命令配置:支持用戶自定義“慢命令/慢SQL”的閾值配置。
05. 落地愿景
在科技飛速發(fā)展的今天,各行各業(yè)都在不斷迎來新的變革。在IT運維領(lǐng)域,云原生概念隨著微服務(wù)、云以及容器化等技術(shù)的大規(guī)模應(yīng)用愈發(fā)深入人心;云原生帶來的新的運維困境和技術(shù)難題也愈發(fā)尖銳。在此背景下應(yīng)時而生的調(diào)用鏈追蹤技術(shù),將會幫助運維乃至開發(fā)人員更加方便快捷的完成系統(tǒng)維穩(wěn)、代碼優(yōu)化、故障排查等動作。同時,詳盡的寬事件數(shù)據(jù)也在推動著監(jiān)控領(lǐng)域從被動告警響應(yīng)向主動可觀測的模式轉(zhuǎn)變,從而加速各行各業(yè)的產(chǎn)品迭代,最終實現(xiàn)IT領(lǐng)域的加速發(fā)展。
SRE轉(zhuǎn)型:銀行SRE模式推廣策略
查看詳細(xì)
從設(shè)備到數(shù)據(jù):存儲監(jiān)控的關(guān)鍵與實踐
查看詳細(xì)
AI破圈爆火!殊不知運維才是幕后“定海神針”!
查看詳細(xì)
AI賦能DevOps:智能排錯、代碼修復(fù)與需求生成,打造高效開發(fā)新范式!
查看詳細(xì)
LLMOps+DeepSeek:大模型升級一體化運維
查看詳細(xì)
DeepSeek賦能企業(yè)研發(fā):DevOps+AI 新時代再升級!
查看詳細(xì)
申請演示