视色av,亚洲免费av一区二区,日韩av一区在线观看,日韩色中色

首頁

/

云原生時代全鏈路觀測體系構建

發布日期:2023-04-12 16:18:53

分享到

云原生時代下,企業的最終目標是構建聯動、統一的全鏈路觀測體系,為數據驅動決策提供可靠的支撐。

本文我們將從可觀測數據治理方法論、復雜軟件架構的故障根因定位以及性能瓶頸分析核心方法和處置決策流程三個方面切入,分享云原生時代全鏈路可觀測體系建設思路。

烏卡時代(VUCA )企業需要適應市場需求變化以及要求,業務持續性創新對企業技術架構和業務架構也提出了嚴峻的挑戰。首先,業務架構需要快速適應變化,有效感知用戶/業務的行為動態,通過改善業務效率、用戶體驗驅動業務發展;其次,技術架構需要采用適應業務敏捷迭代和彈性伸縮的微服務架構、云原生架構,以應對業務頻繁變更及技術復雜性造成業務連續性下降的難點問題。
通過引入云原生端到端可觀測體系能夠幫助企業:有效解決故障感知問題,清晰故障定位、精準根因分析、輔助故障處置決策,持續保障業務連續穩定,同時基于多維運維數據 metric、log、trace的業務價值挖掘能有效洞察業務變化,提升用戶體驗,驅動業務發展。本文結合嘉為在可觀測領域多年實踐針對云原生時代全鏈路觀測體系構建方法給出建議、實踐和思考。


01. 可觀測起源及未來發展方向

1)云原生時代應用觀測的難點

數字化轉型的高速發展,極大地推進了軟件架構的迭代更新,從簡至繁經歷了單體架構-SOA架構-微服務架構-服務網格的演進更新歷程。

典型的云原生架構圖

隨著云原生時代的到來,應用架構在落地敏捷開發、快速迭代、彈性伸縮的同時,將原有的單體應用拆分成多個獨立部署、相互通信的組合應用,給應用運維的故障分析、根因定位、業務連續性穩定帶來嚴峻挑戰:

① 對象模型激增

單體應用拆分微服務架構后,服務數量劇增;同時,觀測對象從虛擬機細化到POD、容器級別,實例數量指數級增長。

② 信息維度復雜,難以建立多維數據關聯映射關系

相對于傳統虛機或宿主機,增加一層網絡、存儲、虛擬化計算資源,將增加額外的資源屬性及觀測指標;云原生微服務應用涉及多個服務、多個組件,請求調用鏈路復雜。

(圖片來源于網絡)


③ 架構動態變化,故障現場難以留存,問題難以定位

基于業務快速發展訴求的頻繁迭代更替,導致服務、接口、節點動態變化;云原生基于聲明式面向終端的設計思想,自動宕機重啟IP漂移,故障時難以有效的進行故障回溯和資源定位。


2)可觀測與傳統監控的區別

監控是可觀測性的一種實現手段,但可觀測遠不止于監控。

傳統監控體系是面向靜態資源,通過主動撥測方式構建的時序監控指標視圖,其前置條件是需要明確對象及觀測指標,基于指標體系,工程師能夠了解哪些系統是確定工作的。

在云原生觀測場景下,指標覆蓋不全、業務侵入性大、數據關聯性差、缺乏基于業務視角異常感知機制等問題凸顯,傳統監控能力難以適應云原生架構動態變化、服務依賴關系復雜、信息組織多樣的現實問題,無法從全業務流量鏈路上有效定位問題、故障處置不及時,整體業務連續性遇到較大的挑戰。

在此背景下,誕生了云原生觀測體系,通過多維觀測數據鏈路trace、時序指標metric、日志明細log,進行有機融合構建體系化的觀測體系,通過無侵入采集動態插碼技術降低業務觀測成本。同時提供豐富的業務應用視角的觀測手段,包括依賴分析、性能剖析、故障排錯及根因定位等,實現從被動感知到主動觀測、從被動響應到主動觀測體系建設的思維模式轉變,從而達到了解已知、防范風險、探索未知的觀測目標。

總結來說,傳統監控可類比中醫,基于脈搏時序檢測依賴人為經驗判斷,依賴經驗豐富的工程師;可觀測可類比西醫,通過各種觀測手段如RUM、APM、日志、基礎監控等,構建全量觀測體系白盒診斷,讓醫生對系統實時進行全面體檢,發現問題所在。


3)云原生可觀測發展方向

云原生時代的觀測技術,由單一時序指標數據向指標、鏈路、明細多維數據關聯聯動過渡,由單一監控工具向分布式鏈路追蹤、海量日志檢索、集中告警治理、工程化AI的可觀測體系平臺演進。主要包含四個方面:

① 無侵入低侵入接入

使用字節碼、ebpf等無侵入或低侵入技術替換傳統手動可觀測埋點方式,降低觀測接入成本,極大方便可觀測數據的接入和平臺推廣。

② 采集能力開源生態

各頭部廠商將探針接入能力開源,通過開源協同共建、開放共贏,降低觀測采集插件開發成本,聚焦上層可觀測數據的價值分析。

③ 數據協議標準統一

OpenTelemetry成為事實的云原生觀測標準,開源工具和商業產品逐步兼容適配OT觀測標準數據協議,實現數據接入的標準化簡化遷移適配工作。

④ 以鏈路為中心的全景觀測

觀測分析視角由傳統的資源監控,轉向以鏈路為核心的上層應用觀測,有效感知并快速響應、閉環業務異常。


02. 可觀測體系建設思路

1)可觀測體系建設路徑

可觀測體系的建設,我們分為五個層級。目前,大多數企業都歷經了監控的前三個層級的建設:L1-局部可用性監控、L2-煙囪工具式監控、L3-大平臺型監控,并且正在向L4-可觀測體系建設邁進,向L5-智能監控方向進行探索。在此過程中,有幾種變化:

  1. 視角的變化:從資源監控轉變為用戶、業務的視角;
  2. 數據維度的變化:從單一指標,向指標、鏈路、明細多維數據指標轉變;
  3. 職責的變化:傳統運維的主要職責是保障系統穩定性,而在可觀測時代,我們希望運維能承擔更多的職責,通過運維數據的沉淀,挖掘業務價值。


2)可觀測體系建設的三大核心點

在這種變化之下,可觀測就絕不僅僅是一套工具或者一套數據組成,而是一個體系化工程,建設上主要有3個核心點:

核心點1-統一數據治理:觀測數據建模服務于觀測場景

面向云原生體系下不同的觀測組件、多維的觀測數據的不計其數,如何將不同的觀測組件和觀測數據進行有機融合,建立統一觀測模型、構建觀測標準,是建立云原生觀測體系首要解決的核心問題。

Peter Bourgon 在2017年2月撰寫了一篇簡明扼要的文章《Metrics,tracing,and logging》,文中將觀測數據按數據類型和應用場景,劃分為鏈路數據 trace、時序指標數據 metric、明細日志文本數據log,這也是目前可觀測體系三大支柱的理論來源。

(圖片來源于網絡)

鏈路數據 trace 基于特定標識,提供單筆請求的全量調用路徑自動構建系統運行時軟件架構,提供清晰排障路徑。

時序指標數據 metric 是用戶觀測系統狀態和變化趨勢,基于數據波動可有效發現異常,但無法用于根因定位。

明細日志文本數據 log 是應用運行過程的現場留存,保留完整業務執行明細,是業務排障主要來源。


如何將三者進行有機統一,相互融合打造統一觀測體系,有三個關鍵點:

  1. 統一觀測對象建模:建立全局統一觀測對象模型(可基于CMDB),構建多維業務對象級聯關系,方便數據的定位尋址。
  2. 數據關聯打標:在日志明細中埋入TraceID和SpanID,Metric指標上報埋入資源標簽。
  3. 構建時間范圍統計關系:提供基于時間統計維度,依賴對象間的下鉆分析能力。


核心點2-統一評價標準:以應用為中心健康評估

不同維度的觀測數據統一接入后,需要對數據進行清洗、關聯、聚合,構建以應用為中心,融合trace、metric、log多維數據的應用性能評價體系,從而基于業務視角,統一性能評價標準、主動發現性能瓶頸、快速感知故障、高效故障恢復,保障應用系統連續穩定。


核心點3-觀測處置聯動:持續觀測改進閉環

以應用為中心,將性能指標、運行日志、服務事件、請求鏈路進行統計聚合、關聯分析,建立服務全景觀測中樞,實現服務性能度量、預測,提供故障根因及性能分析依據。

聯動標準運維能力及AI賦能加持,基于性能觀測度量結果構建清晰運維決策鏈路,聯動應用發布、故障處置、容災演練、服務治理,構建持續觀測、優化改進的雙向閉環反饋機制,保障系統連續穩定。


03. 嘉為端到端可觀測產品實踐

1)嘉為鯨眼全棧智能可觀測中心

嘉為鯨眼可觀測產品是一款面向企業IT研發、運維、業務提供的一款領先的端到端體系化全鏈條可觀測產品,覆蓋用戶側真實體驗分析、后端應用性能分析、指標體系建設、明細日志檢索、海量事件告警的全棧觀測場景,解決用戶體驗度量、業務故障感知、清晰故障定位、精準故障告警、高效數據檢索等核心問題,全方位滿足客戶及時性、準確性、輔助故障處置決策的可觀測需求。

產品具備以下亮點:

① 標準化

基于觀測場景完成觀測對象模型建模,規范觀測數據采集策略、指標聚合算法、指標檢測策略打通多維觀測數據(metric、trace、log)關聯映射關系,無縫對接CMDB構建動靜結合的觀測對象尋址,落地體系化、標準化觀測場景建模方法。

② 一體化

以觀測對象模型為經絡建立從前端用戶體驗分析、后端應用性能分析、日志檢索、基礎監控、事件告警的業務共識統一觀測視圖,無縫聯動嘉為藍鯨故障自愈、應用發布、容災切換等運維處置能力,實現觀測數據采集清洗、業務異常感知、故障事件告警、根因溯源排障、輔助運維處置決策的觀測處置全生命周期閉環。

③ 智能化

基于行業縱深海量數據建模構建豐富的AIOps智能觀測場景,覆蓋指標異常檢測、資源容量預估、故障根因分析、專家知識沉淀、日志聚類等智能應用場景。

④ 開放融合

兼容開源OpenTelemetry和藍鯨開源PaaS平臺,實現開放數據投遞、標準接口對接、自定義插件增強等開放性設計滿足客戶自主可控、自定義擴展、安全審計合規要求。此外,單一產品具備獨立交付開放融合能力,支持與現有監控、運維工具能力打通。


2)解決方案核心優勢

① 觀測體系融合構建端到端全景觀測輔助決策分析

  • 前后端應用流量鏈路的打通:統一前后端鏈路唯一標識實現前后端應用流量鏈路串聯,清晰劃分前后端故障邊界;
  • 應用流量和與日志無縫關聯:每筆請求鏈路可自動與日志明細進行關聯綁定,當發現錯誤鏈路或耗時鏈路可分析關聯的日志明細打通排障最后一公里;
  • 應用流量和基礎資源聯動:基于前端應用鏈路鏈路+后端應用流量鏈路+日志明細關聯閉環應用層觀測體系,當基于流量鏈路發現組件/實例宕機后可基于CMDB資源唯一標識+實踐范圍下鉆至基礎資源組件/實例分析其指標變化和日志明細分析故障根因,實現端到端觀測體系融合。


② 藍鯨運維生態融合加速問題處置保障業務連續

發現問題是解決問題前置條件,基于告警中心可對分層觀測對象全量告警事件進行告警治理(豐富、抑制、處置),通過告警中心作為觀測+運維處置決策橋梁聯動藍鯨強大運維處置生態(ITSM、故障自愈、容災切換、發布中心)實現故障高效恢復,有效保證業務連續穩定。

免費申請演示

聯系我們

服務熱線:

020-38847288

QQ咨詢:

3593213400

在線溝通:

立即咨詢
查看更多聯系方式

申請演示

請登錄后在查看!