01. 場景簡述
使用WeOps服務撥測+告警,取代了原人工巡檢方式,實現即時查看內部銀行前置機與各銀行的業務服務連接狀態,一旦出現網絡連接異常,兩分鐘內發出告警通知,幫助運維早于業務發現問題,變被動響應為主動處置,從而減小對業務的影響。
02. 故事背景
資金管理系統是財務公司最重要的業務系統,由銀企直連系統①(簡稱:銀企系統)、網絡金融服務系統(簡稱:網銀系統)等多個子系統組成。
銀企系統通過內部的銀行前置機,利用專線與各家銀行對接,中間涉及內部網絡設備、專線網絡以及對端的銀行網絡設備三個部分,如果中間某個環節網絡出現問題,將直接導致銀企系統功能不可用。令該財務公司運維團隊頭痛的是:如何端到端對專線的可用性進行監測,曾經嘗試過手工登錄到前置機,利用telnet命令檢查的方法,但由于以下兩個問題被棄用。
過往發生過相關故障,業務部門投訴無法在銀企系統上完成對農行的轉賬,IT運維緊急聯系運營商,最終定位到是農行的網絡設備老化,對端的接口連接狀態出現異常。業務受影響長達2個多小時,IT被記過處分。
備注①:銀企直連系統是利用運營商專線,使企業的財務系統與銀行綜合業務系統實現對接,企業無需專門登錄網上銀行,就可以利用自身財務系統自主完成對其銀行賬戶包括分(子)公司銀行賬戶的查詢、轉賬、資金歸集、信息下載等功能,并在財務系統中自動登記賬務信息,免去了以往財務系統、網銀系統兩次指令錄入的過程,提高了工作效率,確保了財務系統與銀行綜合業務系統賬戶信息的一致性。
03. WeOps應對及效果
用WeOps服務撥測+告警,監測前置機到銀行的服務連接狀態
① 對所有前置機批量下發代理,集中監管
② 利用WeOps服務撥測功能,使用TCP協議,以各個前置機為撥測節點,對各家銀行的服務端口配置撥測任務,對連接狀態的可用性和響應時長進行實時監測
③ 針對“可用性”和“響應時長”配置告警,當出現“可用性”小于100%、“響應時長”超過1s時,產生“致命”告警
④ 相關告警信息通過郵件和短信方式發送至指定運維同事。
04. WeOps實現效果
1)用簡單的方法解決專線端到端網絡可用性監測的難題
2)場景適用性
該專線連通性監測的場景,適用于內部核心業務系統與外部第三方對接,且對連通性有高要求的企業,如金融企業等,WeOps撥測功能,幫助企業實時監測專線可用性,及時發現異常,縮短對業務影響時間。
申請演示