之前我們分析了銀行等金融機(jī)構(gòu)的運(yùn)維組織架構(gòu)現(xiàn)狀,討論運(yùn)維組織敏捷化轉(zhuǎn)型的背景,最后解釋了什么是敏捷型的運(yùn)維組織以及如何打造敏捷型的運(yùn)維組織,本文我們重點(diǎn)來(lái)關(guān)注架構(gòu)實(shí)施層面:金融業(yè)分布式系統(tǒng)運(yùn)維實(shí)踐。
分布式系統(tǒng),無(wú)論在互聯(lián)網(wǎng)行業(yè)亦或是傳統(tǒng)行業(yè),都不再是新興事物,互聯(lián)網(wǎng)公司推行較早,傳統(tǒng)行業(yè)近幾年也開(kāi)始發(fā)力建設(shè)。對(duì)于運(yùn)維人來(lái)說(shuō),分布式系統(tǒng)的運(yùn)維與傳統(tǒng)集群式系統(tǒng)的運(yùn)維大相徑庭,我們今天就來(lái)探討一下分布式運(yùn)維的建設(shè)。
01. 分布式運(yùn)維的挑戰(zhàn)
1)分布式系統(tǒng)的定義





分布性:由多臺(tái)計(jì)算機(jī)組成,在地域上是分散的;系統(tǒng)功能分布在各個(gè)節(jié)點(diǎn)上,具有數(shù)據(jù)處理的分布性;
自治性:各個(gè)節(jié)點(diǎn)都包含自己的處理機(jī)和內(nèi)存,具備獨(dú)立處理數(shù)據(jù)的功能,通常彼此地位平等,無(wú)主次之分;
并行性:一個(gè)大的任務(wù)可以劃分為若干個(gè)子任務(wù),分別在不同的主機(jī)上執(zhí)行;
全局性:存在單一的、全局的進(jìn)程通信機(jī)制,使得任何一個(gè)進(jìn)程都能與其他進(jìn)程通信,并且不區(qū)分本地通信與遠(yuǎn)程通信,同時(shí)還有全局的保護(hù)機(jī)制。

① 運(yùn)維不確定性顯著增加:
系統(tǒng)中有大量的服務(wù)器及設(shè)備,各模塊之間存在錯(cuò)綜復(fù)雜的依賴關(guān)系,存在更多的不確定性。
② 故障率指數(shù)級(jí)增加:
整個(gè)系統(tǒng)的故障率會(huì)隨設(shè)備的增加而呈指數(shù)級(jí)增加,單一節(jié)點(diǎn)問(wèn)題可能會(huì)被無(wú)限放大,日常運(yùn)行過(guò)程中一定會(huì)伴隨“異常”發(fā)生。
③ 運(yùn)維日常復(fù)雜性大增:
分布式系統(tǒng)節(jié)點(diǎn)分布范圍更加廣,節(jié)點(diǎn)數(shù)量更多,物理位置不統(tǒng)一,非常依賴于網(wǎng)絡(luò),這對(duì)日常運(yùn)維過(guò)程中的日志采集、變更升級(jí)等都帶來(lái)了新的挑戰(zhàn)。
④ 運(yùn)維架構(gòu)復(fù)雜度:
隨著技術(shù)角色分工越來(lái)越細(xì),技術(shù)專業(yè)化程度越來(lái)越深,分布式系統(tǒng)穩(wěn)定性落地因其架構(gòu)特性,對(duì)架構(gòu)設(shè)計(jì)思路、組織設(shè)計(jì)等帶來(lái)了新的挑戰(zhàn)。
⑤ 運(yùn)維新模式:
要保障分布式架構(gòu)下的系統(tǒng)穩(wěn)定性,需要系統(tǒng)化地探討穩(wěn)定性建設(shè)新模式。
分布式系統(tǒng)建設(shè)追求穩(wěn)定性,分兩個(gè)目標(biāo)、四大模式、四項(xiàng)路徑。

02. 穩(wěn)定性建設(shè)目標(biāo)
1)建設(shè)目標(biāo)主要有兩個(gè):
降發(fā)生:事前的管理,通過(guò)建設(shè)“高可用、高性能、高質(zhì)量”的系統(tǒng)來(lái)降低故障發(fā)生的概率;
降影響:事后的管理,在故障發(fā)生后,“早感知、快定位、急止損、優(yōu)改進(jìn)”,降低影響范圍。
2)量化評(píng)價(jià)指標(biāo)三個(gè):
03. 穩(wěn)定性運(yùn)維建設(shè)模式
分布式運(yùn)維建設(shè)模式主要分為:架構(gòu)設(shè)計(jì)、容量設(shè)計(jì)、運(yùn)維設(shè)計(jì)、安全設(shè)計(jì)。我們主要看下和運(yùn)維相關(guān)的要點(diǎn)。
1)架構(gòu)設(shè)計(jì)
一般情況下,架構(gòu)設(shè)計(jì)主要由研發(fā)部門主導(dǎo),但是運(yùn)維人員不能只是作為后端被動(dòng)承接系統(tǒng)的運(yùn)維,最好在架構(gòu)設(shè)計(jì)階段就提出規(guī)范,滿足穩(wěn)定性運(yùn)維的要求:
① 去除單點(diǎn)

② 依賴設(shè)計(jì)
高等級(jí)服務(wù)不允許強(qiáng)依賴于低等級(jí)的服務(wù)或資源。

③ 數(shù)據(jù)保護(hù)
數(shù)據(jù)保護(hù)的主要目的是提升數(shù)據(jù)安全性,業(yè)界一般通過(guò)RPO(恢復(fù)點(diǎn)目標(biāo))與RTO (恢復(fù)時(shí)間目標(biāo))兩個(gè)指標(biāo)進(jìn)行度量,核心目標(biāo)是盡可能縮短數(shù)據(jù)恢復(fù)時(shí)間(降低RTO),避免數(shù)據(jù)丟失(RPO接近于0)。
針對(duì)不同的業(yè)務(wù)系統(tǒng)、分布式系統(tǒng)里面不同的服務(wù)模塊,需要有對(duì)應(yīng)級(jí)別的數(shù)據(jù)保護(hù)考量。
服務(wù)器單點(diǎn)保護(hù):基于本地盤跨機(jī)房異步復(fù)制數(shù)據(jù),但服務(wù)器出現(xiàn)不可恢復(fù)故障時(shí)將存在數(shù)據(jù)丟失
存儲(chǔ)單點(diǎn)保護(hù):基于單存儲(chǔ)數(shù)據(jù)庫(kù)系統(tǒng)跨機(jī)房異步復(fù)制,但存儲(chǔ)出現(xiàn)不可恢復(fù)故障時(shí)將存在數(shù)據(jù)丟失
同機(jī)房?jī)?nèi)多點(diǎn)保護(hù):基于同機(jī)房多點(diǎn)保護(hù)的數(shù)據(jù)庫(kù)系統(tǒng),同機(jī)房多份redo及跨機(jī)房異步復(fù)制模式,但機(jī)房故障時(shí)存在數(shù)據(jù)丟失
同城異機(jī)房保護(hù):基于同城異機(jī)房保護(hù)的數(shù)據(jù)庫(kù)系統(tǒng),采取同城異機(jī)房?jī)?nèi)多份redo保護(hù)及跨機(jī)房DG,但城市出現(xiàn)災(zāi)備時(shí)存在數(shù)據(jù)丟失
異地異機(jī)房保護(hù):基于異地多點(diǎn)保護(hù)的數(shù)據(jù)庫(kù)系統(tǒng),采取跨城跨機(jī)房數(shù)據(jù)保護(hù),但出現(xiàn)人類災(zāi)難時(shí)存在數(shù)據(jù)丟失
④ 災(zāi)備設(shè)計(jì)
當(dāng)故障或者災(zāi)難發(fā)生時(shí),可通過(guò)災(zāi)備技術(shù)保證業(yè)務(wù)不中斷、數(shù)據(jù)不丟失。針對(duì)不同的業(yè)務(wù)場(chǎng)景,綜合成本與效果的考量,選擇相應(yīng)的災(zāi)備設(shè)計(jì)。

⑤ 彈性設(shè)計(jì)
2)容量設(shè)計(jì)

系統(tǒng)上線之前,最好能有一個(gè)比較嚴(yán)謹(jǐn)?shù)臏y(cè)試,比如全鏈路壓測(cè),模擬用戶真實(shí)流量,對(duì)容量和性能等做測(cè)試。
3)運(yùn)維方案設(shè)計(jì)
提前考慮系統(tǒng)上線后的運(yùn)維訴求,做到變更可控、系統(tǒng)可觀、演練到位。
① 變更設(shè)計(jì)
分布式系統(tǒng)發(fā)布頻率較高、顆粒度較小、發(fā)布量較大,變更引起的系統(tǒng)問(wèn)題一般占大部分比重,所以需要有一套嚴(yán)格的自動(dòng)化發(fā)布機(jī)制。

② 可觀測(cè)設(shè)計(jì)
可觀測(cè),以前叫監(jiān)控告警,是分布式系統(tǒng)里面提出的一個(gè)新概念。應(yīng)用系統(tǒng)觀測(cè)需要覆蓋的資源類型如下:

可觀測(cè)的核心主要是四個(gè)維度:拓?fù)洹etric指標(biāo)、trcae鏈路、log日志。
橫向看,從業(yè)務(wù)訪問(wèn)端到端的整個(gè)鏈路做數(shù)據(jù)的分析和展示,縱向看,把整個(gè)的資源、資源的指標(biāo)和日志拉通;橫向是業(yè)務(wù)層次、縱向是技術(shù)層次,一橫一縱,就構(gòu)成了可觀測(cè)。
③ 演練設(shè)計(jì)
相較傳統(tǒng)架構(gòu)系統(tǒng),分布式系統(tǒng)發(fā)生故障的概率較高,我們需要提前進(jìn)行演練設(shè)計(jì)。

④ 安全設(shè)計(jì)
系統(tǒng)安全是系統(tǒng)穩(wěn)定的基礎(chǔ),主要有如下四個(gè)方面:
04. 分布式系統(tǒng)運(yùn)維工具落地建設(shè)

1)一體化綜合管理工具
微服務(wù)化日甚的當(dāng)下,故障影響往往是復(fù)雜多樣的(單一節(jié)點(diǎn)故障可能導(dǎo)致全線業(yè)務(wù)出錯(cuò)),往往需要多個(gè)技術(shù)團(tuán)隊(duì)的協(xié)同保障系統(tǒng)穩(wěn)定。需要統(tǒng)一的系統(tǒng)化穩(wěn)定性管理能力作為“連接器”實(shí)現(xiàn)多團(tuán)隊(duì)協(xié)同“透明化”作戰(zhàn),并進(jìn)一步通過(guò)故障應(yīng)急過(guò)程及結(jié)果數(shù)據(jù)復(fù)盤,“數(shù)據(jù)化”風(fēng)險(xiǎn)趨勢(shì)以確定建設(shè)重點(diǎn),“標(biāo)準(zhǔn)化”故障管理流程以提升故障管理效率,定義業(yè)務(wù)或服務(wù)的SLO ( Service Level Objective,服務(wù)等級(jí)目標(biāo))以“結(jié)構(gòu)化”組織穩(wěn)定性保障能力。

2)故障預(yù)防工具
① 可觀測(cè)能力

那么比較好的建設(shè)模式甚至是最好的建設(shè)模式,是選一個(gè)具備大部分監(jiān)控能力和數(shù)據(jù)處理的產(chǎn)品,同時(shí)兼容性較強(qiáng),其他沒(méi)有的能力可以通過(guò)對(duì)接補(bǔ)足,這樣比較容易落地。
或者也可以選一個(gè)兼容性比較強(qiáng)的分析系統(tǒng),本身能夠支持市面上常見(jiàn)的成熟產(chǎn)品,來(lái)做集中對(duì)接,這種方式也可行但相對(duì)難一點(diǎn)。
② 變更管理
變更管理能力建設(shè)中,信息標(biāo)準(zhǔn)化和變更風(fēng)險(xiǎn)控制屬于ITIL管理的范疇,全量接入、變更中控和變更環(huán)境控制屬于執(zhí)行的范疇。
我們?cè)趯?shí)際落地的時(shí)候,屬于管理范疇的,建議在ITSM里面建設(shè);屬于執(zhí)行范疇的,在變更工具里面落地。
管理流程和管理工具,可以基于同一個(gè)運(yùn)維管理平臺(tái)進(jìn)行對(duì)接。

③ 容量管理
容量管理的核心有四個(gè):

④ 全鏈路壓測(cè)
通過(guò)全國(guó)各地CDN 節(jié)點(diǎn)模擬向生產(chǎn)系統(tǒng)施加壓力,模擬路演進(jìn)行整體容量和穩(wěn)定性驗(yàn)證。全鏈路性能測(cè)試能力構(gòu)建主要由以下幾部分構(gòu)成:

⑤ 混沌工程
如下圖所示混沌工程平臺(tái)能力,除此之外還需要在面向軟件完整生命周期、面向智能化、面向度量和運(yùn)營(yíng)能力體系建設(shè)三個(gè)方面進(jìn)一步加強(qiáng)。

3)故障止損工具
① 應(yīng)急平臺(tái)
應(yīng)急平臺(tái)建設(shè)主要考慮以下方面:

② 容災(zāi)管理
容災(zāi)管理主要分為容災(zāi)揭示、容災(zāi)管控兩部分,其中巡檢中心和流控中心作為容災(zāi)揭示和容災(zāi)管控的基礎(chǔ)工具依賴。

05. 總結(jié)
分布式系統(tǒng)運(yùn)維與傳統(tǒng)運(yùn)維的本質(zhì)區(qū)別:
① 分布式系統(tǒng)運(yùn)維:是面向應(yīng)用可用性穩(wěn)定性的,建設(shè)一體化能力。聚焦于穩(wěn)定性,但建設(shè)圍繞點(diǎn)是從穩(wěn)定性的背面“故障”出發(fā)。
② 傳統(tǒng)運(yùn)維:主要面向基礎(chǔ)架構(gòu);建設(shè)cmdb\監(jiān)控\自動(dòng)化的豎井能力。
③ 本質(zhì)上都還是監(jiān)管控,但是需要有兩點(diǎn):一是要融合并且面向應(yīng)用;二是要升華,如APM、混沌工程、應(yīng)用容量與成本等等。
④ 面向應(yīng)用的混沌工程、應(yīng)用容量、故障定位都需要監(jiān)管控這些能力的融合。
⑤ 所有這些的實(shí)現(xiàn)都需要強(qiáng)有力的自動(dòng)化運(yùn)維平臺(tái)的支撐。
嘉為藍(lán)鯨OpsPilot V3.7全新升級(jí):重構(gòu)分塊與問(wèn)答對(duì)關(guān)聯(lián),賦能精準(zhǔn)檢索與可靠回答
2025-09-19
查看詳細(xì)
嘉為藍(lán)鯨應(yīng)用發(fā)布中心V6.2重磅來(lái)襲:國(guó)產(chǎn)化、容器化、智能化,三驅(qū)賦能云原生發(fā)布
2025-09-19
查看詳細(xì)
嘉為藍(lán)鯨CPack制品管理平臺(tái):容量管控——告別存儲(chǔ)爆滿,為存儲(chǔ)裝上「安全閥」
2025-09-19
查看詳細(xì)
數(shù)據(jù)安全管控漫畫:告別數(shù)據(jù)越權(quán),精準(zhǔn)控制數(shù)據(jù)權(quán)限
2025-09-19
查看詳細(xì)
嘉為藍(lán)鯨自動(dòng)化運(yùn)維中心V3.1:新增兩大場(chǎng)景、大模型賦能、場(chǎng)景全面優(yōu)化,構(gòu)建更安全更高效的自動(dòng)化運(yùn)維體系
2025-09-12
查看詳細(xì)
嘉為藍(lán)鯨IT服務(wù)管理中心V4.6重磅來(lái)襲:深度優(yōu)化五大核心能力,重塑運(yùn)維效率
2025-09-12
查看詳細(xì)
申請(qǐng)演示