股票杠杆开户平台有哪些-1万炒股一年最多挣多少EDF-【东方资本】,股票配资骗局亲身经历,官方炒股软件排行,线下配股售出时间

銀行運(yùn)維該如何與時(shí)俱進(jìn)?

發(fā)布日期:2022-08-01 09:18:33

分享到

之前我們分析了銀行等金融機(jī)構(gòu)的運(yùn)維組織架構(gòu)現(xiàn)狀,討論運(yùn)維組織敏捷化轉(zhuǎn)型的背景,最后解釋了什么是敏捷型的運(yùn)維組織以及如何打造敏捷型的運(yùn)維組織,本文我們重點(diǎn)來(lái)關(guān)注架構(gòu)實(shí)施層面:金融業(yè)分布式系統(tǒng)運(yùn)維實(shí)踐。


分布式系統(tǒng),無(wú)論在互聯(lián)網(wǎng)行業(yè)亦或是傳統(tǒng)行業(yè),都不再是新興事物,互聯(lián)網(wǎng)公司推行較早,傳統(tǒng)行業(yè)近幾年也開(kāi)始發(fā)力建設(shè)。對(duì)于運(yùn)維人來(lái)說(shuō),分布式系統(tǒng)的運(yùn)維與傳統(tǒng)集群式系統(tǒng)的運(yùn)維大相徑庭,我們今天就來(lái)探討一下分布式運(yùn)維的建設(shè)。



01. 分布式運(yùn)維的挑戰(zhàn)

1)分布式系統(tǒng)的定義


2)分布式系統(tǒng)呈現(xiàn)如下特征


分布性:由多臺(tái)計(jì)算機(jī)組成,在地域上是分散的;系統(tǒng)功能分布在各個(gè)節(jié)點(diǎn)上,具有數(shù)據(jù)處理的分布性;
自治性:各個(gè)節(jié)點(diǎn)都包含自己的處理機(jī)和內(nèi)存,具備獨(dú)立處理數(shù)據(jù)的功能,通常彼此地位平等,無(wú)主次之分;
并行性:一個(gè)大的任務(wù)可以劃分為若干個(gè)子任務(wù),分別在不同的主機(jī)上執(zhí)行;
全局性:存在單一的、全局的進(jìn)程通信機(jī)制,使得任何一個(gè)進(jìn)程都能與其他進(jìn)程通信,并且不區(qū)分本地通信與遠(yuǎn)程通信,同時(shí)還有全局的保護(hù)機(jī)制。


3)分布式系統(tǒng)的運(yùn)維挑戰(zhàn)



與相比傳統(tǒng)單體架構(gòu)相比,分布式架構(gòu)提高了整個(gè)系統(tǒng)的可用性,可以從容應(yīng)對(duì)大規(guī)模應(yīng)用場(chǎng)景,但也對(duì)運(yùn)維提出了以下挑戰(zhàn):

① 運(yùn)維不確定性顯著增加:

系統(tǒng)中有大量的服務(wù)器及設(shè)備,各模塊之間存在錯(cuò)綜復(fù)雜的依賴關(guān)系,存在更多的不確定性。

② 故障率指數(shù)級(jí)增加:

整個(gè)系統(tǒng)的故障率會(huì)隨設(shè)備的增加而呈指數(shù)級(jí)增加,單一節(jié)點(diǎn)問(wèn)題可能會(huì)被無(wú)限放大,日常運(yùn)行過(guò)程中一定會(huì)伴隨“異常”發(fā)生。

③ 運(yùn)維日常復(fù)雜性大增:

分布式系統(tǒng)節(jié)點(diǎn)分布范圍更加廣,節(jié)點(diǎn)數(shù)量更多,物理位置不統(tǒng)一,非常依賴于網(wǎng)絡(luò),這對(duì)日常運(yùn)維過(guò)程中的日志采集、變更升級(jí)等都帶來(lái)了新的挑戰(zhàn)。

④ 運(yùn)維架構(gòu)復(fù)雜度:

隨著技術(shù)角色分工越來(lái)越細(xì),技術(shù)專業(yè)化程度越來(lái)越深,分布式系統(tǒng)穩(wěn)定性落地因其架構(gòu)特性,對(duì)架構(gòu)設(shè)計(jì)思路、組織設(shè)計(jì)等帶來(lái)了新的挑戰(zhàn)。

⑤ 運(yùn)維新模式:

要保障分布式架構(gòu)下的系統(tǒng)穩(wěn)定性,需要系統(tǒng)化地探討穩(wěn)定性建設(shè)新模式。

分布式系統(tǒng)建設(shè)追求穩(wěn)定性,分兩個(gè)目標(biāo)、四大模式、四項(xiàng)路徑。

圖源:中國(guó)信息通信研究院《分布式系統(tǒng)穩(wěn)定性建設(shè)指南(2022年)》


02. 穩(wěn)定性建設(shè)目標(biāo)

1)建設(shè)目標(biāo)主要有兩個(gè):

降發(fā)生:事前的管理,通過(guò)建設(shè)“高可用、高性能、高質(zhì)量”的系統(tǒng)來(lái)降低故障發(fā)生的概率;

降影響:事后的管理,在故障發(fā)生后,“早感知、快定位、急止損、優(yōu)改進(jìn)”,降低影響范圍。

2)量化評(píng)價(jià)指標(biāo)三個(gè):

  • 業(yè)務(wù)可用程度;
  • 用戶影響程度;
  • 資產(chǎn)損失程度。


03. 穩(wěn)定性運(yùn)維建設(shè)模式


分布式運(yùn)維建設(shè)模式主要分為:架構(gòu)設(shè)計(jì)、容量設(shè)計(jì)、運(yùn)維設(shè)計(jì)、安全設(shè)計(jì)。我們主要看下和運(yùn)維相關(guān)的要點(diǎn)。


1)架構(gòu)設(shè)計(jì)

一般情況下,架構(gòu)設(shè)計(jì)主要由研發(fā)部門主導(dǎo),但是運(yùn)維人員不能只是作為后端被動(dòng)承接系統(tǒng)的運(yùn)維,最好在架構(gòu)設(shè)計(jì)階段就提出規(guī)范,滿足穩(wěn)定性運(yùn)維的要求:

① 去除單點(diǎn)


  • ② 依賴設(shè)計(jì)

    高等級(jí)服務(wù)不允許強(qiáng)依賴于低等級(jí)的服務(wù)或資源。


  • ③ 數(shù)據(jù)保護(hù)

    數(shù)據(jù)保護(hù)的主要目的是提升數(shù)據(jù)安全性,業(yè)界一般通過(guò)RPO(恢復(fù)點(diǎn)目標(biāo))與RTO (恢復(fù)時(shí)間目標(biāo))兩個(gè)指標(biāo)進(jìn)行度量,核心目標(biāo)是盡可能縮短數(shù)據(jù)恢復(fù)時(shí)間(降低RTO),避免數(shù)據(jù)丟失(RPO接近于0)。
    針對(duì)不同的業(yè)務(wù)系統(tǒng)、分布式系統(tǒng)里面不同的服務(wù)模塊,需要有對(duì)應(yīng)級(jí)別的數(shù)據(jù)保護(hù)考量。
    服務(wù)器單點(diǎn)保護(hù):基于本地盤跨機(jī)房異步復(fù)制數(shù)據(jù),但服務(wù)器出現(xiàn)不可恢復(fù)故障時(shí)將存在數(shù)據(jù)丟失
    存儲(chǔ)單點(diǎn)保護(hù):基于單存儲(chǔ)數(shù)據(jù)庫(kù)系統(tǒng)跨機(jī)房異步復(fù)制,但存儲(chǔ)出現(xiàn)不可恢復(fù)故障時(shí)將存在數(shù)據(jù)丟失
    同機(jī)房?jī)?nèi)多點(diǎn)保護(hù):基于同機(jī)房多點(diǎn)保護(hù)的數(shù)據(jù)庫(kù)系統(tǒng),同機(jī)房多份redo及跨機(jī)房異步復(fù)制模式,但機(jī)房故障時(shí)存在數(shù)據(jù)丟失
    同城異機(jī)房保護(hù):基于同城異機(jī)房保護(hù)的數(shù)據(jù)庫(kù)系統(tǒng),采取同城異機(jī)房?jī)?nèi)多份redo保護(hù)及跨機(jī)房DG,但城市出現(xiàn)災(zāi)備時(shí)存在數(shù)據(jù)丟失
    異地異機(jī)房保護(hù):基于異地多點(diǎn)保護(hù)的數(shù)據(jù)庫(kù)系統(tǒng),采取跨城跨機(jī)房數(shù)據(jù)保護(hù),但出現(xiàn)人類災(zāi)難時(shí)存在數(shù)據(jù)丟失

④ 災(zāi)備設(shè)計(jì)
當(dāng)故障或者災(zāi)難發(fā)生時(shí),可通過(guò)災(zāi)備技術(shù)保證業(yè)務(wù)不中斷、數(shù)據(jù)不丟失。針對(duì)不同的業(yè)務(wù)場(chǎng)景,綜合成本與效果的考量,選擇相應(yīng)的災(zāi)備設(shè)計(jì)。

  • 災(zāi)備技術(shù)發(fā)展歷程



    ⑤ 彈性設(shè)計(jì)

    • 故障隔離標(biāo)準(zhǔn):防止故障傳播;
    • 訪問(wèn)量控制標(biāo)準(zhǔn):對(duì)服務(wù)資源有效的SLA控制;
    • 服務(wù)降級(jí)、限流與熔斷:保護(hù)系統(tǒng)影響進(jìn)一步惡化;
    • 容錯(cuò)設(shè)計(jì):本著不信任外部資源(外部服務(wù)、DB、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)、消息等)100%可用的原則。


    2)容量設(shè)計(jì)


    系統(tǒng)上線之前,最好能有一個(gè)比較嚴(yán)謹(jǐn)?shù)臏y(cè)試,比如全鏈路壓測(cè),模擬用戶真實(shí)流量,對(duì)容量和性能等做測(cè)試。



    3)運(yùn)維方案設(shè)計(jì)


    提前考慮系統(tǒng)上線后的運(yùn)維訴求,做到變更可控、系統(tǒng)可觀、演練到位。

    ① 變更設(shè)計(jì)

    分布式系統(tǒng)發(fā)布頻率較高、顆粒度較小、發(fā)布量較大,變更引起的系統(tǒng)問(wèn)題一般占大部分比重,所以需要有一套嚴(yán)格的自動(dòng)化發(fā)布機(jī)制。




    ② 可觀測(cè)設(shè)計(jì)

    可觀測(cè),以前叫監(jiān)控告警,是分布式系統(tǒng)里面提出的一個(gè)新概念。應(yīng)用系統(tǒng)觀測(cè)需要覆蓋的資源類型如下:


    可觀測(cè)的核心主要是四個(gè)維度:拓?fù)洹etric指標(biāo)、trcae鏈路、log日志。

    橫向看,從業(yè)務(wù)訪問(wèn)端到端的整個(gè)鏈路做數(shù)據(jù)的分析和展示,縱向看,把整個(gè)的資源、資源的指標(biāo)和日志拉通;橫向是業(yè)務(wù)層次、縱向是技術(shù)層次,一橫一縱,就構(gòu)成了可觀測(cè)。


    ③ 演練設(shè)計(jì)

    相較傳統(tǒng)架構(gòu)系統(tǒng),分布式系統(tǒng)發(fā)生故障的概率較高,我們需要提前進(jìn)行演練設(shè)計(jì)。

    • ④ 安全設(shè)計(jì)

      系統(tǒng)安全是系統(tǒng)穩(wěn)定的基礎(chǔ),主要有如下四個(gè)方面:

      • A:系統(tǒng)設(shè)計(jì)安全
      • B:部署和操作系統(tǒng)安全
      • C:數(shù)據(jù)安全
      • D:網(wǎng)絡(luò)安全


    04. 分布式系統(tǒng)運(yùn)維工具落地建設(shè)


    穩(wěn)定性保障能力建設(shè)是一項(xiàng)非常龐大而復(fù)雜的工程,落地非一朝一夕可完成,運(yùn)維人員可以結(jié)合業(yè)務(wù)發(fā)展不同階段所面臨的關(guān)鍵風(fēng)險(xiǎn)形勢(shì)進(jìn)行規(guī)劃,擬定合適的建設(shè)優(yōu)先級(jí)及實(shí)施路徑。
    分布式系統(tǒng)穩(wěn)定性建設(shè)工具關(guān)系圖



    1)一體化綜合管理工具


    微服務(wù)化日甚的當(dāng)下,故障影響往往是復(fù)雜多樣的(單一節(jié)點(diǎn)故障可能導(dǎo)致全線業(yè)務(wù)出錯(cuò)),往往需要多個(gè)技術(shù)團(tuán)隊(duì)的協(xié)同保障系統(tǒng)穩(wěn)定。需要統(tǒng)一的系統(tǒng)化穩(wěn)定性管理能力作為“連接器”實(shí)現(xiàn)多團(tuán)隊(duì)協(xié)同“透明化”作戰(zhàn),并進(jìn)一步通過(guò)故障應(yīng)急過(guò)程及結(jié)果數(shù)據(jù)復(fù)盤,“數(shù)據(jù)化”風(fēng)險(xiǎn)趨勢(shì)以確定建設(shè)重點(diǎn),“標(biāo)準(zhǔn)化”故障管理流程以提升故障管理效率,定義業(yè)務(wù)或服務(wù)的SLO ( Service Level Objective,服務(wù)等級(jí)目標(biāo))以“結(jié)構(gòu)化”組織穩(wěn)定性保障能力。

    穩(wěn)定性管理建設(shè)架構(gòu)



    2)故障預(yù)防工具

    ① 可觀測(cè)能力

    可觀測(cè)能力框架圖


    1. 如果直接選用一套大數(shù)據(jù)平臺(tái)來(lái)進(jìn)行全局可觀測(cè)能力的構(gòu)建,幾乎是行不通的。主要原因在于:
    1. A:目前在銀行等企業(yè)里面,或多或少都已有Zabbix、APM等來(lái)自不同廠商的監(jiān)控工具,數(shù)據(jù)格式等均不一樣,無(wú)法關(guān)聯(lián)
    1. B:市面上現(xiàn)有的大數(shù)據(jù)平臺(tái),基本都是裸的或者比較笨重的大數(shù)據(jù)平臺(tái),只對(duì)數(shù)據(jù)處理比較在行,但對(duì)不具備監(jiān)控管理能力,如果啟用大數(shù)據(jù)平臺(tái)做監(jiān)控?cái)?shù)據(jù)的分析,需要先清理監(jiān)控?cái)?shù)據(jù)
    1. C:監(jiān)控消費(fèi)的場(chǎng)景是不斷增長(zhǎng)的,后續(xù)的對(duì)接集成開(kāi)發(fā)和維護(hù)成本非常高

    那么比較好的建設(shè)模式甚至是最好的建設(shè)模式,是選一個(gè)具備大部分監(jiān)控能力和數(shù)據(jù)處理的產(chǎn)品,同時(shí)兼容性較強(qiáng),其他沒(méi)有的能力可以通過(guò)對(duì)接補(bǔ)足,這樣比較容易落地。

    或者也可以選一個(gè)兼容性比較強(qiáng)的分析系統(tǒng),本身能夠支持市面上常見(jiàn)的成熟產(chǎn)品,來(lái)做集中對(duì)接,這種方式也可行但相對(duì)難一點(diǎn)。


    ② 變更管理

    變更管理能力建設(shè)中,信息標(biāo)準(zhǔn)化和變更風(fēng)險(xiǎn)控制屬于ITIL管理的范疇,全量接入、變更中控和變更環(huán)境控制屬于執(zhí)行的范疇。

    我們?cè)趯?shí)際落地的時(shí)候,屬于管理范疇的,建議在ITSM里面建設(shè);屬于執(zhí)行范疇的,在變更工具里面落地。

    管理流程和管理工具,可以基于同一個(gè)運(yùn)維管理平臺(tái)進(jìn)行對(duì)接。

    變更管理能力建設(shè)
    1. ③ 容量管理

      容量管理的核心有四個(gè):

    1. A:容量需求;
    1. B:容量分析;
    1. C:容量調(diào)度;
    1. D:容量回收和清理。



    容量管理能力建設(shè)框架圖


    ④ 全鏈路壓測(cè)

    通過(guò)全國(guó)各地CDN 節(jié)點(diǎn)模擬向生產(chǎn)系統(tǒng)施加壓力,模擬路演進(jìn)行整體容量和穩(wěn)定性驗(yàn)證。全鏈路性能測(cè)試能力構(gòu)建主要由以下幾部分構(gòu)成:

    1. A:資源管理能力
    1. B:數(shù)據(jù)收集能力
    1. C:流量發(fā)起能力
    1. D:數(shù)據(jù)分析能力
    1. E:結(jié)果管理能力
    1. F:生產(chǎn)環(huán)境壓測(cè)改造

    全鏈路壓測(cè)能力框架圖


    ⑤ 混沌工程

    如下圖所示混沌工程平臺(tái)能力,除此之外還需要在面向軟件完整生命周期、面向智能化、面向度量和運(yùn)營(yíng)能力體系建設(shè)三個(gè)方面進(jìn)一步加強(qiáng)。

    混沌工程平臺(tái)能力建設(shè)框架圖


    3)故障止損工具

    ① 應(yīng)急平臺(tái)

    應(yīng)急平臺(tái)建設(shè)主要考慮以下方面:

    1. A:應(yīng)用設(shè)計(jì)
    1. B:應(yīng)急預(yù)案
    1. C:定期演練
    1. D:應(yīng)急度量
    1. E:從手動(dòng)應(yīng)急到自動(dòng)應(yīng)急

    應(yīng)急平臺(tái)能力框架圖


    ② 容災(zāi)管理

    容災(zāi)管理主要分為容災(zāi)揭示、容災(zāi)管控兩部分,其中巡檢中心和流控中心作為容災(zāi)揭示和容災(zāi)管控的基礎(chǔ)工具依賴。

    容災(zāi)管理能力建設(shè)框架圖



    05. 總結(jié)


    分布式系統(tǒng)運(yùn)維與傳統(tǒng)運(yùn)維的本質(zhì)區(qū)別:

    ① 分布式系統(tǒng)運(yùn)維:是面向應(yīng)用可用性穩(wěn)定性的,建設(shè)一體化能力。聚焦于穩(wěn)定性,但建設(shè)圍繞點(diǎn)是從穩(wěn)定性的背面“故障”出發(fā)。

    ② 傳統(tǒng)運(yùn)維:主要面向基礎(chǔ)架構(gòu);建設(shè)cmdb\監(jiān)控\自動(dòng)化的豎井能力。

    ③ 本質(zhì)上都還是監(jiān)管控,但是需要有兩點(diǎn):一是要融合并且面向應(yīng)用;二是要升華,如APM、混沌工程、應(yīng)用容量與成本等等。

    ④ 面向應(yīng)用的混沌工程、應(yīng)用容量、故障定位都需要監(jiān)管控這些能力的融合。

    ⑤ 所有這些的實(shí)現(xiàn)都需要強(qiáng)有力的自動(dòng)化運(yùn)維平臺(tái)的支撐。


    免費(fèi)申請(qǐng)演示

    聯(lián)系我們

    服務(wù)熱線:

    020-38847288

    QQ咨詢:

    3593213400

    在線溝通:

    立即咨詢
    查看更多聯(lián)系方式

    申請(qǐng)演示

    請(qǐng)登錄后在查看!