在過去數年間,我們團隊賦能上百家企業完成ITSM建設。在此過程中,我們發現企業在落地運維流程時,常常陷入“發現問題-解決問題-再發現新問題-再解決問題”的痛苦循環。今天,我秉持開放探討的姿態與大家回顧并分享我們在實踐中遇到的挑戰與沉淀的經驗。我將圍繞“工具孤島時代的ITSM建設困境”“一體化運維平臺下的ITSM協同閉環”“AI加持的智能一體運維流程”三個方面展開,探討運維流程的新范式,與大家共同思考ITSM運維流程的未來發展路徑。
以下內容整理自嘉為藍鯨 ITSM 業務線產品總監李超于「騰訊藍鯨社區活動」穩定筑基·輕量演進 邁向韌性、敏捷的下一代運維的精彩分享——《從“工具孤島”到“智能一體”:ITSM的韌性演進之路》。
01. 工具孤島時代的ITSM建設困境
在企業數字化轉型的浪潮中,各個企業運維流程建設的起點各有不同。隨著業務發展,大家會逐漸引入各種運維工具,如CMDB、監控告警、自動化工具等,這些工具的來源多種多樣,如自主研發、外購部署等。最終形成了各企業特有的 “工具集合”,多為零散的組合而非形成工具體系。這時候,“實現統一運維流程” 就成了核心需求。在整合過程中,普遍會選擇ITSM串聯這些孤立工具,其中有兩個核心驅動因素:
但在實際應用中,流程遠沒有想象中順暢。以最常見的故障事件處置流程為例,從監控告警發現異常開始,告警需要人工或半人工的方式錄入ITSM,并查詢CMDB找到負責人,負責人處理后再調用自動化工具執行修復。
圖1 故障事件處置流程
這個流程看似順暢,實際上隱藏著兩大痛點:
正是這些問題的長期存在,導致ITSM逐漸陷入“三高”困境:
盡管ITSM系統的建設初衷是將所有運維工具串聯起來,構建理想化的運維流程,但在實際操作中,這些“坑點”卻層出不窮。這讓我們意識到:ITSM不應該是“粘合”孤立工具的“膠水”,而應該是“管理服務與流程”的核心平臺。
02. 一體化運維平臺下的ITSM協同閉環
根據我們過往的建設經驗,我認為關鍵的“三高”困境的解決思路是:讓ITSM回歸其管理服務與流程的本質,而不是成為一個龐大而脆弱的集成工具。
運維流程的構建過程,應該是一個一體化過程,而不是碎片的拼接。在這個過程中,需要實現三個關鍵轉變:
基于這一思路,我們明確了四大運維建設目標:保障業務穩定性、提升用戶滿意度、確保運維活動高效運轉、實現可感知的價值呈現,并據此推出一體化平臺解決方案,旨在構造更高效、更可靠的運維體系。
圖2 解決思路設計藍圖
基于一體化運維平臺,我們提出“三高”困境的一體化解決方案:
同時,從運維全生命周期視角來看,日常維護、變更發布等運維場景需跨領域協同,這驅動了各個業務域之間的業務集成和技術集成設計,讓運維流程從強耦合工作流升級為一體化流程。在一體化運維的框架下,我們可以系統性地構建一體化運維流程,重新設計事件的完整流轉過程,確保對事件從發現到解決、再到持續優化的全過程實現更強的把控。通過這一端到端的事件生命周期管理,我們不僅提升了對各類事件的響應效率和質量,更重要的是,為自動化工具的廣泛應用奠定了堅實的基礎,從而持續實現效率躍升。
圖3 一體化運維下的事件全生命周期設計
在這種新架構下,ITSM的角色發生了根本性變化:從剛性的管控者,轉變為柔性的賦能者。一方面以效率優先,在守住標準化的基礎上,扮演 “流程自動化引擎” 和 “信息聚合器”,驅動任務在工具間流轉,自動觸發操作,匯總關鍵信息,解放運維人員;另一方面持續改進,建立可度量的閉環反饋機制,通過可視化看板呈現瓶頸,賦能團隊定期優化流程和協作模式。
要支撐這種轉變,ITSM需要三大關鍵能力:一是自動化決策引擎,通過DMN決策表解決BPMN流程中復雜決策的可讀性和維護性問題;二是極致的可拓展性,采用平臺化設計,涵蓋場景插件、應用級插件和組件級插件,支持一鍵安裝和靈活定制;三是強大的集成能力,通過集成中心實現API對接、腳本能力和數據源直連,適配各類內部外部系統。
03. AI加持的智能一體運維流程
在一體化運維的基礎上,我們通過數據融合、流程自動化和規則驅動,已經實現了效率的顯著提升,但這還不是終點。
當前流程模式存在 “能力天花板”—— 能通過固化規則解決確定性、重復性問題,但面對架構變更、新故障等非確定性問題,靜態規則反應滯后甚至失效。核心矛盾就是靜態規則與復雜業務的不匹配,這也是AI要解決的核心問題。
AI的加入讓運維流程發生了多維度革新,主要體現在三個方面:
圖4 智能化的時間全生命周期設計
需要強調的是,AI不是空中樓閣,必須建立在一體化流程的基礎上。我們不能盲目在任一環節接入AI,而是要找準運維痛點,只有這樣,才能確保AI真正賦能SRE,讓AI真正帶來效能提升,促進運維體系的智能化演進。
04. 總結與展望:運維流程新范式
當前,基于一體化智能平臺的事件全生命周期設計,AI還主要扮演 “輔助駕駛” 的角色,不參與具體決策執行。雖然效率大幅提升,但復雜流程編排、大量人工介入、業務變化帶來的流程調整等靜態問題依然存在。
未來,當AI真正參與運維業務決策時,將帶來顛覆性的范式改變:
在AI決策范式轉變的背景下,我們要清晰地認識到,回到運維價值流的本源,業務穩定性保障始終是我們的第一要務。因此,在將AI融入運維決策的過程中,構建一個穩固的安全網設計至關重要。為此,我們提出了智能一體化運維流程演進的三個核心原則:
這些構想旨在指導我們在AI時代下,如何安全、高效、穩健地推進運維流程智能化轉型,最終實現更高水平的業務穩定性與安全性。
最后,我想總結一下:ITSM 從 “工具孤島” 到 “智能一體” 的演進之路,本質上是效率和規范的持續平衡之路。這條路沒有終點,因為業務在不斷變化,技術在持續迭代。
誠然,“智能一體”的構想,在某些視角看來或許帶有些許未來主義色彩,但我們作為SRE專業人士,絕不應低估人工智能未來所能釋放的強大潛力。正是在AI驅動下“智能一體”的運維流程藍圖燭照下,我們得以更清晰地審視當前運維管理與流程中存在的癥結,進而持續改進,精進不休。這正是ITSM的韌性演進之路,一條沒有終點,需要我們不斷探索與實踐的道路。
我們今天探討的每一個困境、每一種解決方案、每一個未來構想,核心都是為了讓ITSM更好地支撐業務穩定運行,為企業創造更大價值。希望今天的分享能給大家帶來一些啟發,也期待未來能和各位一起,在運維創新的道路上持續探索前行。
【騰訊藍鯨社區活動】嘉為藍鯨吳文豪詳解BlueKing Lite:輕盈與智能的運維之旅
2025-12-01
查看詳細
嘉為藍鯨DevOps消息中心:通知精準觸達,協作全程不脫節!
2025-12-01
查看詳細
嘉為藍鯨WeOps上新 | WeOps V5.28&V4.28:服務臺門戶主題上新,提單更快、體驗更簡!
2025-11-21
查看詳細
嘉為藍鯨DevOps多租戶管理:隔離安全可控,定制隨需而變,多團隊協作互不干擾!
2025-11-21
查看詳細
嘉為藍鯨制品庫倉庫回收站:保障制度安全,提升管理靈活性
2025-11-14
查看詳細
【CMDB系列】CMDB納管容器詳解
2025-11-14
查看詳細
申請演示