課程簡介

自愈管道的基礎

  • 自主恢復的關鍵概念
  • CI/CD中的常見故障模式
  • 基於AI的管道穩定性方法

即時異常檢測

  • 理解管道遙測數據源
  • 應用機器學習預測故障
  • 使用AI模型檢測異常模式

事件識別與根本原因分析

  • 自動分類事件類型
  • 關聯日誌、追蹤和指標
  • 使用AI信號隔離根本原因

自動恢復工作流設計

  • 定義自動化修復操作
  • 基於AI警報觸發工作流
  • 將運行手冊與智能決策引擎集成

構建智能反饋循環

  • 捕獲歷史故障數據
  • 訓練模型以持續改進
  • 確保管道行爲的自適應學習

將自愈能力集成到CI/CD中

  • 在構建和部署階段嵌入自動化
  • 支持混合雲和多雲交付平臺
  • 與組織DevOps治理保持一致

高級可靠性模式

  • 設計具有預測彈性的管道
  • 利用基於策略的決策系統
  • 通過AI編排實施回退策略

端到端自愈管道實施

  • 結合異常檢測、根本原因分析和自動修復
  • 驗證已完成工作流的彈性
  • 確保工程師的可觀測性和透明度

總結與後續步驟

最低要求

  • 瞭解CI/CD流程
  • 具備DevOps或SRE實踐經驗
  • 熟悉監控或可觀測性工具

受衆

  • SRE工程師
  • DevOps負責人
  • 平臺可靠性工程師
 14 時間:

課程分類