聯繫我們

課程簡介

SRE 反模式

  • 識別有害實踐
  • 認識反模式對可靠性的影響
  • 最佳實踐及糾正替代方案

將 SLO 作為客戶滿意的代理指標

  • 定義服務級別指標 (SLI) 和服務級別目標 (SLO)
  • 管理錯誤預算並平衡創新與可靠性
  • 理解分佈式系統的侷限性

構建安全且可靠的系統

  • 設計容錯能力和韌性
  • 將安全性融入可靠工程
  • 擴展性和數據保護策略

全棧可觀測性

  • 儀表化與指標收集
  • 分佈式追蹤與合成監控
  • 可觀測性驅動開發

平台工程與 AIOps

  • 以平台為中心的工程方法
  • SRE 中的自動化與協調
  • 利用 DataOps 和運營智慧

SRE 中的事故管理

  • 事故應對中的角色與職責
  • 應用如 OODA 等框架
  • 自動修復及 AI/ML 輔助解決

混沌工程

  • 韌性測試的原則與策略
  • 規劃並執行“遊戲日”演練
  • 從受控失敗實驗中學習

SRE 作為 DevOps 的純正形式

  • 將 SRE 整合至 DevOps 工作流
  • 文化對齊與協作實踐
  • 透過 SRE 推動組織變革

課後練習

  • 大規模系統設計案例研究
  • 先進儀表化與監控場景
  • 真實世界的可靠性問題解決

複習與考試準備

  • DevOps Institute SRE Practitioner 大綱的最終複習
  • 示例題目與練習測試
  • 考試策略與建議

總結與下一步

最低要求

  • 理解站點可靠工程的基本原理
  • 具備 DevOps 實踐及相關工具的經驗
  • 熟悉系統監控、事故管理及自動化

適用對象

  • 尋求 DevOps Institute SRE Practitioner 認證的 SRE 專業人士
  • 希望擴展至可靠性相關角色的 DevOps 工程師
  • 負責可靠性策略及執行的運營領導者
 35 小時

客戶評論 (2)

課程分類