課程簡介

預測性AIOps簡介

  • IT運營中的預測分析概述。
  • 用於預測的數據源(日誌、指標、事件)。
  • 時間序列預測與異常模式的關鍵概念。

設計事件預測模型

  • 標記歷史事件與系統行爲。
  • 選擇並訓練模型(如LSTM、隨機森林、AutoML)。
  • 評估模型性能與處理誤報。

數據收集與特徵工程

  • 爲模型輸入攝取並對齊日誌與指標數據。
  • 從結構化和非結構化數據中提取特徵。
  • 處理運營管道中的噪聲與缺失數據。

自動化根因分析(RCA)

  • 基於圖的服務與基礎設施關聯。
  • 使用ML從事件鏈中推斷可能的根因。
  • 使用拓撲感知儀表板可視化RCA。

修復與工作流自動化

  • 與自動化平臺(如Ansible、Rundeck)集成。
  • 觸發回滾、重啓或流量重定向。
  • 審覈並記錄自動化干預措施。

擴展智能AIOps管道

  • 可觀測性的MLOps:重新訓練與模型版本控制。
  • 在分佈式節點上即時運行預測。
  • 在生產環境中部署AIOps的最佳實踐。

案例研究與實際應用

  • 使用預測性AIOps模型分析真實事件數據。
  • 使用合成數據和生產數據部署RCA管道。
  • 行業用例回顧:雲中斷、微服務不穩定、網絡退化。

總結與後續步驟

最低要求

  • 具備Prometheus或ELK等監控系統的使用經驗。
  • 具備Python和基礎機器學習的知識。
  • 熟悉事件管理工作流。

受衆

  • 高級站點可靠性工程師(SREs)。
  • IT自動化架構師。
  • DevOps與可觀測性平臺負責人。
 14 小時

課程分類