聯繫我們

課程簡介

預測性AIOps簡介

  • IT運營中預測性分析的概覽。
  • 用於預測的資料來源(日誌、指標、事件)。
  • 時間序列預測與異常模式的核心概念。

設計事件預測模型

  • 標記歷史事件與系統行為。
  • 選擇並訓練模型(例如:LSTM、隨機森林、AutoML)。
  • 評估模型性能並處理誤報。

資料收集與特徵工程

  • 攝取並對齊用於模型輸入的日誌與指標資料。
  • 從結構化及非結構化資料中提取特徵。
  • 處理營運流程中的雜訊與遺漏資料。

自動化根本原因分析(RCA)

  • 基於圖形關聯服務與基礎設施。
  • 利用機器學習從事件鏈推斷可能的根本原因。
  • 透過拓撲感知儀表板可視化RCA結果。

修復與工作流程自動化

  • 整合至自動化平台(例如:Ansible、Rundeck)。
  • 觸發回滾、重啟或流量重定向。
  • 審計並記錄自動化干預措施。

擴展智能AIOps流程

  • 用於可觀測性的MLOps:模型重訓練與版本控制。
  • 在分佈式節點上運行即時預測。
  • 在生產環境中部署AIOps的最佳實踐。

案例研究與實際應用

  • 使用預測性AIOps模型分析真實事件資料。
  • 部署結合合成資料與生產資料的RCA流程。
  • 回顧產業案例:雲端停機、微服務不穩定、網路性能下降。

總結與下一步計畫

最低要求

  • 具備Prometheus或ELK等監控系統的使用經驗。
  • 熟悉Python及基礎機器學習知識。
  • 了解事件管理工作流程。

受眾對象

  • 資深站點可靠度工程師(SRE)
  • IT自動化架構師
  • DevOps與可觀測性平台負責人
 14 小時

課程分類