聯繫我們

課程簡介

AIOps 與開源工具簡介

  • AIOps 概念及優勢概述
  • Prometheus 和 Grafana 在可觀測性堆棧中的角色
  • 機器學習如何融入 AIOps:預測性分析 vs. 響應式分析

設置 Prometheus 和 Grafana

  • 安裝並配置 Prometheus 以收集時間序列數據
  • 使用實時指標在 Grafana 中創建儀表板
  • 探索 Exporters、重新標記和服務發現

機器學習的數據預處理

  • 提取和轉換 Prometheus 指標
  • 準備用於異常檢測和預測的數據集
  • 使用 Grafana 的轉換功能或 Python 管道

應用機器學習進行異常檢測

  • 用於離群點檢測的基本機器學習模型(例如,孤立森林、單類 SVM)
  • 在時間序列數據上訓練和評估模型
  • 在 Grafana 儀表板中可視化異常

使用機器學習進行指標預測

  • 構建簡單的預測模型(ARIMA, Prophet, LSTM 入門)
  • 預測系統負載或資源使用情况
  • 利用預測結果進行早期警報和擴展決策

將機器學習與警報和自動化整合

  • 基於機器學習輸出或閾值定義警報規則
  • 使用 Alertmanager 和通知路由
  • 在檢測到異常時觸發腳本或自動化工作流

擴展和操作化 AIOps

  • 整合外部可觀測性工具(例如,ELK 堆棧, Moogsoft, Dynatrace)
  • 在可觀測性管道中操作化機器學習模型
  • 大規模應用 AIOps 的最佳實踐

總結與後續步驟

最低要求

  • 理解系統監控和可觀測性概念
  • 具有使用 Grafana 或 Prometheus 的經驗
  • 熟悉 Python 及基本機器學習原理

目標受眾

  • 可觀測性工程師
  • 基礎設施和 DevOps 團隊
  • 監控平台架構師和站點可靠性工程師 (SRE)
 14 小時

課程分類