感謝您提交詢問!我們的一位團隊成員將在短時間內與您聯繫。
感謝您提交預訂!我們的一位團隊成員將在短時間內與您聯繫。
課程簡介
AIOps 與開源工具簡介
- AIOps 概念及優勢概述
- Prometheus 和 Grafana 在可觀測性堆棧中的角色
- 機器學習如何融入 AIOps:預測性分析 vs. 響應式分析
設置 Prometheus 和 Grafana
- 安裝並配置 Prometheus 以收集時間序列數據
- 使用實時指標在 Grafana 中創建儀表板
- 探索 Exporters、重新標記和服務發現
機器學習的數據預處理
- 提取和轉換 Prometheus 指標
- 準備用於異常檢測和預測的數據集
- 使用 Grafana 的轉換功能或 Python 管道
應用機器學習進行異常檢測
- 用於離群點檢測的基本機器學習模型(例如,孤立森林、單類 SVM)
- 在時間序列數據上訓練和評估模型
- 在 Grafana 儀表板中可視化異常
使用機器學習進行指標預測
- 構建簡單的預測模型(ARIMA, Prophet, LSTM 入門)
- 預測系統負載或資源使用情况
- 利用預測結果進行早期警報和擴展決策
將機器學習與警報和自動化整合
- 基於機器學習輸出或閾值定義警報規則
- 使用 Alertmanager 和通知路由
- 在檢測到異常時觸發腳本或自動化工作流
擴展和操作化 AIOps
- 整合外部可觀測性工具(例如,ELK 堆棧, Moogsoft, Dynatrace)
- 在可觀測性管道中操作化機器學習模型
- 大規模應用 AIOps 的最佳實踐
總結與後續步驟
最低要求
- 理解系統監控和可觀測性概念
- 具有使用 Grafana 或 Prometheus 的經驗
- 熟悉 Python 及基本機器學習原理
目標受眾
- 可觀測性工程師
- 基礎設施和 DevOps 團隊
- 監控平台架構師和站點可靠性工程師 (SRE)
14 小時