課程簡介

AIOps簡介

  • AIOps是什麼及其重要性
  • 傳統監控與AIOps驅動的可觀測性對比
  • AIOps架構及關鍵組件

收集與規範化運營數據

  • 可觀測數據類型:指標、日誌和跟蹤
  • 從多個來源(服務器、容器、雲)攝取數據
  • 使用代理和導出器(Prometheus、Beats、Fluentd)

數據關聯與異常檢測

  • 時間序列關聯與統計方法
  • 使用機器學習模型進行異常檢測
  • 檢測分佈式系統中的事件

告警與噪音減少

  • 設計智能告警規則和閾值
  • 抑制、去重與告警分組
  • 與Alertmanager、Slack、PagerDuty或Opsgenie集成

根本原因分析與可視化

  • 使用儀表板可視化指標並檢測趨勢
  • 探索事件與時間線以進行根本原因分析(RCA)
  • 使用分佈式跟蹤工具跨層追蹤問題

自動化與修復

  • 從事件觸發自動化腳本或工作流
  • 與ITSM系統(ServiceNow、Jira)集成
  • 用例:自愈、擴展、流量重定向

開源與商業AIOps平臺

  • 工具概覽:Prometheus、Grafana、ELK、Moogsoft、Dynatrace
  • 選擇AIOps平臺的評估標準
  • 所選技術棧的演示與實操

總結與下一步

最低要求

  • 瞭解IT運營和系統監控概念
  • 具備監控工具或儀表板的使用經驗
  • 熟悉基本的日誌和指標格式

受衆

  • 負責基礎設施和應用程序的運營團隊
  • 站點可靠性工程師(SREs)
  • IT監控和可觀測性團隊
 14 小時

課程分類