聯繫我們

課程簡介

AIOps入門

  • AIOps是什麼以及其重要性
  • 傳統監控與AIOps驅動的可觀測性對比
  • AIOps架構及關鍵組件

收集與標準化運營數據

  • 可觀測數據類型:指標、日誌和追蹤
  • 從多個源(伺服器、容器、雲端)接入數據
  • 使用代理程序和導出器(Prometheus、Beats、Fluentd)

數據關聯與異常檢測

  • 時間序列關聯與統計方法
  • 使用機器學習模型進行異常檢測
  • 在分散式系統中檢測事件

告警與降噪

  • 設計智能告警規則與閾值
  • 抑制、去重及告警分組
  • 與Alertmanager、Slack、PagerDuty或Opsgenie集成

根本原因分析與可視化

  • 使用儀表板可視化指標並檢測趨勢
  • 探索事件與時間線以進行RCA
  • 利用分散式追蹤工具跨層級追蹤問題

自動化與修復

  • 從事件中觸發自動化腳本或工作流
  • 與ITSM系統(ServiceNow、Jira)集成
  • 使用案例:自癒合、擴展、流量重定向

開源與商業AIOps平台

  • 工具概覽:Prometheus、Grafana、ELK、Moogsoft、Dynatrace
  • 選擇AIOps平台的評估標準
  • 演示及選定技術堆棧的實操

總結與後續步驟

最低要求

  • 理解IT運營和系統監控概念
  • 有使用監控工具或儀表板的經驗
  • 熟悉基本的日誌和指標格式

受眾

  • 負責基礎設施和運維的團隊
  • 站點可靠性工程師(SREs)
  • IT監控與可觀測性團隊
 14 小時

課程分類