感謝您提交詢問!我們的一位團隊成員將在短時間內與您聯繫。
感謝您提交預訂!我們的一位團隊成員將在短時間內與您聯繫。
課程簡介
AIOps入門
- AIOps是什麼以及其重要性
- 傳統監控與AIOps驅動的可觀測性對比
- AIOps架構及關鍵組件
收集與標準化運營數據
- 可觀測數據類型:指標、日誌和追蹤
- 從多個源(伺服器、容器、雲端)接入數據
- 使用代理程序和導出器(Prometheus、Beats、Fluentd)
數據關聯與異常檢測
- 時間序列關聯與統計方法
- 使用機器學習模型進行異常檢測
- 在分散式系統中檢測事件
告警與降噪
- 設計智能告警規則與閾值
- 抑制、去重及告警分組
- 與Alertmanager、Slack、PagerDuty或Opsgenie集成
根本原因分析與可視化
- 使用儀表板可視化指標並檢測趨勢
- 探索事件與時間線以進行RCA
- 利用分散式追蹤工具跨層級追蹤問題
自動化與修復
- 從事件中觸發自動化腳本或工作流
- 與ITSM系統(ServiceNow、Jira)集成
- 使用案例:自癒合、擴展、流量重定向
開源與商業AIOps平台
- 工具概覽:Prometheus、Grafana、ELK、Moogsoft、Dynatrace
- 選擇AIOps平台的評估標準
- 演示及選定技術堆棧的實操
總結與後續步驟
最低要求
- 理解IT運營和系統監控概念
- 有使用監控工具或儀表板的經驗
- 熟悉基本的日誌和指標格式
受眾
- 負責基礎設施和運維的團隊
- 站點可靠性工程師(SREs)
- IT監控與可觀測性團隊
14 小時