感謝您提交詢問!我們的一位團隊成員將在短時間內與您聯繫。
感謝您提交預訂!我們的一位團隊成員將在短時間內與您聯繫。
課程簡介
AIOps簡介
- AIOps是什麼及其重要性
- 傳統監控與AIOps驅動的可觀測性對比
- AIOps架構及關鍵組件
收集與規範化運營數據
- 可觀測數據類型:指標、日誌和跟蹤
- 從多個來源(服務器、容器、雲)攝取數據
- 使用代理和導出器(Prometheus、Beats、Fluentd)
數據關聯與異常檢測
- 時間序列關聯與統計方法
- 使用機器學習模型進行異常檢測
- 檢測分佈式系統中的事件
告警與噪音減少
- 設計智能告警規則和閾值
- 抑制、去重與告警分組
- 與Alertmanager、Slack、PagerDuty或Opsgenie集成
根本原因分析與可視化
- 使用儀表板可視化指標並檢測趨勢
- 探索事件與時間線以進行根本原因分析(RCA)
- 使用分佈式跟蹤工具跨層追蹤問題
自動化與修復
- 從事件觸發自動化腳本或工作流
- 與ITSM系統(ServiceNow、Jira)集成
- 用例:自愈、擴展、流量重定向
開源與商業AIOps平臺
- 工具概覽:Prometheus、Grafana、ELK、Moogsoft、Dynatrace
- 選擇AIOps平臺的評估標準
- 所選技術棧的演示與實操
總結與下一步
最低要求
- 瞭解IT運營和系統監控概念
- 具備監控工具或儀表板的使用經驗
- 熟悉基本的日誌和指標格式
受衆
- 負責基礎設施和應用程序的運營團隊
- 站點可靠性工程師(SREs)
- IT監控和可觀測性團隊
14 小時