Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
課程簡介
設計開放AIOps架構
- 開放AIOps管線的關鍵組件概述
- 從數據攝取到警報的數據流
- 工具比較與整合策略
數據收集與聚合
- 使用Prometheus攝取時間序列數據
- 使用Logstash和Beats捕獲日誌
- 數據標準化以實現跨來源關聯
構建可觀察性儀表板
- 使用Grafana可視化指標
- 構建Kibana儀表板以進行日誌分析
- 使用Elasticsearch查詢提取運營洞察
異常檢測與事件預測
- 將可觀察性數據導出至Python管線
- 訓練ML模型以進行異常檢測與預測
- 在可觀察性管線中部署模型以進行實時推理
使用開放工具進行警報與自動化
- 創建Prometheus警報規則與Alertmanager路由
- 觸發腳本或API工作流以實現自動響應
- 使用開源編排工具(如Ansible、Rundeck)
整合與可擴展性考量
- 處理高容量數據攝取與長期保留
- 開源堆棧中的安全性與訪問控制
- 獨立擴展每一層:攝取、處理、警報
實際應用與擴展
- 案例研究:性能調優、停機預防與成本優化
- 使用追蹤工具或服務圖擴展管線
- 在生產環境中運行與維護AIOps的最佳實踐
總結與下一步
最低要求
- 具备使用Prometheus或ELK等可观察性工具的经验
- 掌握Python和机器学习基础知识
- 了解IT运维和告警工作流程
受众
- 高级站点可靠性工程师(SREs)
- 从事运维工作的数据工程师
- DevOps平台负责人和基础设施架构师
14 時間: