感謝您提交詢問!我們的一位團隊成員將在短時間內與您聯繫。
感謝您提交預訂!我們的一位團隊成員將在短時間內與您聯繫。
課程簡介
設計開源 AIOps 架構
- 開源 AIOps 流程中核心元件概述。
- 從數據採集到告警的流程。
- 工具比較與整合策略。
數據收集與聚合
- 使用 Prometheus 採集時間序列數據。
- 利用 Logstash 和 Beats 捕獲日誌。
- 標準化數據以進行跨來源關聯分析。
構建可觀測儀表板
- 使用 Grafana 可視化指標。
- 建構 Kibana 儀表板以進行日誌分析。
- 利用 Elasticsearch 查詢提取運營洞察。
異常偵測與事故預測
- 將可觀測數據匯出至 Python 流程中。
- 訓練機器學習模型以檢測離群值和進行預測。
- 部署模型以在可觀測流程中進行即時推論。
使用開源工具進行告警與自動化
- 建立 Prometheus 告警規則和 Alertmanager 路由。
- 觸發腳本或 API 工作流程以自動回應。
- 使用開源編排工具(例如 Ansible、Rundeck)。
整合與擴展性考量
- 處理大量數據採集與長期保存。
- 開源堆疊中的安全性與存取控制。
- 獨立擴展各層級:採集、處理、告警。
實際應用與擴展
- 案例研究:效能調優、 downtime 預防及成本優化。
- 利用追蹤工具或服務圖譜擴展流程。
- 在生產環境中運行和維護 AIOps 的最佳實踐。
總結與後續步驟
最低要求
- 具備 Prometheus 或 ELK 等可觀測性工具的使用經驗。
- 熟悉 Python 與機器學習基礎知識。
- 理解 IT 運營及告警工作流程。
受眾對象
- 進階站點可靠性工程師 (SREs)
- 在運營領域工作的數據工程師
- DevOps 平台主管與基礎設施架構師
14 小時