感謝您提交詢問!我們的一位團隊成員將在短時間內與您聯繫。
感謝您提交預訂!我們的一位團隊成員將在短時間內與您聯繫。
課程簡介
預測性AIOps簡介
- IT運營中預測性分析的概覽。
- 用於預測的資料來源(日誌、指標、事件)。
- 時間序列預測與異常模式的核心概念。
設計事件預測模型
- 標記歷史事件與系統行為。
- 選擇並訓練模型(例如:LSTM、隨機森林、AutoML)。
- 評估模型性能並處理誤報。
資料收集與特徵工程
- 攝取並對齊用於模型輸入的日誌與指標資料。
- 從結構化及非結構化資料中提取特徵。
- 處理營運流程中的雜訊與遺漏資料。
自動化根本原因分析(RCA)
- 基於圖形關聯服務與基礎設施。
- 利用機器學習從事件鏈推斷可能的根本原因。
- 透過拓撲感知儀表板可視化RCA結果。
修復與工作流程自動化
- 整合至自動化平台(例如:Ansible、Rundeck)。
- 觸發回滾、重啟或流量重定向。
- 審計並記錄自動化干預措施。
擴展智能AIOps流程
- 用於可觀測性的MLOps:模型重訓練與版本控制。
- 在分佈式節點上運行即時預測。
- 在生產環境中部署AIOps的最佳實踐。
案例研究與實際應用
- 使用預測性AIOps模型分析真實事件資料。
- 部署結合合成資料與生產資料的RCA流程。
- 回顧產業案例:雲端停機、微服務不穩定、網路性能下降。
總結與下一步計畫
最低要求
- 具備Prometheus或ELK等監控系統的使用經驗。
- 熟悉Python及基礎機器學習知識。
- 了解事件管理工作流程。
受眾對象
- 資深站點可靠度工程師(SRE)
- IT自動化架構師
- DevOps與可觀測性平台負責人
14 小時