感謝您提交詢問!我們的一位團隊成員將在短時間內與您聯繫。
感謝您提交預訂!我們的一位團隊成員將在短時間內與您聯繫。
課程簡介
預測性AIOps簡介
- IT運營中的預測分析概述。
- 用於預測的數據源(日誌、指標、事件)。
- 時間序列預測與異常模式的關鍵概念。
設計事件預測模型
- 標記歷史事件與系統行爲。
- 選擇並訓練模型(如LSTM、隨機森林、AutoML)。
- 評估模型性能與處理誤報。
數據收集與特徵工程
- 爲模型輸入攝取並對齊日誌與指標數據。
- 從結構化和非結構化數據中提取特徵。
- 處理運營管道中的噪聲與缺失數據。
自動化根因分析(RCA)
- 基於圖的服務與基礎設施關聯。
- 使用ML從事件鏈中推斷可能的根因。
- 使用拓撲感知儀表板可視化RCA。
修復與工作流自動化
- 與自動化平臺(如Ansible、Rundeck)集成。
- 觸發回滾、重啓或流量重定向。
- 審覈並記錄自動化干預措施。
擴展智能AIOps管道
- 可觀測性的MLOps:重新訓練與模型版本控制。
- 在分佈式節點上即時運行預測。
- 在生產環境中部署AIOps的最佳實踐。
案例研究與實際應用
- 使用預測性AIOps模型分析真實事件數據。
- 使用合成數據和生產數據部署RCA管道。
- 行業用例回顧:雲中斷、微服務不穩定、網絡退化。
總結與後續步驟
最低要求
- 具備Prometheus或ELK等監控系統的使用經驗。
- 具備Python和基礎機器學習的知識。
- 熟悉事件管理工作流。
受衆
- 高級站點可靠性工程師(SREs)。
- IT自動化架構師。
- DevOps與可觀測性平臺負責人。
14 小時