課程簡介

Predictive AIOps 简介

  • IT 运维中的预测分析概述
  • 用于预测的数据来源(日志、指标、事件)
  • 时间序列预测和异常模式的关键概念

设计事件预测模型

  • 标记历史事件和系统行为
  • 选择和训练模型(例如 LSTM、Random Forest、AutoML)
  • 评估模型性能和处理误报

数据收集与特征工程

  • 摄取和对齐日志与指标数据以供模型输入
  • 从结构化和非结构化数据中提取特征
  • 处理操作管道中的噪声和缺失数据

自动化根因分析(RCA)

  • 基于图的服务与基础设施关联
  • 使用机器学习从事件链中推断可能的根因
  • 使用拓扑感知仪表板可视化 RCA

修复与 Workflow Automation

  • 与自动化平台集成(例如 Ansible、Rundeck)
  • 触发回滚、重启或流量重定向
  • 审核和记录自动化干预

扩展智能 AIOps 管道

  • MLOps 用于可观测性:重新训练和模型版本控制
  • 在分布式节点上实时运行预测
  • 在生产环境中部署 AIOps 的最佳实践

案例研究与实际应用

  • 使用预测 AIOps 模型分析真实事件数据
  • 使用合成和生产数据部署 RCA 管道
  • 行业用例回顾:云中断、微服务不稳定、网络退化

总结与后续步骤

最低要求

  • 具备使用监控系统(如Prometheus或ELK)的经验
  • 具备Python的基础知识以及基本的机器学习技能
  • 熟悉事件管理工作流程

受众

  • 高级站点可靠性工程师(SREs)
  • IT自动化架构师
  • DevOps与可观测性平台负责人
 14 時間:

課程分類