聯繫我們

課程簡介

設計開源 AIOps 架構

  • 開源 AIOps 流程中核心元件概述。
  • 從數據採集到告警的流程。
  • 工具比較與整合策略。

數據收集與聚合

  • 使用 Prometheus 採集時間序列數據。
  • 利用 Logstash 和 Beats 捕獲日誌。
  • 標準化數據以進行跨來源關聯分析。

構建可觀測儀表板

  • 使用 Grafana 可視化指標。
  • 建構 Kibana 儀表板以進行日誌分析。
  • 利用 Elasticsearch 查詢提取運營洞察。

異常偵測與事故預測

  • 將可觀測數據匯出至 Python 流程中。
  • 訓練機器學習模型以檢測離群值和進行預測。
  • 部署模型以在可觀測流程中進行即時推論。

使用開源工具進行告警與自動化

  • 建立 Prometheus 告警規則和 Alertmanager 路由。
  • 觸發腳本或 API 工作流程以自動回應。
  • 使用開源編排工具(例如 Ansible、Rundeck)。

整合與擴展性考量

  • 處理大量數據採集與長期保存。
  • 開源堆疊中的安全性與存取控制。
  • 獨立擴展各層級:採集、處理、告警。

實際應用與擴展

  • 案例研究:效能調優、 downtime 預防及成本優化。
  • 利用追蹤工具或服務圖譜擴展流程。
  • 在生產環境中運行和維護 AIOps 的最佳實踐。

總結與後續步驟

最低要求

  • 具備 Prometheus 或 ELK 等可觀測性工具的使用經驗。
  • 熟悉 Python 與機器學習基礎知識。
  • 理解 IT 運營及告警工作流程。

受眾對象

  • 進階站點可靠性工程師 (SREs)
  • 在運營領域工作的數據工程師
  • DevOps 平台主管與基礎設施架構師
 14 小時

課程分類