課程簡介

生產環境中的代理系統基礎

  • 代理架構:循環、工具、內存和編排層
  • 代理的生命週期:開發、部署和持續運行
  • 生產規模代理管理的挑戰

基礎設施與部署模型

  • 在容器化和雲環境中部署代理
  • 擴展模式:水平擴展與垂直擴展、併發與節流
  • 多代理編排與工作負載平衡

監控與可觀察性

  • 關鍵指標:延遲、成功率、內存使用率和代理調用深度
  • 跟蹤代理活動和調用圖
  • 使用Prometheus、OpenTelemetry和Grafana進行可觀察性工具化

日誌記錄、審計與合規性

  • 集中式日誌記錄和結構化事件收集
  • 代理工作流中的合規性與審計性
  • 設計調試用的審計跟蹤和重放機制

性能調優與資源優化

  • 減少推理開銷,優化代理編排週期
  • 模型緩存和輕量級嵌入以實現更快檢索
  • AI管道的負載測試和壓力場景

成本控制與治理

  • 瞭解代理成本驅動因素:API調用、內存、計算和外部集成
  • 跟蹤代理級別成本並實施費用分攤模型
  • 自動化策略以防止代理蔓延和閒置資源消耗

代理的CI/CD與發佈策略

  • 將代理管道集成到CI/CD系統中
  • 測試、版本控制和迭代代理更新的回滾策略
  • 漸進式發佈和安全部署機制

故障恢復與可靠性工程

  • 設計容錯和優雅降級機制
  • 重試、超時和斷路器模式以提高代理可靠性
  • AI操作的事件響應和事後分析框架

畢業項目

  • 構建並部署一個具有完整監控和成本跟蹤的代理AI系統
  • 模擬負載、測量性能並優化資源使用
  • 向同行展示最終架構和監控儀表板

總結與下一步

最低要求

  • 對MLOps和生產機器學習系統有深入理解
  • 具備容器化部署(Docker/Kubernetes)經驗
  • 熟悉雲成本優化和可觀察性工具

受衆

  • MLOps工程師
  • 站點可靠性工程師(SREs)
  • 負責AI基礎設施的工程經理
 21 時間:

客戶評論 (3)

課程分類