聯繫我們

課程簡介

EXO基礎設施即代碼

  • 概述EXO部署模式:單節點、多節點與RDMA集羣。
  • 使用配置管理自動化依賴安裝(Xcode、uv、Node.js、Rust)。
  • 使用Nix flakes構建可重現的EXO構建與開發環境。
  • 編寫Ansible playbook或shell腳本實現無人值守集羣配置。

可重現構建與CI集成

  • 在CI管道中固定依賴項並構建儀表盤。
  • 在GitHub Actions或GitLab CI runner中運行EXO冒煙測試。
  • 爲macOS與Linux虛擬機創建黃金鏡像與基於快照的回滾工作流。
  • 將自定義模型卡片與應用代碼一起版本化。

集羣發現與網絡自動化

  • 配置mDNS與靜態DNS以實現可靠的libp2p節點發現。
  • 在macOS上自動化網絡配置文件創建與Thunderbolt橋接管理。
  • 使用自定義命名空間(EXO_LIBP2P_NAMESPACE)分離開發、預生產與生產集羣。
  • 爲多租戶環境配置防火牆規則與網絡分段。

存儲與模型生命週期管理

  • 設計EXO_MODELS_DIRS與EXO_MODELS_READ_ONLY_DIRS策略。
  • 掛載NFS或SAN共享作爲只讀模型倉庫以快速配置。
  • 垃圾回收過期緩存與版本化權重保留策略。
  • 在滾動更新前自動化模型預下載與健康檢查。

監控與告警

  • 將EXO日誌發送至集中日誌系統(ELK、Loki或Splunk)。
  • 基於EXO_TRACING_ENABLED輸出構建Grafana儀表盤。
  • 告警集羣成員變更、OOM事件與推理延遲峯值。
  • 關聯macmon硬件遙測與模型性能迴歸。

更新、回滾與災難恢復

  • 在全量部署前在Canary節點中暫存EXO二進制更新。
  • 模型級回滾:在量化版本間切換而無需重新下載。
  • 備份與恢復集羣狀態、自定義命名空間與緩存權重。
  • 記錄集羣完全重建場景的恢復手冊。

安全加固與合規

  • 在反向代理層(nginx、traefik)應用TLS以保護儀表盤與API。
  • 爲EXO端點實施API速率限制與IP白名單。
  • 使用VLAN與零信任網絡策略隔離集羣。
  • 審計訪問並維護已部署模型與版本的清單。

最低要求

  • 具備DevOps實踐經驗(CI/CD、IaC、容器編排)。
  • 熟悉macOS或Linux系統管理與包管理。
  • 瞭解網絡、DNS與存儲概念。

目標受衆

  • DevOps工程師。
  • 基礎設施架構師。
  • 負責本地AI工作負載的SRE。
 21 小時

客戶評論 (2)

課程分類