感謝您提交詢問!我們的一位團隊成員將在短時間內與您聯繫。
感謝您提交預訂!我們的一位團隊成員將在短時間內與您聯繫。
課程簡介
EXO基礎設施即代碼
- 概述EXO部署模式:單節點、多節點與RDMA集羣。
- 使用配置管理自動化依賴安裝(Xcode、uv、Node.js、Rust)。
- 使用Nix flakes構建可重現的EXO構建與開發環境。
- 編寫Ansible playbook或shell腳本實現無人值守集羣配置。
可重現構建與CI集成
- 在CI管道中固定依賴項並構建儀表盤。
- 在GitHub Actions或GitLab CI runner中運行EXO冒煙測試。
- 爲macOS與Linux虛擬機創建黃金鏡像與基於快照的回滾工作流。
- 將自定義模型卡片與應用代碼一起版本化。
集羣發現與網絡自動化
- 配置mDNS與靜態DNS以實現可靠的libp2p節點發現。
- 在macOS上自動化網絡配置文件創建與Thunderbolt橋接管理。
- 使用自定義命名空間(EXO_LIBP2P_NAMESPACE)分離開發、預生產與生產集羣。
- 爲多租戶環境配置防火牆規則與網絡分段。
存儲與模型生命週期管理
- 設計EXO_MODELS_DIRS與EXO_MODELS_READ_ONLY_DIRS策略。
- 掛載NFS或SAN共享作爲只讀模型倉庫以快速配置。
- 垃圾回收過期緩存與版本化權重保留策略。
- 在滾動更新前自動化模型預下載與健康檢查。
監控與告警
- 將EXO日誌發送至集中日誌系統(ELK、Loki或Splunk)。
- 基於EXO_TRACING_ENABLED輸出構建Grafana儀表盤。
- 告警集羣成員變更、OOM事件與推理延遲峯值。
- 關聯macmon硬件遙測與模型性能迴歸。
更新、回滾與災難恢復
- 在全量部署前在Canary節點中暫存EXO二進制更新。
- 模型級回滾:在量化版本間切換而無需重新下載。
- 備份與恢復集羣狀態、自定義命名空間與緩存權重。
- 記錄集羣完全重建場景的恢復手冊。
安全加固與合規
- 在反向代理層(nginx、traefik)應用TLS以保護儀表盤與API。
- 爲EXO端點實施API速率限制與IP白名單。
- 使用VLAN與零信任網絡策略隔離集羣。
- 審計訪問並維護已部署模型與版本的清單。
最低要求
- 具備DevOps實踐經驗(CI/CD、IaC、容器編排)。
- 熟悉macOS或Linux系統管理與包管理。
- 瞭解網絡、DNS與存儲概念。
目標受衆
- DevOps工程師。
- 基礎設施架構師。
- 負責本地AI工作負載的SRE。
21 小時
客戶評論 (2)
Craig在培訓中非常投入,始終確保我們保持專注,將示例調整到我們的日常活動中,並在被提問時總是提供答案,即使信息未在演示中提及。
Ecaterina Ioana Nicoale - BOOKING HOLDINGS ROMANIA SRL
課程 - DevOps Foundation®
機器翻譯
培訓師的高度承諾和專業知識
Jacek - Softsystem
課程 - DevOps Engineering Foundation (DOEF)®
機器翻譯