聯繫我們

課程簡介

AI主權與大語言模型本地部署

  • 雲大語言模型的風險:數據保留、輸入訓練、外國管轄權。
  • Ollama架構:模型服務器、註冊表和OpenAI兼容API。
  • 與vLLM、llama.cpp和Text Generation Inference的對比。
  • 模型許可:Llama、Mistral、Qwen和Gemma條款。

安裝與硬件設置

  • 在支持CUDA和ROCm的Linux上安裝Ollama。
  • 僅CPU回退和AVX/AVX2優化。
  • Docker部署和持久卷映射。
  • 多GPU設置和VRAM分配策略。

模型管理

  • 從Ollama註冊表拉取模型:ollama pull llama3。
  • 從HuggingFace和TheBloke導入GGUF模型。
  • 量化級別:Q4_K_M、Q5_K_M、Q8_0的權衡。
  • 模型切換和併發模型加載限制。

自定義Modelfiles

  • 編寫Modelfile語法:FROM、PARAMETER、SYSTEM、TEMPLATE。
  • 溫度、top_p和repeat_penalty調優。
  • 系統提示工程以實現角色特定行爲。
  • 創建自定義模型併發布到本地註冊表。

API集成

  • OpenAI兼容的/v1/chat/completions端點。
  • 流式響應和JSON模式。
  • 與LangChain、LlamaIndex和自定義應用程序集成。
  • 使用反向代理進行身份驗證和速率限制。

性能優化

  • 上下文窗口大小和KV緩存管理。
  • 批量推理和並行請求處理。
  • CPU線程分配和NUMA感知。
  • 監控GPU利用率和內存壓力。

安全與合規

  • 模型服務端點的網絡隔離。
  • 輸入過濾和輸出審覈管道。
  • 提示和完成日誌的審計。
  • 模型來源和哈希驗證。

最低要求

  • 中級Linux和容器管理經驗。
  • 對機器學習和Transformer模型有基本瞭解。
  • 熟悉REST API和JSON。

目標受衆

  • 希望替換雲大語言模型API的AI工程師和開發者。
  • 因數據敏感性無法使用雲模型的組織。
  • 需要物理隔離語言模型的政府和國防團隊。
 14 小時

課程分類