課程簡介

簡介與診斷基礎

  • LLM系統的故障模式概述及常見的Ollama特定問題
  • 建立可重現的實驗與控制環境
  • 調試工具集:本地日誌、請求/響應捕獲及沙盒環境

重現與隔離故障

  • 創建最小失敗範例與種子的技巧
  • 有狀態與無狀態交互:隔離與上下文相關的錯誤
  • 確定性、隨機性與控制非確定性行為

行為評估與指標

  • 定量指標:準確性、ROUGE/BLEU變體、校準與困惑度代理
  • 定性評估:人工評分與評分標準設計
  • 任務特定保真度檢查與驗收標準

自動化測試與回歸

  • 提示與組件的單元測試、場景與端到端測試
  • 創建回歸套件與黃金範例基準
  • Ollama模型更新的CI/CD集成與自動化驗證閘門

可觀察性與監控

  • 結構化日誌、分散式追蹤與關聯ID
  • 關鍵運營指標:延遲、令牌使用、錯誤率與質量信號
  • 模型支援服務的警報、儀表板與SLIs/SLOs

高級根本原因分析

  • 追蹤圖形化提示、工具調用與多輪流程
  • 比較A/B診斷與消融研究
  • 數據來源、數據集調試與解決數據集引起的故障

安全性、魯棒性與補救策略

  • 緩解措施:過濾、基礎化、檢索增強與提示框架
  • 模型更新的回滾、金絲雀與分階段推出模式
  • 事後分析、經驗教訓與持續改進循環

總結與下一步

最低要求

  • 具備構建和部署LLM應用的豐富經驗
  • 熟悉Ollama工作流程和模型託管
  • 熟練使用Python、Docker及基本的可觀測性工具

受眾

  • AI工程師
  • ML Ops專業人員
  • 負責生產LLM系統的QA團隊
 35 時間:

課程分類