課程簡介

安全與公平AI的基礎

  • 關鍵概念:安全性、偏見、公平性、透明度
  • 偏見類型:數據集偏見、代表性偏見、算法偏見
  • 監管框架概述(歐盟AI法案、GDPR等)

微調模型中的偏見

  • 微調如何引入或放大偏見
  • 案例研究與現實中的失敗案例
  • 識別數據集和模型預測中的偏見

偏見緩解技術

  • 數據層面策略(重新平衡、數據增強)
  • 訓練中策略(正則化、對抗性去偏見)
  • 後處理策略(輸出過濾、校準)

模型安全與穩健性

  • 檢測不安全或有害的輸出
  • 處理對抗性輸入
  • 紅隊演練與壓力測試微調模型

審計與監控AI系統

  • 偏見與公平性評估指標(如人口統計平等)
  • 可解釋性工具與透明度框架
  • 持續監控與治理實踐

工具包與實踐操作

  • 使用開源庫(如Fairlearn、Transformers、CheckList)
  • 實踐操作:檢測與緩解微調模型中的偏見
  • 通過提示設計與約束生成安全輸出

企業Use Case與合規準備

  • 在LLM工作流程中整合安全性的最佳實踐
  • Documentation與模型卡片用於合規
  • 準備審計與外部審查

總結與下一步

最低要求

  • 了解機器學習模型與訓練流程
  • 具備微調與LLMs的實務經驗
  • 熟悉Python與NLP概念

目標受眾

  • AI合規團隊
  • ML工程師
 14 時間:

課程分類