課程簡介

強化學習導論

  • 強化學習及其應用概述
  • 監督學習、無監督學習和強化學習的區別
  • 關鍵概念:代理、環境、獎勵和策略

馬爾可夫決策過程(MDPs)

  • 理解狀態、動作、獎勵和狀態轉換
  • 價值函數和貝爾曼方程
  • 動態規劃用於解決MDPs

核心RL算法

  • 表格方法:Q-Learning和SARSA
  • 基於策略的方法:REINFORCE算法
  • Actor-Critic框架及其應用

深度強化學習

  • 深度Q網絡(DQN)導論
  • 經驗回放和目標網絡
  • 策略梯度和高級深度RL方法

RL框架和工具

  • OpenAI Gym及其他RL環境介紹
  • 使用PyTorch或TensorFlow開發RL模型
  • 訓練、測試和基準測試RL代理

RL中的挑戰

  • 訓練中的探索-利用權衡
  • 處理稀疏獎勵和信用分配問題
  • RL中的可擴展性和計算挑戰

動手實踐

  • 從零開始實現Q-Learning和SARSA算法
  • 在OpenAI Gym中訓練基於DQN的代理玩簡單遊戲
  • 在自定義環境中微調RL模型以提高性能

總結與下一步

最低要求

  • 對機器學習原理和算法有深入理解
  • 熟練掌握Python編程
  • 熟悉神經網絡和深度學習框架

受衆

  • 機器學習工程師
  • AI專家
 14 時間:

客戶評論 (1)

課程分類