感謝您提交詢問!我們的一位團隊成員將在短時間內與您聯繫。
感謝您提交預訂!我們的一位團隊成員將在短時間內與您聯繫。
課程簡介
強化學習導論
- 強化學習及其應用概述
- 監督學習、無監督學習和強化學習的區別
- 關鍵概念:代理、環境、獎勵和策略
馬爾可夫決策過程(MDPs)
- 理解狀態、動作、獎勵和狀態轉換
- 價值函數和貝爾曼方程
- 動態規劃用於解決MDPs
核心RL算法
- 表格方法:Q-Learning和SARSA
- 基於策略的方法:REINFORCE算法
- Actor-Critic框架及其應用
深度強化學習
- 深度Q網絡(DQN)導論
- 經驗回放和目標網絡
- 策略梯度和高級深度RL方法
RL框架和工具
- OpenAI Gym及其他RL環境介紹
- 使用PyTorch或TensorFlow開發RL模型
- 訓練、測試和基準測試RL代理
RL中的挑戰
- 訓練中的探索-利用權衡
- 處理稀疏獎勵和信用分配問題
- RL中的可擴展性和計算挑戰
動手實踐
- 從零開始實現Q-Learning和SARSA算法
- 在OpenAI Gym中訓練基於DQN的代理玩簡單遊戲
- 在自定義環境中微調RL模型以提高性能
總結與下一步
最低要求
- 對機器學習原理和算法有深入理解
- 熟練掌握Python編程
- 熟悉神經網絡和深度學習框架
受衆
- 機器學習工程師
- AI專家
14 時間:
客戶評論 (1)
培訓師即時回答問題。
Adrian
課程 - Agentic AI Unleashed: Crafting LLM Applications with AutoGen
機器翻譯