課程簡介

機器人學習導論

  • 機器人中的機器學習概述
  • 監督學習、無監督學習與強化學習的對比
  • 強化學習在控制、導航和操作中的應用

強化學習基礎

  • 馬爾可夫決策過程(MDP)
  • 策略、價值和獎勵函數
  • 探索與利用的權衡

經典強化學習算法

  • Q-learning與SARSA
  • 蒙特卡洛與時間差分方法
  • 值迭代與策略迭代

深度強化學習技術

  • 將深度學習與強化學習結合(深度Q網絡)
  • 策略梯度方法
  • 高級算法:A3C、DDPG和PPO

機器人學習仿真環境

  • 使用OpenAI Gym和ROS 2進行仿真
  • 爲機器人任務構建自定義環境
  • 評估性能與訓練穩定性

強化學習在機器人中的應用

  • 學習控制與運動策略
  • 強化學習在機器人操作中的應用
  • 多智能體強化學習在羣體機器人中的應用

優化、部署與真實世界集成

  • 超參數調優與獎勵塑造
  • 將學習到的策略從仿真遷移到現實(Sim2Real)
  • 在機器人硬件上部署訓練好的模型

總結與下一步

最低要求

  • 瞭解機器學習概念
  • 具備Python編程經驗
  • 熟悉機器人及控制系統

目標學員

  • 機器學習工程師
  • 機器人研究人員
  • 開發智能機器人系統的開發人員
 21 時間:

客戶評論 (1)

課程分類