課程簡介

介紹

  • 通過積極強化學習

Reinforcement Learning 的元素

重要術語(行動、狀態、獎勵、政策、價值、Q值等)

表格解決方案方法概述

創建軟體代理

瞭解基於價值、基於策略和基於模型的方法

使用瑪律可夫決策過程 (MDP)

策略如何定義代理的行為方式

使用蒙特卡羅方法

時間差異學習

n 步 Bootstrapping

近似求解方法

基於近似值的策略預測

具有近似值的策略控制

具有近似值的偏離策略的方法

了解資格跟蹤

使用策略梯度方法

總結和結論

最低要求

  • 機器學習經驗
  • Programming 經驗

觀眾

  • 數據科學家
 21 時間:

客戶評論 (2)

相關課程

Deep Reinforcement Learning with Python

21 時間:

Large Language Models (LLMs) and Reinforcement Learning (RL)

21 時間:

Reinforcement Learning with Java

21 時間:

AI-Augmented Software Engineering (AIASE)

14 時間:

AI Coding Assistants: Enhancing Developer Productivity

7 時間:

Introduction to Data Science and AI using Python

35 時間:

AI in Digital Marketing

7 時間:

Artificial Intelligence (AI) for Managers

7 時間:

Artificial Intelligence (AI) for Robotics

21 時間:

Introduction to Artificial Intelligence (AI)

35 時間:

AI and Robotics for Nuclear - Extended

120 時間:

AI and Robotics for Nuclear

80 時間:

AI in business and Society & The future of AI - AI/Robotics

7 時間:

Introduction to AI Trust, Risk, and Security Management (AI TRiSM)

21 時間:

Introduction to Bing AI: Enhancing Search with Artificial Intelligence

14 時間:

課程分類

1