GPU 程式設計入門培訓

GPU 程式設計是一種利用 GPU 的平行運算能力來加速需要高效能運算的應用程式的技術，例如人工智慧、遊戲、圖形和科學計算。有幾個框架和工具支援 GPU 程式設計，每個都有其優缺點。其中最受歡迎的包括 OpenCL、CUDA、ROCm 和 HIP。

本課程由講師帶領進行（線上或線下），旨在幫助初級至中級的開發人員掌握 GPU 程式設計的基礎知識，以及開發 GPU 應用程式的主要框架與工具。

完成培訓後，學員將能夠：
了解 CPU 與 GPU 運算的差異，並理解 GPU 程式設計的優勢與挑戰。
為其 GPU 應用程式選擇合適的框架和工具。
編寫基本的 GPU 程式，使用一個或多個框架和工具執行向量加法。
使用相應的 API、語言和函式庫來查詢裝置資訊、配置與釋放裝置記憶體、在主機與裝置間複製資料、啟動核心（kernels）以及同步線程。
利用不同的記憶體空間（如全域、局部、常數和私有），最佳化資料傳輸和記憶體存取。
使用各自的執行模型（如工作項目、工作群組、線程、區塊和網格），控制平行運算。
使用 CodeXL、CUDA-GDB、CUDA-MEMCHECK 和 NVIDIA Nsight 等工具除錯和測試 GPU 程式。
使用合并（coalescing）、快取（caching）、預取（prefetching）和分析（profiling）等技術最佳化 GPU 程式。

課程格式

互動式講授與討論。
大量的練習與實作。
在即時實驗室環境中進行實作。

課程客製化選項

如需為本課程申請客製化培訓，請聯繫我們以安排。

感謝您提交詢問！我們的一位團隊成員將在短時間內與您聯繫。

感謝您提交預訂！我們的一位團隊成員將在短時間內與您聯繫。

課程簡介

介紹

什麼是 GPU 程式設計？
為何要使用 GPU 程式設計？
GPU 程式設計的挑戰與取捨是什麼？
GPU 程式設計有哪些框架和工具？
為您的應用程式選擇合適的框架和工具

OpenCL

什麼是 OpenCL？
OpenCL 的優勢與缺點是什麼？
設定 OpenCL 開發環境
建立執行向量加法的基礎 OpenCL 程式
使用 OpenCL API 查詢裝置資訊、配置與釋放裝置記憶體、在主機與裝置間複製資料、啟動核心（kernels）以及同步線程
使用 OpenCL C 語言編寫在裝置上執行並處理資料的核心
使用 OpenCL 內建函式、變數和函式庫執行常見任務和操作
使用 OpenCL 記憶體空間（如全域、局部、常數和私有），最佳化資料傳輸和記憶體存取
使用 OpenCL 執行模型控制定義平行運算的工作項目、工作群組和 ND-ranges
使用 CodeXL 等工具除錯和測試 OpenCL 程式
使用合并（coalescing）、快取（caching）、預取（prefetching）和分析（profiling）等技術最佳化 OpenCL 程式

CUDA

什麼是 CUDA？
CUDA 的優勢與缺點是什麼？
設定 CUDA 開發環境
建立執行向量加法的基礎 CUDA 程式
使用 CUDA API 查詢裝置資訊、配置與釋放裝置記憶體、在主機與裝置間複製資料、啟動核心（kernels）以及同步線程
使用 CUDA C/C++ 語言編寫在裝置上執行並處理資料的核心
使用 CUDA 內建函式、變數和函式庫執行常見任務和操作
使用 CUDA 記憶體空間（如全域、共享、常數和局部），最佳化資料傳輸和記憶體存取
使用 CUDA 執行模型控制定義平行運算的線程、區塊和網格
使用 CUDA-GDB、CUDA-MEMCHECK 和 NVIDIA Nsight 等工具除錯和測試 CUDA 程式
使用合并（coalescing）、快取（caching）、預取（prefetching）和分析（profiling）等技術最佳化 CUDA 程式

ROCm

什麼是 ROCm？
ROCm 的優勢與缺點是什麼？
設定 ROCm 開發環境
建立執行向量加法的基礎 ROCm 程式
使用 ROCm API 查詢裝置資訊、配置與釋放裝置記憶體、在主機與裝置間複製資料、啟動核心（kernels）以及同步線程
使用 ROCm C/C++ 語言編寫在裝置上執行並處理資料的核心
使用 ROCm 內建函式、變數和函式庫執行常見任務和操作
使用 ROCm 記憶體空間（如全域、局部、常數和私有），最佳化資料傳輸和記憶體存取
使用 ROCm 執行模型控制定義平行運算的線程、區塊和網格
使用 ROCm Debugger 和 ROCm Profiler 等工具除錯和測試 ROCm 程式
使用合并（coalescing）、快取（caching）、預取（prefetching）和分析（profiling）等技術最佳化 ROCm 程式

HIP

什麼是 HIP？
HIP 的優勢與缺點是什麼？
設定 HIP 開發環境
建立執行向量加法的基礎 HIP 程式
使用 HIP 語言編寫在裝置上執行並處理資料的核心
使用 HIP 內建函式、變數和函式庫執行常見任務和操作
使用 HIP 記憶體空間（如全域、共享、常數和局部），最佳化資料傳輸和記憶體存取
使用 HIP 執行模型控制定義平行運算的線程、區塊和網格
使用 ROCm Debugger 和 ROCm Profiler 等工具除錯和測試 HIP 程式
使用合并（coalescing）、快取（caching）、預取（prefetching）和分析（profiling）等技術最佳化 HIP 程式

比較

比較 OpenCL、CUDA、ROCm 和 HIP 的功能、效能與相容性
使用基準測試和指標評估 GPU 程式
學習 GPU 程式設計的最佳實踐與技巧
探索 GPU 程式設計的當前與未來趨勢及挑戰

總結與後續步驟

最低要求

具備 C/C++ 語言及平行運算概念的基礎知識
對電腦架構和記憶體階層有基本了解
熟悉命令列工具與程式碼編輯器

適用對象

希望學習 GPU 程式設計基礎知識，以及開發 GPU 應用程式主要框架與工具的開發人員。
希望撰寫可在不同平台與裝置上執行的可攜式與可擴展程式碼的開發人員。
希望探索 GPU 程式設計的優勢、挑戰及最佳化的程式設計師。

21 小時

需要幫助選擇合適的課程嗎？
macao@nobleprog.com 或 +852 81990613

GPU 程式設計入門培訓

課程簡介

最低要求

課程分類

其他國家的本網站

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites

GPU 程式設計入門培訓

課程簡介

最低要求

相關課程

使用華為昇騰和CANN開發AI應用

部署使用 CANN 和 Ascend AI 處理器的 AI 模型

使用CloudMatrix進行AI推理和部署

在必能 AI 加速器上進行 GPU 程式設計

使用BANGPy和Neuware進行Cambricon MLU開發

AI框架開發者CANN入門

CANN用於邊緣AI部署

深入理解華為AI計算棧：從CANN到MindSpore

使用CANN SDK優化神經網路效能

CANN SDK for Computer Vision and NLP Pipelines

使用 CANN TIK 和 TVM 構建自定義 AI 運算子

將 CUDA 應用程式遷移至中國 GPU 架構

昇騰、壁仞和寒武紀的性能優化

課程分類

GPU

其他國家的本網站

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites