NVIDIA GPU Programming - Extended培訓
這個講師主導的現場培訓課程包括如何為並行計算編程GPU ,如何使用各種平台,如何使用CUDA平台及其功能,以及如何使用CUDA執行各種優化技術。一些應用程序包括深度學習,分析,圖像處理和工程應用程序。
課程簡介
介紹
瞭解異構計算方法的基礎知識
為什麼選擇並行計算?瞭解並行計算的需求
多核處理器 - 架構和設計
線程簡介、線程基礎和并行基本概念 Programming
瞭解 GPU 軟體優化過程的基礎知識
OpenMP - 基於指令的並行標準 Programming
動手實踐/演示多核機器上的各種程式
GPU 計算簡介
GPUs 用於並行計算
圖形處理器 Programming 型號
動手實踐/演示各種程式 GPU
GPU 的 SDK、工具包和環境安裝
使用各種庫
演示 GPU 和工具以及範例程式和 OpenACC
瞭解 CUDA Programming 模型
學習 CUDA 架構
探索和設置 CUDA 開發環境
使用 CUDA 運行時 API
瞭解 CUDA 記憶體模型
探索其他 CUDA API 功能
Access在 CUDA 中高效處理全域記憶體:全域記憶體:全域記憶體優化
使用 CUDA 流優化 CUDA 中的數據傳輸
在 CUDA 中使用共用記憶體
瞭解和使用 CUDA 中的原子操作和指令
案例研究:使用 CUDA 進行基本數位圖像處理
使用多 GPU Programming
NVIDIA / CUDA上的高級硬體分析和採樣
使用 CUDA 動態並行 API 進行動態內核啟動
總結和結論
最低要求
- 丙 Programming
- Linux GCC協定
需要幫助選擇合適的課程嗎?
NVIDIA GPU Programming - Extended培訓 - Enquiry
NVIDIA GPU Programming - Extended - 咨詢詢問
咨詢詢問
客戶評論 (1)
培訓師精力充沛,幽默風趣。
Tadeusz Kaluba - Nokia Solutions and Networks Sp. z o.o.
Course - NVIDIA GPU Programming - Extended
機器翻譯
相關課程
Developing AI Applications with Huawei Ascend and CANN
21 時間:Huawei Ascend is a family of AI processors designed for high-performance inference and training.
This instructor-led, live training (online or onsite) is aimed at intermediate-level AI engineers and data scientists who wish to develop and optimize neural network models using Huawei’s Ascend platform and the CANN toolkit.
By the end of this training, participants will be able to:
- Set up and configure the CANN development environment.
- Develop AI applications using MindSpore and CloudMatrix workflows.
- Optimize performance on Ascend NPUs using custom operators and tiling.
- Deploy models to edge or cloud environments.
Format of the Course
- Interactive lecture and discussion.
- Hands-on use of Huawei Ascend and CANN toolkit in sample applications.
- Guided exercises focused on model building, training, and deployment.
Course Customization Options
- To request a customized training for this course based on your infrastructure or datasets, please contact us to arrange.
AI Inference and Deployment with CloudMatrix
21 時間:CloudMatrix 是華為統一的 AI 開發和部署平台,旨在支持可擴展的生產級推理管道。
這項由講師指導的培訓(線上或線下)面向希望使用 CloudMatrix 平台(整合 CANN 和 MindSpore)部署和監控 AI 模型的初級到中級 AI 專業人士。
培訓結束後,參與者將能夠:
- 使用 CloudMatrix 進行模型封裝、部署和服務。
- 為 Ascend 芯片組轉換和優化模型。
- 為即時和批量推理任務設置管道。
- 在生產環境中監控部署並調整性能。
課程形式
- 互動式講座和討論。
- 使用 CloudMatrix 進行實際部署場景的實操。
- 專注於轉換、優化和擴展的指導練習。
課程定制選項
- 如需根據您的 AI 基礎設施或雲環境定制此課程,請聯繫我們安排。
GPU Programming on Biren AI Accelerators
21 時間:Biren AI Accelerators are high-performance GPUs designed for AI and HPC workloads with support for large-scale training and inference.
This instructor-led, live training (online or onsite) is aimed at intermediate-level to advanced-level developers who wish to program and optimize applications using Biren’s proprietary GPU stack, with practical comparisons to CUDA-based environments.
By the end of this training, participants will be able to:
- Understand Biren GPU architecture and memory hierarchy.
- Set up the development environment and use Biren’s programming model.
- Translate and optimize CUDA-style code for Biren platforms.
- Apply performance tuning and debugging techniques.
Format of the Course
- Interactive lecture and discussion.
- Hands-on use of Biren SDK in sample GPU workloads.
- Guided exercises focused on porting and performance tuning.
Course Customization Options
- To request a customized training for this course based on your application stack or integration needs, please contact us to arrange.
Cambricon MLU Development with BANGPy and Neuware
21 時間:Cambricon MLUs (Machine Learning Units) are specialized AI chips optimized for inference and training in edge and datacenter scenarios.
This instructor-led, live training (online or onsite) is aimed at intermediate-level developers who wish to build and deploy AI models using the BANGPy framework and Neuware SDK on Cambricon MLU hardware.
By the end of this training, participants will be able to:
- Set up and configure the BANGPy and Neuware development environments.
- Develop and optimize Python- and C++-based models for Cambricon MLUs.
- Deploy models to edge and data center devices running Neuware runtime.
- Integrate ML workflows with MLU-specific acceleration features.
Format of the Course
- Interactive lecture and discussion.
- Hands-on use of BANGPy and Neuware for development and deployment.
- Guided exercises focused on optimization, integration, and testing.
Course Customization Options
- To request a customized training for this course based on your Cambricon device model or use case, please contact us to arrange.
Administration of CUDA
35 時間:這種由講師指導的現場培訓 澳門(在線或遠端)面向希望安裝、配置、管理和排除 CUDA 環境故障的初級系統管理員和 IT 專業人員。
在培訓結束時,參與者將能夠:
- 瞭解 CUDA 的架構、元件和功能。
- 安裝和配置 CUDA 環境。
- 管理和優化 CUDA 資源。
- 調試和排查常見的 CUDA 問題。
GPU Programming with CUDA and Python
14 時間:這是一個由講師指導的,在澳門(線上或線下)進行的培訓,針對希望使用CUDA來構建在NVIDIA GPU上並行運行的Python應用程式的中級開發者。
在培訓結束時,參與者將能夠:
- 使用Numba編譯器來加速在NVIDIA GPU上運行的Python應用程式。
- 創建、編譯並啟動自定義的CUDA核心。
- 管理GPU的記憶體。
- 將基於CPU的應用程式轉換為GPU加速的應用程式。
Migrating CUDA Applications to Chinese GPU Architectures
21 時間:Chinese GPU architectures such as Huawei Ascend, Biren, and Cambricon MLUs offer CUDA alternatives tailored for local AI and HPC markets.
This instructor-led, live training (online or onsite) is aimed at advanced-level GPU programmers and infrastructure specialists who wish to migrate and optimize existing CUDA applications for deployment on Chinese hardware platforms.
By the end of this training, participants will be able to:
- Evaluate compatibility of existing CUDA workloads with Chinese chip alternatives.
- Port CUDA codebases to Huawei CANN, Biren SDK, and Cambricon BANGPy environments.
- Compare performance and identify optimization points across platforms.
- Address practical challenges in cross-architecture support and deployment.
Format of the Course
- Interactive lecture and discussion.
- Hands-on code translation and performance comparison labs.
- Guided exercises focused on multi-GPU adaptation strategies.
Course Customization Options
- To request a customized training for this course based on your platform or CUDA project, please contact us to arrange.
GPU Programming with CUDA
28 時間:這個由 講師指導的 澳門 現場現場培訓(在線或現場)面向希望使用 CUDA 對 NVIDIA GPU 進行程式設計並利用其並行性的初級到中級開發人員。
在本次培訓結束時,參與者將能夠:
- 設置一個開發環境,其中包括 CUDA 工具包、NVIDIA GPU 和 Visual Studio 代碼。
- 創建一個基本的 CUDA 程式,該程式在 GPU 上執行向量加法並從 GPU 記憶體中檢索結果。
- 使用 CUDA API 查詢設備資訊、分配和釋放設備記憶體、在主機和設備之間複製數據、啟動內核和同步線程。
- 使用 CUDA C/C++ 語言編寫在 GPU 上執行並操作數據的內核。
- 使用 CUDA 內建函數、變數和庫來執行常見任務和操作。
- 使用 CUDA 記憶體空間(例如全域、共用、常量和本地)來優化數據傳輸和記憶體訪問。
- 使用 CUDA 執行模型來控制定義並行度的線程、塊和網格。
- 使用 CUDA-GDB、CUDA-MEMCHECK 和 NVIDIA Nsight 等工具調試和測試 CUDA 程式。
- 使用合併、緩存、預取和分析等技術優化 CUDA 程式。
97% de clients satisfaits.
GPU Programming with OpenCL
28 時間:這種以講師為主導的澳門現場培訓(現場或遠端)面向希望使用OpenCL對異構設備進行程式設計並利用其並行性的初級到中級開發人員。
在培訓結束時,參與者將能夠:
- 設置包含 OpenCL SDK、支援 OpenCL 和 Visual Studio 代碼的設備的開發環境。
- 創建一個基本的 OpenCL 程式,該程式在設備上執行向量加法並從設備記憶體中檢索結果。
- 使用 OpenCL API 查詢設備資訊、創建上下文、命令佇列、緩衝區、內核和事件。
- 使用 OpenCL C 語言編寫在設備上執行並操作數據的內核。
- 使用 OpenCL 內置函數、擴展和庫來執行常見任務和操作。
- 使用 OpenCL 主機和設備記憶體模型來優化數據傳輸和記憶體訪問。
- 使用 OpenCL 執行模型來控制工作項、工作組和 ND 範圍。
- 使用 CodeXL、Intel VTune 和 NVIDIA Nsight 等工具調試和測試 OpenCL 程式。
- 使用矢量化、循環展開、本地記憶體和分析等技術優化 OpenCL 程式。
GPU Programming - OpenCL vs CUDA vs ROCm
28 時間:這種以講師為主導的澳門現場現場培訓針對的是希望使用不同框架進行GPU程式設計並比較其功能,性能和相容性的初級到中級開發人員。
在培訓結束時,參與者將能夠:
- 設置一個開發環境,其中包括 OpenCL SDK、CUDA 工具包、ROCm 平臺、支援 OpenCL、CUDA 或 ROCm 的設備以及 Visual Studio 代碼。
- 創建一個基本的 GPU 程式,使用 OpenCL、CUDA 和 ROCm 執行向量加法,並比較每個框架的語法、結構和執行。
- 使用相應的 API 查詢設備資訊、分配和釋放設備記憶體、在主機和設備之間複製數據、啟動內核以及同步線程。
- 使用相應的語言編寫在設備上執行的內核並操作數據。
- 使用相應的內置函數、變數和庫來執行常見任務和操作。
- 使用相應的記憶體空間(如全域、本地、常量和專用)來優化數據傳輸和記憶體訪問。
- 使用相應的執行模型來控制定義並行度的線程、塊和網格。
- 使用 CodeXL 、 CUDA-GDB 、 CUDA-MEMCHECK 和 NVIDIA Nsight 等工具調試和測試 GPU 程式。
- 使用合併、緩存、預取和分析等技術優化 GPU 程式。
Performance Optimization on Ascend, Biren, and Cambricon
21 時間:Ascend, Biren, and Cambricon are leading AI hardware platforms in China, each offering unique acceleration and profiling tools for production-scale AI workloads.
This instructor-led, live training (online or onsite) is aimed at advanced-level AI infrastructure and performance engineers who wish to optimize model inference and training workflows across multiple Chinese AI chip platforms.
By the end of this training, participants will be able to:
- Benchmark models on Ascend, Biren, and Cambricon platforms.
- Identify system bottlenecks and memory/compute inefficiencies.
- Apply graph-level, kernel-level, and operator-level optimizations.
- Tune deployment pipelines to improve throughput and latency.
Format of the Course
- Interactive lecture and discussion.
- Hands-on use of profiling and optimization tools on each platform.
- Guided exercises focused on practical tuning scenarios.
Course Customization Options
- To request a customized training for this course based on your performance environment or model type, please contact us to arrange.