PySpark與機器學習培訓

(1 客戶評論)

本培訓提供了一個實用的入門指南，介紹如何使用PySpark構建可擴展的數據處理和機器學習工作流。參與者將學習Apache Spark在現代大數據生態系統中的運作方式，以及如何利用分佈式計算原理高效處理大規模數據集。

課程從Spark架構和DataFrame操作逐步過渡到高級主題，如特徵工程、機器學習模型訓練以及使用Spark MLlib構建端到端機器學習管道。參與者還將探索性能優化技術、模型評估策略以及在企業環境中大規模部署機器學習工作流的最佳實踐。

通過實踐練習和現實場景的啓發，參與者將學習如何設計高效的數據管道，爲機器學習準備數據集，並構建能夠處理企業環境中常見大規模數據的分佈式機器學習模型。

培訓結束時，參與者將瞭解如何將PySpark集成到現代數據平臺中，並在生產環境中應用可擴展的機器學習技術。

感謝您提交詢問！我們的一位團隊成員將在短時間內與您聯繫。

感謝您提交預訂！我們的一位團隊成員將在短時間內與您聯繫。

課程簡介

PySpark與機器學習

模塊1：大數據與Spark基礎

大數據生態系統概述及Spark在現代數據平臺中的作用
理解Spark架構：驅動、執行器、集羣管理器、惰性求值、DAG和執行計劃
RDD與DataFrame API的區別及各自的使用場景
創建和配置SparkSession，瞭解應用程序配置基礎

模塊2：PySpark DataFrames

從企業數據源和格式（CSV、JSON、Parquet、Delta）中讀取和寫入數據
使用PySpark DataFrames：轉換、操作、列表達式、過濾、連接和聚合
實現高級操作，如窗口函數、處理時間戳和嵌套數據
應用數據質量檢查，編寫可重用、可維護的PySpark代碼

模塊3：高效處理大規模數據集

理解性能基礎：分區策略、Shuffle行爲、緩存和持久化
使用優化技術，包括廣播連接和執行計劃分析
高效處理大規模數據集及可擴展數據工作流的最佳實踐
理解企業環境中的模式演化和現代存儲格式

模塊4：大規模特徵工程

使用Spark MLlib進行特徵工程：處理缺失值、編碼分類變量和特徵縮放
設計可重用的預處理步驟，爲機器學習管道準備數據集
特徵選擇簡介及處理不平衡數據集

模塊5：使用Spark MLlib進行機器學習

理解MLlib架構及Estimator/Transformer模式
大規模訓練迴歸和分類模型（線性迴歸、邏輯迴歸、決策樹、隨機森林）
在分佈式機器學習工作流中比較模型並解釋結果

模塊6：端到端機器學習管道

構建端到端機器學習管道，結合預處理、特徵工程和建模
應用訓練/驗證/測試集劃分策略
使用網格搜索和隨機搜索進行交叉驗證和超參數調優
構建可重複的機器學習實驗

模塊7：模型評估與實用機器學習決策

爲迴歸和分類問題應用適當的評估指標
識別過擬合和欠擬合，做出實用的模型選擇決策
解釋特徵重要性，理解模型行爲

模塊8：生產與企業實踐

在Spark中持久化和加載模型
在大規模數據集上實現批量推理工作流
理解企業環境中的機器學習生命週期
版本控制、實驗跟蹤概念和基本測試策略簡介

實踐成果

能夠獨立使用PySpark
能夠高效處理大規模數據集
能夠進行大規模特徵工程
能夠構建可擴展的機器學習管道

最低要求

參與者應具備以下背景：

基本的Python編程知識，包括函數、數據結構和庫的使用
對數據分析概念（如數據集、轉換和聚合）的基本理解
SQL和關係數據概念的基礎知識
對機器學習概念（如訓練數據集、特徵和評估指標）的初步瞭解
熟悉命令行環境和基本軟件開發實踐者優先

有Pandas、NumPy或類似數據處理庫的經驗會有所幫助，但不是必需的。

21 小時

需要幫助選擇合適的課程嗎？

客戶評論 (1)

我喜歡它的實用性。非常喜歡將理論知識應用到實際例子中。

PySpark與機器學習培訓

課程簡介

最低要求

客戶評論 (1)

Aurelia-Adriana - Allianz Services Romania

課程 - Python and Spark for Big Data (PySpark)

課程分類

其他國家的本網站

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites

PySpark與機器學習培訓

課程簡介

最低要求

客戶評論 (1)

Aurelia-Adriana - Allianz Services Romania

課程 - Python and Spark for Big Data (PySpark)

相關課程

Python與Spark大數據分析（PySpark）

Stratio: 使用PySpark的Rocket與Intelligence模塊

課程分類

PySpark

其他國家的本網站

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites