聯繫我們

課程簡介

PySpark與機器學習 

模塊1:大數據與Spark基礎

  • 大數據生態系統概述及Spark在現代數據平臺中的作用
  • 理解Spark架構:驅動、執行器、集羣管理器、惰性求值、DAG和執行計劃
  • RDD與DataFrame API的區別及各自的使用場景
  • 創建和配置SparkSession,瞭解應用程序配置基礎

模塊2:PySpark DataFrames

  • 從企業數據源和格式(CSV、JSON、Parquet、Delta)中讀取和寫入數據
  • 使用PySpark DataFrames:轉換、操作、列表達式、過濾、連接和聚合
  • 實現高級操作,如窗口函數、處理時間戳和嵌套數據
  • 應用數據質量檢查,編寫可重用、可維護的PySpark代碼

模塊3:高效處理大規模數據集

  • 理解性能基礎:分區策略、Shuffle行爲、緩存和持久化
  • 使用優化技術,包括廣播連接和執行計劃分析
  • 高效處理大規模數據集及可擴展數據工作流的最佳實踐
  • 理解企業環境中的模式演化和現代存儲格式

模塊4:大規模特徵工程

  • 使用Spark MLlib進行特徵工程:處理缺失值、編碼分類變量和特徵縮放
  • 設計可重用的預處理步驟,爲機器學習管道準備數據集
  • 特徵選擇簡介及處理不平衡數據集

模塊5:使用Spark MLlib進行機器學習

  • 理解MLlib架構及Estimator/Transformer模式
  • 大規模訓練迴歸和分類模型(線性迴歸、邏輯迴歸、決策樹、隨機森林)
  • 在分佈式機器學習工作流中比較模型並解釋結果

模塊6:端到端機器學習管道

  • 構建端到端機器學習管道,結合預處理、特徵工程和建模
  • 應用訓練/驗證/測試集劃分策略
  • 使用網格搜索和隨機搜索進行交叉驗證和超參數調優
  • 構建可重複的機器學習實驗

模塊7:模型評估與實用機器學習決策

  • 爲迴歸和分類問題應用適當的評估指標
  • 識別過擬合和欠擬合,做出實用的模型選擇決策
  • 解釋特徵重要性,理解模型行爲

模塊8:生產與企業實踐

  • 在Spark中持久化和加載模型
  • 在大規模數據集上實現批量推理工作流
  • 理解企業環境中的機器學習生命週期
  • 版本控制、實驗跟蹤概念和基本測試策略簡介

 

實踐成果

  • 能夠獨立使用PySpark
  • 能夠高效處理大規模數據集
  • 能夠進行大規模特徵工程
  • 能夠構建可擴展的機器學習管道

最低要求

參與者應具備以下背景:

基本的Python編程知識,包括函數、數據結構和庫的使用
對數據分析概念(如數據集、轉換和聚合)的基本理解
SQL和關係數據概念的基礎知識
對機器學習概念(如訓練數據集、特徵和評估指標)的初步瞭解
熟悉命令行環境和基本軟件開發實踐者優先

有Pandas、NumPy或類似數據處理庫的經驗會有所幫助,但不是必需的。

 21 小時

客戶評論 (1)

課程分類