課程簡介

介紹、目標和遷移策略

  • 課程目標、學員概況對齊和成功標準
  • 高級別遷移方法和風險考慮
  • 設置工作區、存儲庫和實驗數據集

第1天 — 遷移基礎與架構

  • Lakehouse概念、Delta Lake概述和Databricks架構
  • SMP與MPP的差異及其對遷移的影響
  • Medallion(Bronze→Silver→Gold)設計和Unity Catalog概述

第1天實驗 — 轉換存儲過程

  • 將示例存儲過程遷移到notebook的實踐操作
  • 將臨時表和遊標映射到DataFrame轉換
  • 驗證並與原始輸出進行比較

第2天 — 高級Delta Lake與增量加載

  • ACID事務、提交日誌、版本控制和時間旅行
  • Auto Loader、MERGE INTO模式、upserts和模式演化
  • OPTIMIZE、VACUUM、Z-ORDER、分區和存儲調優

第2天實驗 — 增量攝取與優化

  • 實現Auto Loader攝取和MERGE工作流
  • 應用OPTIMIZE、Z-ORDER和VACUUM,驗證結果
  • 測量讀寫性能改進

第3天 — Databricks中的SQL、性能與調試

  • 分析SQL功能:窗口函數、高階函數、JSON/數組處理
  • 閱讀Spark UI、DAG、shuffle、階段、任務和瓶頸診斷
  • 查詢調優模式:廣播連接、提示、緩存和減少溢出

第3天實驗 — SQL重構與性能調優

  • 將重型SQL過程重構爲優化的Spark SQL
  • 使用Spark UI跟蹤識別並修復傾斜和shuffle問題
  • 基準測試前後並記錄調優步驟

第4天 — 戰術PySpark:替換過程邏輯

  • Spark執行模型:驅動程序、執行器、惰性評估和分區策略
  • 將循環和遊標轉換爲向量化DataFrame操作
  • 模塊化、UDFs/pandas UDFs、widgets和可重用庫

第4天實驗 — 重構過程腳本

  • 將過程ETL腳本重構爲模塊化PySpark notebooks
  • 引入參數化、單元測試和可重用函數
  • 代碼審查和最佳實踐檢查表應用

第5天 — 編排、端到端管道與最佳實踐

  • Databricks Workflows:作業設計、任務依賴、觸發器和錯誤處理
  • 設計帶有質量規則和模式驗證的增量Medallion管道
  • 與Git(GitHub/Azure DevOps)集成,CI和PySpark邏輯的測試策略

第5天實驗 — 構建完整的端到端管道

  • 使用Workflows組裝Bronze→Silver→Gold管道
  • 實現日誌記錄、審計、重試和自動驗證
  • 運行完整管道,驗證輸出並準備部署說明

操作化、治理與生產準備

  • Unity Catalog治理、血統和訪問控制最佳實踐
  • 成本、集羣大小、自動縮放和作業併發模式
  • 部署檢查表、回滾策略和運行手冊創建

最終回顧、知識轉移與後續步驟

  • 學員展示遷移工作和經驗教訓
  • 差距分析、推薦的後續活動和培訓材料交接
  • 參考資料、進一步學習路徑和支持選項

最低要求

  • 瞭解數據工程概念
  • 具備SQL和存儲過程經驗(Synapse/SQL Server)
  • 熟悉ETL編排概念(ADF或類似工具)

受衆

  • 具備數據工程背景的技術經理
  • 將OLAP邏輯遷移到Lakehouse模式的數據工程師
  • 負責Databricks採用的平臺工程師
 35 時間:

課程分類