Databricks遷移工作坊：從存儲過程到Lakehouse（5天強化課程）培訓

Databricks是一個統一的Lakehouse平臺，結合了Spark、Delta Lake和治理（Unity Catalog），支持可擴展的數據工程和分析工作流。

本課程由講師主導，提供線下或線上培訓，面向具備數據工程背景的中級技術經理，旨在幫助他們將複雜的OLAP邏輯遷移到Lakehouse架構，使用Databricks、Spark、Delta Lake、Unity Catalog和原生工作流。

完成本培訓後，學員將能夠：

解釋Lakehouse架構和Bronze→Silver→Gold（Medallion）模式。
將存儲過程邏輯轉換爲Spark DataFrame和notebook實現。
使用Delta Lake設計和實現增量攝取、合併和優化例程。
使用Databricks Workflows構建端到端的編排管道，包括版本控制、測試和治理。

課程形式

密集的講師主導課程，包含重點演示和講解。
每天進行實際操作實驗，使用代表性數據集和遷移練習。
指導代碼審查、性能調優診所和工作流編排實踐。

課程定製選項

本課程可根據您的環境、數據集和治理要求進行定製，請聯繫我們安排定製。

感謝您提交詢問！我們的一位團隊成員將在短時間內與您聯繫。

感謝您提交預訂！我們的一位團隊成員將在短時間內與您聯繫。

課程簡介

介紹、目標和遷移策略

課程目標、學員概況對齊和成功標準
高級別遷移方法和風險考慮
設置工作區、存儲庫和實驗數據集

第1天 — 遷移基礎與架構

Lakehouse概念、Delta Lake概述和Databricks架構
SMP與MPP的差異及其對遷移的影響
Medallion（Bronze→Silver→Gold）設計和Unity Catalog概述

第1天實驗 — 轉換存儲過程

將示例存儲過程遷移到notebook的實踐操作
將臨時表和遊標映射到DataFrame轉換
驗證並與原始輸出進行比較

第2天 — 高級Delta Lake與增量加載

ACID事務、提交日誌、版本控制和時間旅行
Auto Loader、MERGE INTO模式、upserts和模式演化
OPTIMIZE、VACUUM、Z-ORDER、分區和存儲調優

第2天實驗 — 增量攝取與優化

實現Auto Loader攝取和MERGE工作流
應用OPTIMIZE、Z-ORDER和VACUUM，驗證結果
測量讀寫性能改進

第3天 — Databricks中的SQL、性能與調試

分析SQL功能：窗口函數、高階函數、JSON/數組處理
閱讀Spark UI、DAG、shuffle、階段、任務和瓶頸診斷
查詢調優模式：廣播連接、提示、緩存和減少溢出

第3天實驗 — SQL重構與性能調優

將重型SQL過程重構爲優化的Spark SQL
使用Spark UI跟蹤識別並修復傾斜和shuffle問題
基準測試前後並記錄調優步驟

第4天 — 戰術PySpark：替換過程邏輯

Spark執行模型：驅動程序、執行器、惰性評估和分區策略
將循環和遊標轉換爲向量化DataFrame操作
模塊化、UDFs/pandas UDFs、widgets和可重用庫

第4天實驗 — 重構過程腳本

將過程ETL腳本重構爲模塊化PySpark notebooks
引入參數化、單元測試和可重用函數
代碼審查和最佳實踐檢查表應用

第5天 — 編排、端到端管道與最佳實踐

Databricks Workflows：作業設計、任務依賴、觸發器和錯誤處理
設計帶有質量規則和模式驗證的增量Medallion管道
與Git（GitHub/Azure DevOps）集成，CI和PySpark邏輯的測試策略

第5天實驗 — 構建完整的端到端管道

使用Workflows組裝Bronze→Silver→Gold管道
實現日誌記錄、審計、重試和自動驗證
運行完整管道，驗證輸出並準備部署說明

操作化、治理與生產準備

Unity Catalog治理、血統和訪問控制最佳實踐
成本、集羣大小、自動縮放和作業併發模式
部署檢查表、回滾策略和運行手冊創建

最終回顧、知識轉移與後續步驟

學員展示遷移工作和經驗教訓
差距分析、推薦的後續活動和培訓材料交接
參考資料、進一步學習路徑和支持選項

最低要求

瞭解數據工程概念
具備SQL和存儲過程經驗（Synapse/SQL Server）
熟悉ETL編排概念（ADF或類似工具）

受衆

具備數據工程背景的技術經理
將OLAP邏輯遷移到Lakehouse模式的數據工程師
負責Databricks採用的平臺工程師

35 時間：

需要幫助選擇合適的課程嗎？

使用Azure Databricks進行金融領域的機器學習

7 時間：

數據磚

14 時間：

Databricks數據工程深度培訓

350 時間：

Data Analysis with Databricks for Finance

14 時間：

Databricks遷移工作坊：從存儲過程到Lakehouse（5天強化課程）培訓

課程簡介

最低要求

課程分類

其他國家的本網站

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites

Databricks遷移工作坊：從存儲過程到Lakehouse（5天強化課程）培訓

課程簡介

最低要求

相關課程

使用Azure Databricks進行金融領域的機器學習

數據磚

Databricks數據工程深度培訓

Data Analysis with Databricks for Finance

課程分類

Databricks

其他國家的本網站

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites