感謝您提交詢問!我們的一位團隊成員將在短時間內與您聯繫。
感謝您提交預訂!我們的一位團隊成員將在短時間內與您聯繫。
課程簡介
第1周 — 數據工程簡介
- 數據工程基礎與現代數據棧
- 數據攝取模式與數據源
- 批處理與流處理概念及用例
- 實踐實驗室:將示例數據攝取到雲存儲
第2周 — Databricks Lakehouse Foundation 徽章
- Databricks 平臺基礎與工作區導航
- Delta Lake 概念:ACID、時間旅行與模式演進
- 工作區安全、訪問控制與 Unity Catalog 基礎
- 實踐實驗室:Delta 表創建與管理
第3周 — Databricks 高級SQL
- 高級SQL構造與大規模窗口函數
- 查詢優化、執行計劃與成本感知模式
- 物化視圖、緩存與性能調優
- 實踐實驗室:優化大數據集上的分析查詢
第4周 — Databricks 認證的 Apache Spark 開發者(準備)
- Spark 架構、RDDs、DataFrames 與 Datasets 深入探討
- 關鍵Spark轉換與操作;性能考慮
- Spark 流處理基礎與結構化流模式
- 練習考試題目與實踐測試問題
第5周 — 數據建模簡介
- 概念:維度建模、星型/雪花型模式設計與規範化
- Lakehouse 建模與傳統數據倉庫方法
- 面向分析就緒數據集的設計模式
- 實踐實驗室:構建可消費的表與視圖
第6周 — 導入工具與數據攝取自動化簡介
- Databricks 的連接器與攝取工具(AWS Glue、Data Factory、Kafka)
- 流攝取模式與微批處理設計
- 數據驗證、質量檢查與模式強制
- 實踐實驗室:構建彈性攝取管道
第7周 — Git Flow 與數據工程的 CI/CD 簡介
- Git Flow 分支策略與倉庫組織
- 筆記本、作業與基礎設施即代碼的 CI/CD 管道
- 數據代碼的測試、代碼檢查與部署自動化
- 實踐實驗室:實現基於 Git 的工作流與自動化作業部署
第8周 — Databricks 認證數據工程師助理(準備)與數據工程模式
- 認證主題回顧與實踐練習
- 架構模式:青銅/白銀/黃金、CDC、緩慢變化維度
- 操作模式:監控、警報與數據血緣
- 實踐實驗室:應用工程模式的端到端管道
第9周 — Airflow 與 Astronomer 簡介;腳本編寫
- Airflow 概念:DAGs、任務、操作符與調度
- Astronomer 平臺概述與編排最佳實踐
- 自動化腳本編寫:數據任務的 Python 腳本模式
- 實踐實驗室:使用 Airflow DAGs 編排 Databricks 作業
第10周 — 數據可視化、Tableau 與定製化最終項目
- 將 Tableau 連接到 Databricks 與 BI 層最佳實踐
- 儀表板設計原則與性能感知的可視化
- 頂點項目:定製化最終項目的範圍確定、實施與展示
- 最終展示、同行評審與導師反饋
總結與下一步
最低要求
- 瞭解基本的SQL和數據概念
- 具備Python或Scala編程經驗
- 熟悉雲服務和虛擬環境
受衆
- 有志於從事數據工程的人員及在職數據工程師
- ETL/BI開發人員和數據分析工程師
- 支持數據管道的平臺和DevOps團隊
350 時間: