Greenplum Architecture and Data Modeling 培訓
Greenplum 是一個開源的、面向分析和大規模數據環境的大規模並行處理(MPP)數據平臺。
本次由講師指導的培訓(線上或線下)面向中高級技術用戶,旨在幫助他們理解 Greenplum 的內部架構,構建優化的數據模型,並在分佈式環境中應用高性能 SQL。
通過本次培訓,學員將能夠:
- 理解 Greenplum 的共享無架構和並行處理模型。
- 設計針對查詢性能優化的分佈式表結構和分區。
- 使用索引策略、存儲格式和物理設計技術。
- 解讀 EXPLAIN 計劃,並使用最佳實踐優化查詢。
課程形式
- 互動式講座和討論。
- 大量練習和實踐。
- 在即時實驗室環境中進行動手操作。
課程定製選項
- 如需爲本課程定製培訓,請聯繫我們進行安排。
課程簡介
Greenplum架構
- 並行處理與對稱多處理
- 段角色與集羣配置
- 可擴展性與數據移動
- Greenplum數據倉庫架構
Greenplum表結構
- 分佈式與隨機分配表
- 堆表與僅追加表
- 行存儲與列存儲格式
- 分區表與集羣表
數據分佈與哈希
- 哈希邏輯與分佈鍵
- 偏斜處理與性能影響
- 哈希映射與行放置策略
索引與性能優化
- 聚集索引與非聚集索引
- B樹與位圖索引用例
- 索引掃描與存儲行爲
物理數據庫設計
- 規範化與邏輯模型設計
- 用戶訪問策略與分佈分析
- 數據統計與索引決策
反規範化技術
- 派生數據、彙總表與預連接
- 列式表作爲垂直分區
- 數據集市與物化視圖
高級SQL與查詢執行
- 連接策略與重分佈
- OLAP與窗口函數
- 臨時表、子查詢與派生表
EXPLAIN計劃與查詢調優
- 閱讀與解釋EXPLAIN輸出
- 成本分析與計劃優化
- 連接移動與段本地操作
Greenplum工具與最佳實踐
- ANALYZE與VACUUM
- 使用Nexus進行數據加載與移動
- 安全性、權限與性能提示
總結與下一步
最低要求
- 瞭解關係型數據庫和SQL
- 有數據倉庫或分析系統的經驗
- 熟悉Linux命令行操作
受衆
- 數據架構師和工程師
- 數據庫管理員和技術負責人
- 使用Greenplum的BI開發人員和分析專家
需要幫助選擇合適的課程嗎?
Greenplum Architecture and Data Modeling 培訓 - 詢問
Greenplum Architecture and Data Modeling - 咨詢詢問
咨詢詢問
客戶評論 (1)
實踐
Liliana Padilla - Hipodromo de Agua Caliente
課程 - Greenplum Architecture and Data Modeling
機器翻譯
相關課程
使用 Google Colab 和 Apache Spark 進行大數據分析
14 時間:這是一個由講師指導的澳門(線上或線下)培訓課程,針對希望使用Google Colab和Apache Spark進行大數據處理和分析的中級數據科學家和工程師。
在培訓結束時,參與者將能夠:
- 使用Google Colab和Spark建立大數據環境。
- 使用Apache Spark高效處理和分析大型數據集。
- 在協作環境中可視化大數據。
- 將Apache Spark與雲端工具集成。
Big Data Analytics in Health
21 時間:大數據分析涉及檢查大量不同數據集的過程,以便發現相關性,隱藏模式和其他有用的見解。
健康產業擁有大量複雜的異構醫學和臨床數據。對健康數據應用大數據分析在獲得改善醫療保健服務的見解方面具有巨大潛力。然而,這些數據集的巨大性給分析和臨床環境的實際應用帶來了巨大挑戰。
在這個以講師為主導的現場培訓(遠程)中,參與者將學習如何在健康狀況下進行大數據分析,因為他們將逐步進行一系列動手實踐練習。
在培訓結束時,參與者將能夠:
- 安裝和配置大數據分析工具,如Hadoop MapReduce和Spark
- 了解醫療數據的特徵
- 應用大數據技術處理醫療數據
- 在健康應用的背景下研究大數據系統和算法
聽眾
- 開發商
- 數據科學家
課程格式
- 部分講座,部分討論,練習和繁重的實踐練習。
注意
- 要申請本課程的定制培訓,請聯繫我們安排。
Hadoop Administration
21 時間:本課程專為IT專業人士設計,他們正在尋找在分散式系統環境中儲存和處理大數據集的解決方案。
課程目標:
獲取有關Hadoop集群管理的知識
Hadoop 和 Spark 管理員培訓
35 時間:這種由講師指導的澳門現場培訓(現場或遠端)針對的是希望學習如何在組織內設置,部署和管理Hadoop集群的系統管理員。
在培訓結束時,參與者將能夠:
- 安裝和配置 Apache Hadoop。
- 瞭解 Hadoop 生態系統中的四個主要元件:HDFS、MapReduce、YARN 和 Hadoop Common。
- 使用 Hadoop 分散式檔案系統 (HDFS) 將集群擴展到數百或數千個節點。
- 將 HDFS 設定為本地 Spark 部署的記憶體引擎。
- 設置 Spark 以存取替代儲存解決方案,例如 Amazon S3 和 NoSQL 資料庫系統,例如 Redis、Elasticsearch、Couchbase、Aerospike 等。
- 執行管理任務,例如配置、管理、監控和保護 Apache Hadoop 集群。
A Practical Introduction to Stream Processing
21 時間:In this instructor-led, live training in 澳門 (onsite or remote), participants will learn how to set up and integrate different Stream Processing frameworks with existing big data storage systems and related software applications and microservices.
By the end of this training, participants will be able to:
- Install and configure different Stream Processing frameworks, such as Spark Streaming and Kafka Streaming.
- Understand and select the most appropriate framework for the job.
- Process of data continuously, concurrently, and in a record-by-record fashion.
- Integrate Stream Processing solutions with existing databases, data warehouses, data lakes, etc.
- Integrate the most appropriate stream processing library with enterprise applications and microservices.
SMACK Stack 數據科學
14 時間:本課程爲講師指導的澳門(線上或線下)培訓,面向希望使用SMACK堆棧構建大數據解決方案的數據科學家。
通過本培訓,參與者將能夠:
- 實現用於處理大數據的數據管道架構。
- 使用Apache Mesos和Docker開發集羣基礎設施。
- 使用Spark和Scala進行數據分析。
- 使用Apache Cassandra管理非結構化數據。
Apache Spark基礎
21 時間:這種以講師為主導的澳門現場培訓(現場或遠端)針對的是希望建立和部署Apache Spark系統以處理大量數據的工程師。
在培訓結束時,參與者將能夠:
- 安裝和配置 Apache Spark。
- 快速處理和分析非常大的數據集。
- 瞭解Apache Spark和Hadoop MapReduce之間的區別,以及何時使用哪個。
- 將 Apache Spark 與其他機器學習工具整合。
Apache Spark 管理
35 時間:這種由講師指導的現場培訓澳門(遠端或遠端)面向希望部署、維護和優化Spark集群的初級到中級系統管理員。
在培訓結束時,參與者將能夠:
- 在各種環境中安裝和配置 Apache Spark。
- 管理群集資源並監視Spark應用程式。
- 優化Spark集群性能。
- 實施安全措施並確保高可用性。
- 調試和排查常見的Spark問題。
Apache Spark 雲端應用
21 時間:Apache Spark的學習曲線在開始時逐漸增加,需要付出很多努力來獲得第一次回歸。本課程旨在突破第一個艱難的部分。參加本課程後,參與者將了解Apache Spark的基礎知識,他們將明確區分RDD和DataFrame,他們將學習Python和Scala API,他們將理解執行者和任務等。同樣遵循最佳實踐,本課程重點關注雲部署,Databricks和AWS。學生還將了解AWS EMR與AWS Glue之間的差異,AWS Glue是AWS最新的Spark服務之一。
聽眾:
數據工程師, DevOps ,數據科學家
Spark 開發者指南
21 時間:目的:
本課程將介紹Apache Spark 。學生將學習Spark如何適應Big Data生態系統,以及如何使用Spark進行數據分析。該課程涵蓋Spark shell,用於交互式數據分析,Spark內部,Spark API,Spark SQL ,Spark流,機器學習和graphX。
聽眾:
開發人員/數據分析師
使用Spark NLP擴展數據管道
14 時間:這種由 講師指導的 澳門 現場培訓(在線或現場)面向希望使用 Spark NLP(基於 Apache Spark 構建)來開發、實施和擴展自然語言文本處理模型和管道的數據科學家和開發人員。
在本次培訓結束時,參與者將能夠:
- 設置必要的開發環境以開始使用 Spark NLP 構建 NLP 管道。
- 瞭解使用 Spark NLP 的功能、架構和優勢。
- 使用 Spark NLP 中提供的預訓練模型來實現文本處理。
- 瞭解如何為生產級項目構建、訓練和擴展 Spark NLP 模型。
- 對實際使用案例(臨床數據、客戶行為洞察等)應用分類、推理和情緒分析。
Python與Spark大數據分析(PySpark)
21 時間:在這個由講師指導的 澳門 現場培訓中,參與者將學習如何在動手練習中同時使用 Python 和 Spark 來分析大數據。
在培訓結束時,參與者將能夠:
- 瞭解如何將Spark與 Python 結合使用來分析 Big Data。
- 進行模仿真實世界案例的練習。
- 使用 PySpark 使用不同的工具和技術進行大數據分析。
Python、Spark和Hadoop在大數據中的應用
21 時間:這種以講師為主導的澳門現場培訓(現場或遠端)針對希望使用和集成Spark,Hadoop和Python以處理,分析和轉換大型複雜數據集的開發人員。
在培訓結束時,參與者將能夠:
- 設置必要的環境以開始使用 Spark、Hadoop 和 Python 處理大數據。
- 瞭解 Spark 和 Hadoop 的功能、核心元件和架構。
- 瞭解如何集成 Spark、Hadoop 和 Python 進行大數據處理。
- 探索 Spark 生態系統中的工具(Spark MlLib、Spark Streaming、Kafka、Sqoop、Kafka 和 Flume)。
- 構建類似於 Netflix、YouTube、Amazon、Spotify 和 Google 的協作過濾推薦系統。
- 使用 Apache Mahout 擴展機器學習演算法。
Apache Spark SQL
7 時間: Spark SQL是Apache Spark用於處理結構化和非結構化數據的模塊。 Spark SQL提供有關數據結構以及正在執行的計算的信息。此信息可用於執行優化。 Spark SQL兩個常見用途是:
- 執行SQL查詢。
- 從現有Hive安裝中讀取數據。
在這個由講師指導的實時培訓(現場或遠程)中,參與者將學習如何使用Spark SQL分析各種類型的數據集。
在培訓結束時,參與者將能夠:
- 安裝和配置Spark SQL 。
- 使用Spark SQL執行數據分析。
- 以不同格式查詢數據集。
- 可視化數據和查詢結果。
課程格式
- 互動講座和討論。
- 大量的練習和練習。
- 在實時實驗室環境中親自實施。
課程自定義選項
- 要申請本課程的定制培訓,請聯繫我們安排。
Stratio: Rocket and Intelligence Modules with PySpark
14 時間:Stratio 是一個以數據為中心的平台,將大數據、人工智慧和治理整合到單一解決方案中。其 Rocket 和 Intelligence 模組使企業環境中的數據探索、轉換和高級分析變得迅速。
這是一個由講師指導的培訓(線上或線下),針對希望有效使用 Stratio 中 Rocket 和 Intelligence 模組的中級數據專業人員,重點關注循環結構、用戶自定義函數和高級數據邏輯。
在培訓結束時,參與者將能夠:
- 使用 Rocket 和 Intelligence 模組在 Stratio 平台中導航和工作。
- 在數據擷取、轉換和分析的背景下應用 PySpark。
- 使用循環和條件邏輯來控制數據工作流和特徵工程任務。
- 創建和管理用戶自定義函數 (UDFs),以在 PySpark 中進行可重用的數據操作。
課程形式
- 互動式講座和討論。
- 大量練習和實踐。
- 在實時實驗室環境中進行實踐操作。
課程定制選項
- 如需為此課程請求定制培訓,請聯繫我們安排。