課程簡介

 

介紹:

  • Apache Spark 在 Hadoop 生態系統中
  • python、scala 的簡短介紹

基礎知識(理論):

  • 建築
  • RDD型
  • 轉型與行動
  • 階段、任務、依賴項

使用 Databricks 環境瞭解基礎知識(動手研討會):

  • 使用 RDD API 的練習
  • 基本操作和轉換函數
  • 貨幣對RDD
  • 加入
  • 緩存策略
  • 使用 DataFrame API 的練習
  • 火花SQL
  • DataFrame:選擇、篩選、分組、排序
  • UDF(使用者定義函數)
  • 查看數據集 API

使用 AWS 環境瞭解部署(動手研討會):

  • AWS Glue 基礎知識
  • 瞭解 AWS EMR 和AWS Glue 之間的差異
  • 兩個環境中的示例作業
  • 瞭解利弊

額外:

  • Apache Airflow 編排簡介

最低要求

程式設計技能(最好是 python,scala)

SQL 基礎知識

 21 時間:

客戶評論 (2)

相關課程

Python and Spark for Big Data (PySpark)

21 時間:

Introduction to Graph Computing

28 時間:

Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP

21 時間:

Apache Spark MLlib

35 時間:

Big Data Analytics in Health

21 時間:

Hadoop and Spark for Administrators

35 時間:

Hortonworks Data Platform (HDP) for Administrators

21 時間:

A Practical Introduction to Stream Processing

21 時間:

Magellan: Geospatial Analytics on Spark

14 時間:

Apache Spark for .NET Developers

21 時間:

SMACK Stack for Data Science

14 時間:

Apache Spark Fundamentals

21 時間:

Administration of Apache Spark

35 時間:

Spark for Developers

21 時間:

Scaling Data Pipelines with Spark NLP

14 時間:

課程分類