課程簡介

    Scala 入門 Scala 簡介 實驗室:瞭解 Scala Spark 基礎知識 背景和歷史 Spark 和 Hadoop Spark 概念和體系結構 Spark 生態系統(core、spark sql、mlib、streaming) 實驗室:安裝和運行Spark 初探Spark 在本地模式下運行 Spark Spark Web 用戶介面 火花殼 分析資料集 – 第 1 部分 檢查 RDD 實驗室:Spark shell 探索 RDD的 RDD 概念 分區 RDD 操作/轉換 RDD 類型 鍵值對 RDD RDD上的MapReduce 緩存和持久性 實驗室:創建和檢查RDD;  緩存 RDD Spark API 程式設計 Spark API / RDD API 簡介 向 Spark 提交第一個程式 調試/日誌記錄 配置屬性 實驗室:在Spark API中程式設計,提交作業 火花 SQL SQL Spark 中的支援 數據幀 定義表和導入數據集 使用 SQL 查詢數據框 儲存格式 : JSON / Parquet 實驗室:創建和查詢數據框;評估數據格式 MLlib 中 MLlib 簡介 MLlib 演算法 實驗室:編寫 MLib 應用程式 圖形X GraphX 庫概述 GraphX 介面 實驗室:使用Spark處理圖形數據 Spark 流式處理 流式處理概述 評估流媒體平臺 流式處理操作 滑動視窗操作 實驗室:編寫spark流式處理應用程式 Spark 和 Hadoop Hadoop 簡介 (HDFS / YARN) Hadoop + Spark 架構 在 Hadoop YARN 上運行 Spark 使用 Spark 處理 HDFS 檔 Spark 性能和調優 廣播變數 蓄電池 記憶體管理和緩存 Spark 操作 在生產環境中部署Spark 範例部署範本 配置 監測 故障排除

最低要求

先決條件

熟悉 Java / Scala / Python 語言(我們的 Scala 和 Python 實驗室) 對Linux開發環境有基本的瞭解(命令行導航/使用VI或nano編輯檔案)

 21 時間:

客戶評論 (3)

相關課程

Python and Spark for Big Data (PySpark)

21 時間:

Introduction to Graph Computing

28 時間:

Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP

21 時間:

Apache Spark MLlib

35 時間:

Big Data Analytics in Health

21 時間:

Hadoop and Spark for Administrators

35 時間:

Hortonworks Data Platform (HDP) for Administrators

21 時間:

A Practical Introduction to Stream Processing

21 時間:

Magellan: Geospatial Analytics on Spark

14 時間:

Apache Spark for .NET Developers

21 時間:

SMACK Stack for Data Science

14 時間:

Apache Spark Fundamentals

21 時間:

Administration of Apache Spark

35 時間:

Apache Spark in the Cloud

21 時間:

Scaling Data Pipelines with Spark NLP

14 時間:

課程分類