課程簡介
第 1 部分:Hadoop 簡介
- Hadoop 歷史與概念
- 生態系統
- 分佈
- 高層架構
- Hadoop 迷思
- Hadoop 挑戰
- 硬體 / 軟體
- 實驗室:初次接觸 Hadoop
第 2 部分:HDFS
- 設計與架構
- 概念(水平擴展、複製、數據本地性、機架感知)
- 守護進程:Namenode、Secondary namenode、Data node
- 通信 / 心跳
- 數據完整性
- 讀取 / 寫入路徑
- Namenode 高可用性(HA)、聯邦
- 實驗室:與 HDFS 互動
第 3 部分 : 映射縮減
- 概念和架構
- 守護進程 (MRV1):JobTracker / TaskTracker
- 階段:驅動程式、映射器、隨機排序/排序、Reducer
- Map Reduce 版本 1 和版本 2 (YARN)
- Map Reduce 的內部結構
- Java Map Reduce 程式簡介
- labs : 執行範例 MapReduce 程式
第4部分:豬
- pig 與 java map reduce
- Pig 任務流程
- 豬拉丁語
- 使用 Pig 的 ETL
- 轉換與連接
- 使用者定義函數 (UDF)
- 實驗室 : 編寫 Pig 腳本來分析數據
第 5 部分:Hive
- 建築與設計
- 數據類型
- SQL Hive 中的支援
- 創建 Hive 表和查詢
- 分區
- 加入
- 文本處理
- 實驗室 : 使用 Hive 處理資料的各種實驗室
第 6 部分:HBase
- 概念與架構
- HBase vs RDBMS vs Cassandra
- HBase Java API
- HBase 上的時間序列數據
- 模式設計
- 實驗室:使用 shell 與 HBase 互動;使用 HBase Java API 進行編程;模式設計練習
最低要求
- 熟悉Java编程语言(大多数编程练习使用Java)
- 熟悉Linux环境(能够使用Linux命令行,使用vi / nano编辑文件)
实验环境
零安装:无需在学生机器上安装Hadoop软件!将为学生提供一个可用的Hadoop集群。
学生需要准备以下内容
- SSH客户端(Linux和Mac已自带ssh客户端,Windows推荐使用Putty)
- 用于访问集群的浏览器,推荐使用Firefox
客戶評論 (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Course - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Course - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Course - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Course - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay