Talend大數據集成培訓
Talend Open Studio for Big Data是一款開源的ETL工具,用於處理大數據。它包含一個開發環境,可以與大數據源和目標進行交互,並無需編寫代碼即可運行任務。
本課程爲講師指導的培訓(線上或線下),面向希望部署Talend Open Studio for Big Data以簡化大數據讀取和處理過程的技術人員。
在本培訓結束時,學員將能夠:
- 安裝和配置Talend Open Studio for Big Data。
- 連接Cloudera、HortonWorks、MapR、Amazon EMR和Apache等大數據系統。
- 理解並設置Open Studio的大數據組件和連接器。
- 配置參數以自動生成MapReduce代碼。
- 使用Open Studio的拖放界面運行Hadoop任務。
- 構建大數據管道原型。
- 自動化大數據集成項目。
課程形式
- 互動式講座和討論。
- 大量練習和實踐。
- 在即時實驗室環境中進行動手操作。
課程定製選項
- 如需爲本課程定製培訓,請聯繫我們安排。
課程簡介
介紹
"Open Studio for Big Data"功能與架構概述
設置Open Studio for Big Data
導航用戶界面
理解大數據組件和連接器
連接Hadoop集羣
讀寫數據
使用Hive和MapReduce處理數據
分析結果
提高大數據質量
構建大數據管道
管理用戶、組、角色和項目
將Open Studio部署到生產環境
監控Open Studio
故障排除
總結與結論
最低要求
- 瞭解關係數據庫
- 瞭解數據倉庫
- 瞭解ETL(提取、轉換、加載)概念
受衆
- 商業智能專業人員
- 數據庫專業人員
- SQL開發人員
- ETL開發人員
- 解決方案架構師
- 數據架構師
- 數據倉庫專業人員
- 系統管理員和集成人員
需要幫助選擇合適的課程嗎?
Talend大數據集成培訓 - 詢問
Talend大數據集成 - 咨詢詢問
客戶評論 (1)
實踐練習。課程本應爲5天,但3天的學習幫助我解決了在使用NiFi時遇到的許多問題。
James - BHG Financial
課程 - Apache NiFi for Administrators
機器翻譯
相關課程
Administrator Training for Apache Hadoop
35 小時受众:
本课程面向希望在分布式系统环境中存储和处理大规模数据集的IT专业人员。
Goal:
深入了解Hadoop集群管理。
使用Google Colab和Apache Spark進行大數據分析
14 小時本課程爲講師指導的培訓,在澳門(線上或線下)進行,面向希望使用Google Colab和Apache Spark進行大數據處理和分析的中級數據科學家和工程師。
通過本課程,學員將能夠:
- 使用Google Colab和Spark搭建大數據環境。
- 利用Apache Spark高效處理和分析大型數據集。
- 在協作環境中可視化大數據。
- 將Apache Spark與基於雲的工具集成。
Big Data Analytics in Health
21 小時大數據分析涉及檢查大量多樣化數據集的過程,以揭示相關性、隱藏模式和其他有用的見解。
健康行業擁有大量複雜的異構醫療和臨牀數據。將大數據分析應用於健康數據,在改善醫療保健服務方面具有巨大潛力。然而,這些數據集的龐大規模對分析和在臨牀環境中的實際應用提出了巨大挑戰。
在這個由講師指導的遠程培訓中,學員將通過一系列實踐操作練習,學習如何在健康領域進行大數據分析。
培訓結束後,學員將能夠:
- 安裝和配置大數據分析工具,如Hadoop MapReduce和Spark
- 理解醫療數據的特徵
- 應用大數據技術處理醫療數據
- 在健康應用的背景下研究大數據系統和算法
受衆
- 開發者
- 數據科學家
課程形式
- 部分講座,部分討論,練習和大量實踐操作。
注意
- 如需爲本課程定製培訓,請聯繫我們安排。
Hadoop 管理員培訓
21 小時Apache Hadoop 是最流行的用于在服务器集群上处理 Big Data 的框架。在这个为期三(可选四)天的课程中,学员将了解 Hadoop 及其生态系统的商业优势和用例,如何规划集群的部署和扩展,如何安装、维护、监控、故障排除和优化 Hadoop。他们还将练习集群批量数据加载,熟悉各种 Hadoop 发行版,并练习安装和管理 Hadoop 生态系统工具。课程最后将讨论如何使用 Kerberos 保护集群。
“……材料准备得非常充分,涵盖全面。实验室非常有帮助且组织有序。” — Andrew Nguyen, 首席集成数据仓库工程师, Microsoft 线上 Advertising
受众
Hadoop 管理员
形式
讲座与动手实验,大致比例为 60% 讲座,40% 实验。
Hadoop 開發者指南(四天)
28 小時Apache Hadoop是處理大數據最流行的框架,適用於服務器集羣。本課程將向開發者介紹Hadoop生態系統的各種組件(HDFS、MapReduce、Pig、Hive和HBase)。
高級 Hadoop 開發者指南(四天)
21 小時Apache Hadoop是最流行的框架之一,用於在服務器集羣上處理大數據。本課程深入探討HDFS中的數據管理、高級Pig、Hive和HBase。這些高級編程技術將對有經驗的Hadoop開發者非常有益。
受衆:開發者
時長:三天
形式:講座(50%)和動手實驗(50%)。
Hadoop 和 Spark 管理員培訓
35 小時這種由講師指導的澳門現場培訓(現場或遠端)針對的是希望學習如何在組織內設置,部署和管理Hadoop集群的系統管理員。
在培訓結束時,參與者將能夠:
- 安裝和配置 Apache Hadoop。
- 瞭解 Hadoop 生態系統中的四個主要元件:HDFS、MapReduce、YARN 和 Hadoop Common。
- 使用 Hadoop 分散式檔案系統 (HDFS) 將集群擴展到數百或數千個節點。
- 將 HDFS 設定為本地 Spark 部署的記憶體引擎。
- 設置 Spark 以存取替代儲存解決方案,例如 Amazon S3 和 NoSQL 資料庫系統,例如 Redis、Elasticsearch、Couchbase、Aerospike 等。
- 執行管理任務,例如配置、管理、監控和保護 Apache Hadoop 集群。
HBase 開發者課程
21 小時本課程介紹HBase——一個基於Hadoop的NoSQL存儲系統。本課程面向使用HBase開發應用程序的開發人員,以及管理HBase集羣的管理員。
我們將帶領開發人員瞭解HBase的架構、數據建模以及在HBase上進行應用程序開發。課程還將討論如何將MapReduce與HBase結合使用,以及一些與性能優化相關的管理主題。課程非常注重實踐,包含大量實驗練習。
時長:3天
受衆:開發人員和管理員
Apache NiFi for Administrators
21 小時Apache NiFi 是一個開源的、基於數據流的數據集成和事件處理平臺。它支持自動化的即時數據路由、轉換和系統中介,通過基於 Web 的用戶界面和細粒度的控制,連接不同的系統。
本次由講師主導的培訓(線下或遠程)面向中級管理員和工程師,旨在幫助他們部署、管理、保護和優化生產環境中的 NiFi 數據流。
培訓結束後,參與者將能夠:
- 安裝、配置和維護 Apache NiFi 集羣。
- 設計和管理來自不同源和目的地的數據流。
- 實現流的自動化、路由和轉換邏輯。
- 優化性能、監控操作並解決問題。
課程形式
- 互動講座,結合實際架構討論。
- 動手實驗:構建、部署和管理數據流。
- 在即時實驗室環境中進行基於場景的練習。
課程定製選項
- 如需定製本課程,請聯繫我們安排。
Apache NiFi for Developers
7 小時在這個由講師指導的 澳門 現場培訓中,參與者將學習基於流程的程式設計的基礎知識,因為他們使用 Apache NiFi 開發許多演示擴展、元件和處理器。
在培訓結束時,參與者將能夠:
- 瞭解 NiFi 的架構和數據流概念。
- 使用 NiFi 和第三方 API 開發擴展。
- 定製開發自己的Apache Nifi處理器。
- 從不同和不常見的檔格式和數據源中攝取和處理實時數據。
PySpark與機器學習
21 小時本培訓提供了一個實用的入門指南,介紹如何使用PySpark構建可擴展的數據處理和機器學習工作流。參與者將學習Apache Spark在現代大數據生態系統中的運作方式,以及如何利用分佈式計算原理高效處理大規模數據集。
Python與Spark大數據分析(PySpark)
21 小時在這個由講師指導的 澳門 現場培訓中,參與者將學習如何在動手練習中同時使用 Python 和 Spark 來分析大數據。
在培訓結束時,參與者將能夠:
- 瞭解如何將Spark與 Python 結合使用來分析 Big Data。
- 進行模仿真實世界案例的練習。
- 使用 PySpark 使用不同的工具和技術進行大數據分析。
Python、Spark和Hadoop在大數據中的應用
21 小時這種以講師為主導的澳門現場培訓(現場或遠端)針對希望使用和集成Spark,Hadoop和Python以處理,分析和轉換大型複雜數據集的開發人員。
在培訓結束時,參與者將能夠:
- 設置必要的環境以開始使用 Spark、Hadoop 和 Python 處理大數據。
- 瞭解 Spark 和 Hadoop 的功能、核心元件和架構。
- 瞭解如何集成 Spark、Hadoop 和 Python 進行大數據處理。
- 探索 Spark 生態系統中的工具(Spark MlLib、Spark Streaming、Kafka、Sqoop、Kafka 和 Flume)。
- 構建類似於 Netflix、YouTube、Amazon、Spotify 和 Google 的協作過濾推薦系統。
- 使用 Apache Mahout 擴展機器學習演算法。
Stratio: 使用PySpark的Rocket與Intelligence模塊
14 小時Stratio是一個以數據爲中心的平臺,集成了大數據、人工智能和治理功能,提供一體化解決方案。其Rocket和Intelligence模塊支持在企業環境中快速進行數據探索、轉換和高級分析。
本次由講師指導的培訓(線上或線下)面向中級數據專業人員,旨在幫助他們有效使用Stratio中的Rocket和Intelligence模塊與PySpark,重點涵蓋循環結構、用戶自定義函數和高級數據邏輯。
培訓結束後,參與者將能夠:
- 在Stratio平臺中導航並使用Rocket和Intelligence模塊。
- 在數據攝取、轉換和分析中應用PySpark。
- 使用循環和條件邏輯控制數據工作流和特徵工程任務。
- 創建並管理用戶自定義函數(UDFs),以在PySpark中實現可重用的數據操作。
課程形式
- 互動式講座與討論。
- 大量練習與實踐。
- 在即時實驗室環境中進行動手操作。
課程定製選項
- 如需爲本課程定製培訓,請聯繫我們安排。