A Practical Introduction to Stream Processing培訓
Stream Processing指的是“運動中的數據”的實時處理,即,在接收數據時對數據執行計算。這些數據被讀取為來自數據源的連續流,例如傳感器事件,網站用戶活動,金融交易,信用卡刷卡,點擊流等。 Stream Processing框架能夠讀取大量傳入數據並幾乎立即提供有價值的見解。
在這個以講師為主導的現場培訓(現場或遠程)中,參與者將學習如何使用現有的大數據存儲系統和相關的軟件應用程序和微服務來設置和集成不同的Stream Processing框架。
在培訓結束時,參與者將能夠:
- 安裝和配置不同的Stream Processing框架,例如Spark Streaming和Kafka Streaming。
- 理解並選擇最合適的工作框架。
- 數據處理連續,同時,並以逐個記錄的方式進行。
- 將Stream Processing解決方案與現有數據庫,數據倉庫,數據湖等集成。
- 將最合適的流處理庫與企業應用程序和微服務集成在一起。
聽眾
- 開發商
- 軟件架構師
課程 格式
- 部分講座,部分討論,練習和繁重的實踐練習
筆記
- 要申請本課程的定制培訓,請聯繫我們安排。
課程簡介
介紹
- 流處理與批處理
- 以分析為中心的流處理
概述框架和 Programming 語言
- Spark Streaming (斯卡拉)
- Kafka 流式處理 (Java)
- Flink
- 風暴
- 各框架的特點和優勢比較
數據源概述
- 實時數據作為隨時間變化的一系列事件
- 歷史數據源
部署選項
- 在雲端端中(AWS等)
- 本地(私有雲等)
開始
- 設置開發環境
- 安裝和配置
- 評估您的 Data Analysis 需求
操作流式處理框架
- 將流式處理框架與大數據工具集成
- 事件 Stream Processing (ESP) 與複雜事件處理 (CEP)
- 轉換輸入數據
- 檢查輸出數據
- 將 Stream Processing 框架與現有應用程式和微服務集成
故障排除
總結和結論
最低要求
- Programming 任何語言的經驗
- 了解大數據概念(Hadoop等)
需要幫助選擇合適的課程嗎?
A Practical Introduction to Stream Processing培訓 - Enquiry
A Practical Introduction to Stream Processing - 咨詢詢問
咨詢詢問
客戶評論 (1)
Sufficient hands on, trainer is knowledgable
Chris Tan
Course - A Practical Introduction to Stream Processing
相關課程
Administration of Confluent Apache Kafka
21 時間:Confluent Apache Kafka 是一個分佈式事件流平台,專為高吞吐量、容錯的數據管道和即時分析而設計。
這是一個由講師主導的培訓(線上或線下),針對中級系統管理員和DevOps專業人士,他們希望安裝、配置、監控和排查Confluent Apache Kafka集群。
培訓結束時,參與者將能夠:
- 理解Confluent Kafka的組件和架構。
- 部署和管理Kafka代理、Zookeeper仲裁和關鍵服務。
- 配置高級功能,包括安全性、複製和性能調優。
- 使用管理工具監控和維護Kafka集群。
課程形式
- 互動式講座和討論。
- 大量練習和實踐。
- 在實時實驗室環境中進行實踐操作。
課程定制選項
- 如需為此課程定制培訓,請聯繫我們安排。
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 時間:本課程面向希望在其應用程式中理解和實施人工智慧的開發人員和數據科學家。特別關注數據分析、分散式人工智慧和自然語言處理。
Unified Batch and Stream Processing with Apache Beam
14 時間:Apache Beam 是一個開源的統一程式設計模型,用於定義和執行並行數據處理管道。它的強大之處在於它能夠同時運行批處理和流式管道,執行由 Beam 支援的分散式處理後端之一執行:Apache Apex、Apache Flink、Apache Spark 和 Google Cloud Dataflow。Apache Beam 對於 ETL(提取、轉換和載入)任務非常有用,例如在不同的存儲介質和數據源之間移動數據、將數據轉換為更理想的格式以及將數據載入到新系統。
在這個由講師指導的現場培訓(現場或遠端)中,參與者將學習如何在 Java 或 Python 應用程式中實施 Apache Beam SDK,該應用程式定義了一個數據處理管道,用於將大數據集分解成更小的塊,以進行獨立的並行處理。
在本次培訓結束時,參與者將能夠:
- 安裝和配置 Apache Beam。
- 使用單個程式設計模型從其 Java 或 Python 應用程式執行批處理和流處理。
- 跨多個環境執行管道。
課程形式
- 部分講座、部分討論、練習和大量動手實踐
注意
- 本課程將在未來提供 Scala。請聯繫我們安排。
Building Kafka Solutions with Confluent
14 時間:這是一個由講師指導的培訓課程(線上或線下),旨在幫助工程師使用Confluent(Kafka的分發版本)來構建和管理實時數據處理平台,以滿足其應用需求。
在培訓結束時,參與者將能夠:
- 安裝和配置Confluent Platform。
- 使用Confluent的管理工具和服務,更輕鬆地運行Kafka。
- 存儲和處理流入的串流數據。
- 優化和管理Kafka集群。
- 確保數據串流的安全性。
課程形式
- 互動式講座和討論。
- 大量的練習和實踐。
- 在實時實驗室環境中進行動手操作。
課程定制選項
- 本課程基於Confluent的開源版本:Confluent Open Source。
- 如需為本課程定制培訓,請聯繫我們安排。
Flink for Scalable Stream and Batch Data Processing
28 時間:這個由 澳門 的講師指導式現場培訓(在線或現場)介紹了分散式流和批處理數據處理背後的原理和方法,並引導參與者在 Apache Flink 中創建實時數據流應用程式。
在本次培訓結束時,參與者將能夠:
- 設置用於開發數據分析應用程式的環境。
- 瞭解 Apache Flink 的 圖形處理庫 (Gelly) 的工作原理。
- 打包、執行和監控基於 Flink 的容錯數據流應用程式。
- 管理各種工作負載。
- 執行高級分析。
- 設置多節點 Flink 集群。
- 衡量和優化性能。
- 將 Flink 與不同的 Big Data 系統集成。
- 將 Flink 功能與其他大數據處理框架的功能進行比較。
Introduction to Graph Computing
28 時間:在這個由 澳門 的講師指導式現場培訓中,參與者將瞭解用於處理圖形數據的技術產品和實施方法。目的是識別現實世界的物件、它們的特徵和關係,然後對這些關係進行建模,並使用 Graph Computing(也稱為圖形分析)方法將它們作為數據處理。我們從廣泛的概述開始,然後逐步完成一系列案例研究、動手練習和即時部署,然後縮小具體工具的範圍。
在本次培訓結束時,參與者將能夠:
- 瞭解如何持久保存和遍歷圖形數據。
- 為給定任務選擇最佳框架(從圖形資料庫到批處理框架)。
- 實現 Hadoop、Spark GraphX 和 Pregel 以跨多台機器並行執行圖計算。
- 從圖形、流程和遍歷的角度查看真實的大數據問題。
Apache Kafka for Python Programmers
7 時間:這種以講師為主導的澳門現場培訓(現場或遠端)針對數據工程師,數據科學家和程式師,他們希望在數據流中使用Apache Kafka功能Python。
在本次培訓結束時,參與者將能夠使用 Apache Kafka 通過 Python 程式設計來監控和管理連續數據流中的條件。
Building Stream Processing Applications with Kafka Streams
7 時間:Kafka Streams 是一個客戶端庫,用於構建應用程序和微服務,其數據在 Kafka 消息系統之間傳遞。傳統上,Apache Kafka 依賴於 Apache Spark 或 Apache Storm 來處理消息生產者和消費者之間的數據。通過在應用程序中調用 Kafka Streams API,數據可以直接在 Kafka 中進行處理,從而避免了將數據發送到單獨的集群進行處理的需求。
在這場由講師指導的線下培訓中,參與者將學習如何將 Kafka Streams 集成到一組示例 Java 應用程序中,這些應用程序在 Apache Kafka 之間傳遞數據以進行流處理。
在培訓結束時,參與者將能夠:
- 了解 Kafka Streams 的功能及其相較於其他流處理框架的優勢
- 直接在 Kafka 集群中處理流數據
- 編寫與 Kafka 和 Kafka Streams 集成的 Java 或 Scala 應用程序或微服務
- 編寫簡潔的代碼,將輸入的 Kafka 主題轉換為輸出的 Kafka 主題
- 構建、打包並部署應用程序
目標受眾
- 開發人員
課程形式
- 部分講座、部分討論、練習和大量動手實踐
注意事項
- 如需為本課程定制培訓,請聯繫我們安排
Confluent KSQL
7 時間:這個由 講師指導的 澳門 現場培訓(在線或現場)面向希望在不編寫代碼的情況下實現 Apache Kafka 流處理的開發人員。
在本次培訓結束時,參與者將能夠:
- 安裝和配置 Confluent KSQL。
- 僅使用 SQL 命令(無 Java 或 Python 編碼)設置流處理管道。
- 完全在 SQL 中執行數據過濾、轉換、聚合、連接、視窗化和會話化。
- 為流式 ETL 和即時分析設計和部署互動式連續查詢。
Apache NiFi for Administrators
21 時間:在這個以講師為主導的澳門現場或遠端培訓中,參與者將學習如何在實時實驗室環境中部署和管理Apache NiFi。
在培訓結束時,參與者將能夠:
- 安裝並配置 Apachi NiFi。
- 從不同的分散式數據源(包括資料庫和大數據湖)中獲取、轉換和管理數據。
- 自動化數據流。
- 啟用流分析。
- 應用各種方法進行數據引入。
- 轉換 Big Data 並轉化為業務洞察。
Apache NiFi for Developers
7 時間:在這個由講師指導的 澳門 現場培訓中,參與者將學習基於流程的程式設計的基礎知識,因為他們使用 Apache NiFi 開發許多演示擴展、元件和處理器。
在培訓結束時,參與者將能夠:
- 瞭解 NiFi 的架構和數據流概念。
- 使用 NiFi 和第三方 API 開發擴展。
- 定製開發自己的Apache Nifi處理器。
- 從不同和不常見的檔格式和數據源中攝取和處理實時數據。
Python and Spark for Big Data (PySpark)
21 時間:在這個由講師指導的 澳門 現場培訓中,參與者將學習如何在動手練習中同時使用 Python 和 Spark 來分析大數據。
在培訓結束時,參與者將能夠:
- 瞭解如何將Spark與 Python 結合使用來分析 Big Data。
- 進行模仿真實世界案例的練習。
- 使用 PySpark 使用不同的工具和技術進行大數據分析。
Spark Streaming with Python and Kafka
7 時間:這種以講師為主導的澳門現場培訓(現場或遠端)針對希望使用Spark Streaming功能處理和分析即時數據的數據工程師,數據科學家和程式師。
在本次培訓結束時,參與者將能夠使用 Spark Streaming 處理實時數據流,以便在資料庫、文件系統和即時儀錶板中使用。
Apache Spark MLlib
35 時間:MLlib是Spark的機器學習(ML)庫。其目標是使實用的機器學習可擴展且簡單。它由常見的學習算法和實用程序組成,包括分類,回歸,聚類,協同過濾,降維,以及低級優化原語和更高級別的管道API。
它分為兩個包:
spark.mllib包含在RDD之上構建的原始API。
spark.ml提供了構建在DataFrame之上的更高級API,用於構建ML管道。
聽眾
本課程面向希望利用Apache Spark內置機器庫的工程師和開發人員
Stratio: Rocket and Intelligence Modules with PySpark
14 時間:Stratio 是一個以數據為中心的平台,將大數據、人工智慧和治理整合到單一解決方案中。其 Rocket 和 Intelligence 模組使企業環境中的數據探索、轉換和高級分析變得迅速。
這是一個由講師指導的培訓(線上或線下),針對希望有效使用 Stratio 中 Rocket 和 Intelligence 模組的中級數據專業人員,重點關注循環結構、用戶自定義函數和高級數據邏輯。
在培訓結束時,參與者將能夠:
- 使用 Rocket 和 Intelligence 模組在 Stratio 平台中導航和工作。
- 在數據擷取、轉換和分析的背景下應用 PySpark。
- 使用循環和條件邏輯來控制數據工作流和特徵工程任務。
- 創建和管理用戶自定義函數 (UDFs),以在 PySpark 中進行可重用的數據操作。
課程形式
- 互動式講座和討論。
- 大量練習和實踐。
- 在實時實驗室環境中進行實踐操作。
課程定制選項
- 如需為此課程請求定制培訓,請聯繫我們安排。