SMACK Stack 數據科學培訓
SMACK 是一組數據平臺軟件,包括 Apache Spark、Apache Mesos、Apache Akka、Apache Cassandra 和 Apache Kafka。使用 SMACK 技術棧,用戶可以創建和擴展數據處理平臺。
本次講師指導的培訓(線上或線下)面向希望使用 SMACK 技術棧構建大數據解決方案的數據科學家。
培訓結束後,參與者將能夠:
- 實現用於處理大數據的數據管道架構。
- 使用 Apache Mesos 和 Docker 開發集羣基礎設施。
- 使用 Spark 和 Scala 分析數據。
- 使用 Apache Cassandra 管理非結構化數據。
課程形式
- 互動講座和討論。
- 大量練習和實踐。
- 在即時實驗室環境中動手操作。
課程定製選項
- 如需定製本課程,請聯繫我們安排。
課程簡介
介紹
SMACK 技術棧概述
- 什麼是 Apache Spark?Apache Spark 的特性。
- 什麼是 Apache Mesos?Apache Mesos 的特性。
- 什麼是 Apache Akka?Apache Akka 的特性。
- 什麼是 Apache Cassandra?Apache Cassandra 的特性。
- 什麼是 Apache Kafka?Apache Kafka 的特性。
Scala 語言
- Scala 語法和結構。
- Scala 控制流。
準備開發環境
- 安裝和配置 SMACK 技術棧。
- 安裝和配置 Docker。
Apache Akka
- 使用 actors。
Apache Cassandra
- 創建用於讀取操作的數據庫。
- 處理備份和恢復。
連接器
- 創建流。
- 構建 Akka 應用。
- 使用 Cassandra 存儲數據。
- 回顧連接器。
Apache Kafka
- 處理集羣。
- 創建、發佈和消費消息。
Apache Mesos
- 分配資源。
- 運行集羣。
- 使用 Apache Aurora 和 Docker。
- 運行服務和作業。
- 在 Mesos 上部署 Spark、Cassandra 和 Kafka。
Apache Spark
- 管理數據流。
- 處理 RDD 和數據幀。
- 執行數據分析。
故障排除
- 處理服務故障和錯誤。
總結與結論
最低要求
- 對數據處理系統的理解。
受衆
- 數據科學家。
需要幫助選擇合適的課程嗎?
SMACK Stack 數據科學培訓 - 詢問
SMACK Stack 數據科學 - 咨詢詢問
客戶評論 (1)
非常互動...
Richard Langford
課程 - SMACK Stack for Data Science
機器翻譯
相關課程
Apache Airflow 用於 Data Science:自動化 Machine Learning 管道
21 小時本次由講師指導的培訓(線上或線下)面向中級參與者,旨在幫助他們使用Apache Airflow自動化和管理機器學習工作流,包括模型訓練、驗證和部署。
培訓結束後,參與者將能夠:
- 設置Apache Airflow以進行機器學習工作流編排。
- 自動化數據預處理、模型訓練和驗證任務。
- 將Airflow與機器學習框架和工具集成。
- 使用自動化管道部署機器學習模型。
- 監控和優化生產中的機器學習工作流。
Anaconda 數據科學家生態系統
14 小時這種由 講師指導的 澳門 現場培訓(在線或現場)面向希望使用 Anaconda 生態系統在單一平臺中捕獲、管理和部署軟體包和數據分析工作流 的數據科學家。
在本次培訓結束時,參與者將能夠:
- 安裝和配置 Anaconda 個元件和庫。
- 瞭解 Anaconda 的核心概念、功能和優勢。
- 使用 Anaconda Navigator 管理包、環境和頻道。
- 將 Conda、R 和 Python 包用於數據科學和機器學習。
- 瞭解管理多個數據環境的一些實際使用案例和技術。
AWS Cloud9 數據科學應用
28 小時本課程爲講師指導的培訓,在 澳門(線上或線下)進行,面向希望使用 AWS Cloud9 簡化數據科學工作流程的中級數據科學家和分析師。
培訓結束後,參與者將能夠:
- 在 AWS Cloud9 中設置數據科學環境。
- 在 Cloud9 中使用 Python、R 和 Jupyter Notebook 進行數據分析。
- 將 AWS Cloud9 與 AWS 數據服務(如 S3、RDS 和 Redshift)集成。
- 使用 AWS Cloud9 進行機器學習模型的開發和部署。
- 優化基於雲的數據分析和處理工作流程。
Google Colab 數據科學入門
14 小時本次由講師主導的培訓在澳門(線上或線下)進行,面向初學者級別的數據科學家和 IT 專業人士,旨在幫助他們學習使用 Google Colab 進行數據科學的基礎知識。
在培訓結束後,參與者將能夠:
- 設置和導航 Google Colab。
- 編寫和執行基本的 Python 代碼。
- 導入和處理數據集。
- 使用 Python 庫創建可視化。
A Practical Introduction to Data Science
35 小時完成本培訓的學員將獲得對數據科學及其相關技術、方法和工具的實踐性、現實世界的理解。
學員將有機會通過動手練習將所學知識付諸實踐。小組互動和講師反饋是課程的重要組成部分。
課程從數據科學的基本概念介紹開始,然後逐步深入數據科學中使用的工具和方法。
受衆
- 開發者
- 技術分析師
- IT顧問
課程形式
- 部分講座,部分討論,練習和大量動手實踐
注意
- 如需爲此課程定製培訓,請聯繫我們安排。
Data Science Programme
245 小時当今世界信息和数据的爆炸式增长是无与伦比的,我们创新和突破可能性的能力比以往任何时候都快。数据科学家的角色是当今整个行业最需要的技能之一。
我们提供的不仅仅是通过理论学习;我们提供实用的、适销对路的技能,弥合学术界与工业界需求之间的差距。
这个为期 7 周的课程 可以根据您的特定行业要求进行定制,请联系我们了解更多信息或访问 Nobleprog Institute 网站
观众:
该课程面向研究生以及任何具有所需必备技能的人 ,这些技能将通过评估和面试确定。
交货:
该课程的交付将采用讲师指导的课堂和讲师 指导的在线课程;通常,第 1 周是“课堂主导”,第 2 周 - 第 6 周是“虚拟课堂”,第 7 周是“课堂主导”。
Data Science for Big Data Analytics
35 小時大數據是如此龐大和復雜的數據集,傳統的數據處理應用軟件不足以處理它們。大數據挑戰包括捕獲數據,數據存儲,數據分析,搜索,共享,傳輸,可視化,查詢,更新和信息隱私。
Data Science essential for Marketing/Sales professionals
21 小時本課程面向市場營銷和銷售專業人士,旨在深入探討數據科學在市場營銷和銷售中的應用。課程詳細介紹了用於“向上銷售”、“交叉銷售”、市場細分、品牌建設和客戶終身價值(CLV)的各種數據科學技術。
市場營銷與銷售的區別 - 銷售和市場營銷有何不同?
簡單來說,銷售可以被視爲一個專注於個人或小羣體的過程。而市場營銷則針對更大的羣體或公衆。市場營銷包括研究(識別客戶需求)、產品開發(生產創新產品)和產品推廣(通過廣告)以及在消費者中建立產品意識。因此,市場營銷意味着生成潛在客戶或線索。一旦產品進入市場,銷售人員的工作就是說服客戶購買產品。銷售意味着將潛在客戶或線索轉化爲購買和訂單,而市場營銷則着眼於長期目標,銷售則與短期目標相關。
Kaggle
14 小時這個由 講師指導的 澳門 現場培訓(在線或現場)面向希望在 Data Science 中使用 Kaggle 學習和建立職業生涯的數據科學家和開發人員。
在本次培訓結束時,參與者將能夠:
- 了解數據科學和機器學習。
- 探索數據分析。
- 瞭解 Kaggle 及其工作原理。
使用Modin加速Python Pandas工作流
14 小時這種由 講師指導的 澳門 現場現場培訓(在線或現場)面向希望使用 Modin 構建和實施並行計算的數據科學家和開發人員 Pandas 以加快數據分析速度。
在本次培訓結束時,參與者將能夠:
- 設置必要的環境,開始使用 Modin 大規模開發 Pandas 工作流。
- 瞭解 Modin 的功能、架構和優勢。
- 瞭解 Modin、Dask 和 Ray 之間的區別。
- 使用 Modin 更快地執行 Pandas 操作。
- 實現整個 Pandas API 和函數。
PySpark and Machine Learning
21 小時This training provides a practical introduction to building scalable data processing and Machine Learning workflows using PySpark. Participants learn how Apache Spark operates within modern Big Data ecosystems and how to efficiently process large datasets using distributed computing principles.
GPU數據科學之NVIDIA RAPIDS
14 小時本次由講師指導的線下或線上培訓,面向希望使用RAPIDS構建GPU加速的數據管道、工作流和可視化的數據科學家和開發者,應用如XGBoost、cuML等機器學習算法。
培訓結束後,參與者將能夠:
- 設置必要的開發環境,使用NVIDIA RAPIDS構建數據模型。
- 瞭解RAPIDS的特性、組件和優勢。
- 利用GPU加速端到端的數據和分析管道。
- 使用cuDF和Apache Arrow實現GPU加速的數據準備和ETL。
- 學習如何使用XGBoost和cuML算法執行機器學習任務。
- 使用cuXfilter和cuGraph構建數據可視化並執行圖分析。
Python與Spark大數據分析(PySpark)
21 小時在這個由講師指導的 澳門 現場培訓中,參與者將學習如何在動手練習中同時使用 Python 和 Spark 來分析大數據。
在培訓結束時,參與者將能夠:
- 瞭解如何將Spark與 Python 結合使用來分析 Big Data。
- 進行模仿真實世界案例的練習。
- 使用 PySpark 使用不同的工具和技術進行大數據分析。
Stratio: 使用PySpark的Rocket與Intelligence模塊
14 小時Stratio是一個以數據爲中心的平臺,集成了大數據、人工智能和治理功能,提供一體化解決方案。其Rocket和Intelligence模塊支持在企業環境中快速進行數據探索、轉換和高級分析。
本次由講師指導的培訓(線上或線下)面向中級數據專業人員,旨在幫助他們有效使用Stratio中的Rocket和Intelligence模塊與PySpark,重點涵蓋循環結構、用戶自定義函數和高級數據邏輯。
培訓結束後,參與者將能夠:
- 在Stratio平臺中導航並使用Rocket和Intelligence模塊。
- 在數據攝取、轉換和分析中應用PySpark。
- 使用循環和條件邏輯控制數據工作流和特徵工程任務。
- 創建並管理用戶自定義函數(UDFs),以在PySpark中實現可重用的數據操作。
課程形式
- 互動式講座與討論。
- 大量練習與實踐。
- 在即時實驗室環境中進行動手操作。
課程定製選項
- 如需爲本課程定製培訓,請聯繫我們安排。