Apache Airflow 用於 Data Science:自動化 Machine Learning 管道培訓
Apache Airflow 是一個開源平臺,用於編排工作流和自動化複雜的數據管道。
本課程由講師主導,採用線上或線下培訓形式,面向希望自動化和管理機器學習工作流的中級參與者,包括使用 Apache Airflow 進行模型訓練、驗證和部署。
在本培訓結束時,參與者將能夠:
- 爲機器學習工作流編排設置 Apache Airflow。
- 自動化數據預處理、模型訓練和驗證任務。
- 將 Airflow 與機器學習框架和工具集成。
- 使用自動化管道部署機器學習模型。
- 監控和優化生產中的機器學習工作流。
課程形式
- 互動講座和討論。
- 大量練習和實踐。
- 在即時實驗室環境中進行動手實踐。
課程定製選項
- 如需爲本課程定製培訓,請聯繫我們安排。
課程簡介
Apache Airflow機器學習入門
- Apache Airflow概述及其在數據科學中的重要性
- 自動化機器學習工作流的關鍵功能
- 爲數據科學項目設置Airflow
使用Airflow構建機器學習管道
- 設計端到端機器學習工作流的DAGs
- 使用操作符進行數據攝取、預處理和特徵工程
- 調度和管理管道依賴關係
模型訓練與驗證
- 使用Airflow自動化模型訓練任務
- 將Airflow與機器學習框架(如TensorFlow、PyTorch)集成
- 驗證模型並存儲評估指標
模型部署與監控
- 使用自動化管道部署機器學習模型
- 使用Airflow任務監控已部署的模型
- 處理重新訓練和模型更新
高級定製與集成
- 開發用於機器學習任務的定製操作符
- 將Airflow與雲平臺和機器學習服務集成
- 使用插件和傳感器擴展Airflow工作流
優化與擴展機器學習管道
- 提高大規模數據的工作流性能
- 使用Celery和Kubernetes擴展Airflow部署
- 生產級機器學習工作流的最佳實踐
案例研究與實際應用
- 使用Airflow進行機器學習自動化的實際案例
- 實踐練習:構建端到端機器學習管道
- 討論機器學習工作流管理中的挑戰與解決方案
總結與下一步
最低要求
- 熟悉機器學習工作流和概念
- 對Apache Airflow的基本瞭解,包括DAG和操作符
- 熟練掌握Python編程
受衆
- 數據科學家
- 機器學習工程師
- AI開發者
需要幫助選擇合適的課程嗎?
Apache Airflow 用於 Data Science:自動化 Machine Learning 管道培訓 - 詢問
相關課程
AdaBoost Python 機器學習
14 時間:本課程爲講師主導的培訓,在 澳門(線上或線下)進行,面向希望使用 AdaBoost 構建機器學習提升算法的數據科學家和軟件工程師。
通過本培訓,參與者將能夠:
- 設置必要的開發環境,開始使用 AdaBoost 構建機器學習模型。
- 理解集成學習方法,並掌握如何實現自適應提升。
- 學習如何使用 AdaBoost 模型提升 Python 中的機器學習算法。
- 使用超參數調優,提高 AdaBoost 模型的準確性和性能。
Anaconda 數據科學家生態系統
14 時間:這種由 講師指導的 澳門 現場培訓(在線或現場)面向希望使用 Anaconda 生態系統在單一平臺中捕獲、管理和部署軟體包和數據分析工作流 的數據科學家。
在本次培訓結束時,參與者將能夠:
- 安裝和配置 Anaconda 個元件和庫。
- 瞭解 Anaconda 的核心概念、功能和優勢。
- 使用 Anaconda Navigator 管理包、環境和頻道。
- 將 Conda、R 和 Python 包用於數據科學和機器學習。
- 瞭解管理多個數據環境的一些實際使用案例和技術。
AutoML 與 Auto-Keras
14 時間:這種由 澳門 的講師指導式現場培訓(在線或現場)面向數據科學家以及希望使用 Auto-Keras 來自動化選擇和優化機器學習模型過程的技術人員。
在本次培訓結束時,參與者將能夠:
- 自動執行高效機器學習模型的訓練過程。
- 自動搜索深度學習模型的最佳參數。
- 構建高度準確的機器學習模型。
- 利用機器學習的強大功能解決實際業務問題。
使用Google AutoML創建自定義聊天機器人
14 時間:這種以講師為主導的澳門(在線或現場)現場培訓面向具有不同專業水平的參與者,他們希望利用 Google 的 AutoML 平臺為各種應用程式構建定製的聊天機器人。
在培訓結束時,參與者將能夠:
- 瞭解聊天機器人開發的基礎知識。
- 流覽 Google 雲平臺並訪問 AutoML。
- 為訓練聊天機器人模型準備數據。
- 使用 AutoML 訓練和評估自定義聊天機器人模型。
- 將聊天機器人部署並整合到各種平台和管道中。
- 隨時間推移監控和優化聊天機器人性能。
Pattern Recognition
21 時間:這門由講師指導的澳門(線上或線下)培訓課程,介紹了模式識別和機器學習的領域,並涵蓋了統計學、計算機科學、信號處理、計算機視覺、數據挖掘和生物信息學中的實際應用。
通過本培訓,參與者將能夠:
- 應用核心統計方法於模式識別。
- 使用神經網絡和核方法等關鍵模型進行數據分析。
- 實施高級技術以解決複雜問題。
- 通過結合不同模型來提高預測準確性。
DataRobot
7 時間:這種由 講師指導的 澳門 現場培訓(在線或現場)面向希望使用 DataRobot 的機器學習功能自動化、評估和管理預測模型的數據科學家和數據分析師。
在本次培訓結束時,參與者將能夠:
- 在 DataRobot 中載入數據集以分析、評估和品質檢查數據。
- 構建和訓練模型以識別重要變數並滿足預測目標。
- 解釋模型以創建有助於做出業務決策的寶貴見解。
- 監控和管理模型以保持優化的預測性能。
Google Cloud AutoML
7 時間:這種講師指導的 澳門 現場培訓(在線或現場)面向數據科學家、數據分析師和開發人員,他們希望探索 AutoML 產品和功能,以最少的工作量創建和部署自定義 ML 訓練模型。
在本次培訓結束時,參與者將能夠:
- 探索 AutoML 產品線,為各種數據類型實施不同的服務。
- 準備和標記數據集以創建自定義 ML 模型。
- 訓練和管理模型以生成準確、公平的機器學習模型。
- 使用經過訓練的模型進行預測,以滿足業務目標和需求。
Kaggle
14 時間:這個由 講師指導的 澳門 現場培訓(在線或現場)面向希望在 Data Science 中使用 Kaggle 學習和建立職業生涯的數據科學家和開發人員。
在本次培訓結束時,參與者將能夠:
- 了解數據科學和機器學習。
- 探索數據分析。
- 瞭解 Kaggle 及其工作原理。
使用Google ML Kit進行移動apps的機器學習
14 時間:本課程爲講師指導的(線上或線下)培訓,面向希望使用Google的ML Kit構建專爲移動設備優化的機器學習模型的開發者。
培訓結束後,學員將能夠:
- 設置必要的開發環境,開始爲移動apps開發機器學習功能。
- 使用ML Kit API將新的機器學習技術集成到Android和iOS apps中。
- 使用ML Kit SDK增強和優化現有apps,進行設備端處理和部署。
使用Modin加速Python Pandas工作流
14 時間:這種由 講師指導的 澳門 現場現場培訓(在線或現場)面向希望使用 Modin 構建和實施並行計算的數據科學家和開發人員 Pandas 以加快數據分析速度。
在本次培訓結束時,參與者將能夠:
- 設置必要的環境,開始使用 Modin 大規模開發 Pandas 工作流。
- 瞭解 Modin 的功能、架構和優勢。
- 瞭解 Modin、Dask 和 Ray 之間的區別。
- 使用 Modin 更快地執行 Pandas 操作。
- 實現整個 Pandas API 和函數。
使用隨機森林進行機器學習
14 時間:本課程爲講師指導的培訓,在澳門(線上或線下)進行,面向希望使用隨機森林爲大型數據集構建機器學習算法的數據科學家和軟件工程師。
在本培訓結束時,參與者將能夠:
- 設置必要的開發環境,開始使用隨機森林構建機器學習模型。
- 瞭解隨機森林的優勢,以及如何應用它來解決分類和迴歸問題。
- 學習如何處理大型數據集,並解釋隨機森林中的多個決策樹。
- 通過調整超參數來評估和優化機器學習模型的性能。
高級分析使用RapidMiner
14 時間:此講師指導的 澳門 現場培訓(在線或現場)面向 希望學習如何使用 RapidMiner 估計和預測值並利用分析工具進行時間序列預測的中級數據分析師。
在本次培訓結束時,參與者將能夠:
- 學習應用 CRISP-DM 方法,選擇合適的機器學習演算法,並增強模型構建和性能。
- 使用 RapidMiner 估計和預測值,並利用分析工具進行時間序列預測。
RapidMiner 用於機器學習和預測分析
14 時間:RapidMiner 是一個開源數據科學軟體平臺,用於快速應用程式原型設計和開發。它包括用於數據準備、機器學習、深度學習、文本挖掘和預測分析的集成環境。
在這個由講師指導的實時培訓中,參與者將學習如何使用 RapidMiner Studio 進行數據準備、機器學習和預測模型部署。
在本次培訓結束時,參與者將能夠:
- 安裝與設定RapidMiner
- 使用 RapidMiner 準備和可視化數據
- 驗證機器學習模型
- 混搭數據並創建預測模型
- 在業務流程中實施預測分析
- 故障排除和優化 RapidMiner
觀眾
- 數據科學家
- 工程師
- 開發人員
課程形式
- 部分講座、部分討論、練習和大量動手實踐
注意
- 要申請本課程的定製培訓,請聯繫我們進行安排。
GPU數據科學之NVIDIA RAPIDS
14 時間:本次由講師指導的線下或線上培訓,面向希望使用RAPIDS構建GPU加速的數據管道、工作流和可視化的數據科學家和開發者,應用如XGBoost、cuML等機器學習算法。
培訓結束後,參與者將能夠:
- 設置必要的開發環境,使用NVIDIA RAPIDS構建數據模型。
- 瞭解RAPIDS的特性、組件和優勢。
- 利用GPU加速端到端的數據和分析管道。
- 使用cuDF和Apache Arrow實現GPU加速的數據準備和ETL。
- 學習如何使用XGBoost和cuML算法執行機器學習任務。
- 使用cuXfilter和cuGraph構建數據可視化並執行圖分析。