課程簡介

介紹

安裝和配置Dataiku Data Science Studio(DSS)

  • Dataiku DSS的系統要求。
  • 設置Apache Hadoop和Apache Spark集成。
  • 配置Dataiku DSS與Web代理。
  • 從其他平臺遷移到Dataiku DSS。

Dataiku DSS功能和架構概述

  • Dataiku DSS的核心對象和圖表。
  • Dataiku DSS中的“recipe”是什麼?
  • Dataiku DSS支持的數據集類型。

創建Dataiku DSS項目

定義數據集以連接到Dataiku DSS中的數據資源

  • 使用DSS連接器和文件格式。
  • 標準DSS格式與Hadoop特定格式。
  • 爲Dataiku DSS項目上傳文件。

Dataiku DSS中的服務器文件系統概述

創建和使用管理文件夾

  • Dataiku DSS中的合併文件夾“recipe”。
  • 本地與非本地管理文件夾。

使用管理文件夾內容構建文件系統數據集

  • 使用DSS代碼“recipe”進行清理。

使用指標數據集和內部統計數據集

爲HTTP數據集實施DSS下載“recipe”

使用DSS重新定位SQL數據集和HDFS數據集

在Dataiku DSS中排序數據集

  • 寫入排序與讀取時間排序。

探索和準備Dataiku DSS項目的數據可視化

Dataiku模式、存儲類型和含義概述

在Dataiku DSS中執行數據清洗、規範化和豐富化腳本

使用Dataiku DSS圖表界面和視覺聚合類型

利用DSS的交互式統計功能

  • 單變量分析與雙變量分析。
  • 使用主成分分析(PCA)DSS工具。

Dataiku DSS中的機器學習概述

  • 監督學習與非監督學習。
  • DSS ML算法和功能處理的參考。
  • 使用Dataiku DSS進行深度學習。

DSS數據集和“recipe”生成的流程概述

使用視覺“recipe”轉換DSS中的現有數據集

使用基於用戶定義代碼的DSS“recipe”

使用DSS代碼筆記本優化代碼探索和實驗

使用Webapps編寫高級DSS可視化和自定義前端功能

使用Dataiku DSS代碼報告功能

共享數據項目元素並熟悉DSS儀表板

將Dataiku DSS項目設計和打包爲可重用應用程序

Dataiku DSS中的高級方法概述

  • 使用DSS實現優化數據集分區。
  • 通過Kubernetes容器中的計算執行特定DSS處理部分。

Dataiku DSS中的協作和版本控制概述

實施自動化場景、指標和檢查以測試DSS項目

使用DSS自動化節點和捆綁包部署和更新項目

在Dataiku DSS中使用即時API

  • DSS中的附加API和Rest API。

分析和預測Dataiku DSS時間序列

在Dataiku DSS中保護項目

  • 管理項目權限和儀表板授權。
  • 實施高級安全選項。

將Dataiku DSS與雲集成

故障排除

總結與結論

最低要求

  • 具備Python、SQL和R編程語言的經驗。
  • 具備使用Apache Hadoop和Spark進行數據處理的基礎知識。
  • 理解機器學習概念和數據模型。
  • 具備統計分析和數據科學概念的背景。
  • 具備數據可視化和溝通的經驗。

受衆

  • 工程師。
  • 數據科學家。
  • 數據分析師。
 21 時間:

課程分類