課程簡介

介紹

安裝和配置Dataiku Data Science Studio (DSS)

  • Dataiku DSS的系統要求
  • 設置Apache Hadoop和Apache Spark集成
  • 配置Dataiku DSS與Web代理
  • 從其他平臺遷移到Dataiku DSS

Dataiku DSS功能和架構概述

  • Dataiku DSS的核心對象和圖表基礎
  • Dataiku DSS中的“配方”是什麼?
  • Dataiku DSS支持的數據集類型

創建Dataiku DSS項目

定義數據集以連接到Dataiku DSS中的數據資源

  • 使用DSS連接器和文件格式
  • 標準DSS格式與Hadoop特定格式對比
  • 爲Dataiku DSS項目上傳文件

Dataiku DSS中的服務器文件系統概述

創建和使用託管文件夾

  • Dataiku DSS的合併文件夾配方
  • 本地與非本地託管文件夾

使用託管文件夾內容構建文件系統數據集

  • 使用DSS代碼配方執行清理操作

使用指標數據集和內部統計數據集

實現DSS下載配方以獲取HTTP數據集

使用DSS重新定位SQL數據集和HDFS數據集

在Dataiku DSS中對數據集進行排序

  • 寫入順序與讀取時間順序

探索和準備Dataiku DSS項目的數據可視化

Dataiku模式、存儲類型和含義概述

在Dataiku DSS中執行數據清洗、規範化和豐富腳本

使用Dataiku DSS圖表界面和可視化聚合類型

利用DSS的交互式統計功能

  • 單變量分析與雙變量分析
  • 使用主成分分析(PCA)DSS工具

Dataiku DSS中的機器學習概述

  • 監督學習與非監督學習
  • DSS機器學習算法和特徵處理參考
  • 使用Dataiku DSS進行深度學習

Dataiku數據集和配方的流程概述

使用可視化配方轉換DSS中的現有數據集

使用基於用戶自定義代碼的DSS配方

使用DSS代碼筆記本優化代碼探索和實驗

使用Webapps編寫高級DSS可視化和自定義前端功能

使用Dataiku DSS代碼報告功能

共享數據項目元素並熟悉DSS儀表板

設計和打包Dataiku DSS項目爲可重用應用程序

Dataiku DSS中的高級方法概述

  • 使用DSS實現優化的數據集分區
  • 通過Kubernetes容器中的計算執行特定DSS處理部分

Dataiku DSS中的協作和版本控制概述

爲DSS項目測試實現自動化場景、指標和檢查

使用DSS自動化節點和捆綁包部署和更新項目

在Dataiku DSS中使用即時API

  • DSS中的附加API和Rest API

分析和預測Dataiku DSS時間序列

在Dataiku DSS中保護項目

  • 管理項目權限和儀表板授權
  • 實施高級安全選項

將Dataiku DSS與雲集成

故障排除

總結與結論

最低要求

  • 具備Python、SQL和R編程語言的使用經驗
  • 掌握使用Apache Hadoop和Spark進行數據處理的基礎知識
  • 理解機器學習概念和數據模型
  • 具備統計分析和數據科學概念的背景
  • 有數據可視化和溝通的經驗

受衆

  • 工程師
  • 數據科學家
  • 數據分析師
 21 時間:

課程分類