課程簡介
介紹
安裝和配置Dataiku Data Science Studio(DSS)
- Dataiku DSS的系統要求。
- 設置Apache Hadoop和Apache Spark集成。
- 配置Dataiku DSS與Web代理。
- 從其他平臺遷移到Dataiku DSS。
Dataiku DSS功能和架構概述
- Dataiku DSS的核心對象和圖表。
- Dataiku DSS中的“recipe”是什麼?
- Dataiku DSS支持的數據集類型。
創建Dataiku DSS項目
定義數據集以連接到Dataiku DSS中的數據資源
- 使用DSS連接器和文件格式。
- 標準DSS格式與Hadoop特定格式。
- 爲Dataiku DSS項目上傳文件。
Dataiku DSS中的服務器文件系統概述
創建和使用管理文件夾
- Dataiku DSS中的合併文件夾“recipe”。
- 本地與非本地管理文件夾。
使用管理文件夾內容構建文件系統數據集
- 使用DSS代碼“recipe”進行清理。
使用指標數據集和內部統計數據集
爲HTTP數據集實施DSS下載“recipe”
使用DSS重新定位SQL數據集和HDFS數據集
在Dataiku DSS中排序數據集
- 寫入排序與讀取時間排序。
探索和準備Dataiku DSS項目的數據可視化
Dataiku模式、存儲類型和含義概述
在Dataiku DSS中執行數據清洗、規範化和豐富化腳本
使用Dataiku DSS圖表界面和視覺聚合類型
利用DSS的交互式統計功能
- 單變量分析與雙變量分析。
- 使用主成分分析(PCA)DSS工具。
Dataiku DSS中的機器學習概述
- 監督學習與非監督學習。
- DSS ML算法和功能處理的參考。
- 使用Dataiku DSS進行深度學習。
DSS數據集和“recipe”生成的流程概述
使用視覺“recipe”轉換DSS中的現有數據集
使用基於用戶定義代碼的DSS“recipe”
使用DSS代碼筆記本優化代碼探索和實驗
使用Webapps編寫高級DSS可視化和自定義前端功能
使用Dataiku DSS代碼報告功能
共享數據項目元素並熟悉DSS儀表板
將Dataiku DSS項目設計和打包爲可重用應用程序
Dataiku DSS中的高級方法概述
- 使用DSS實現優化數據集分區。
- 通過Kubernetes容器中的計算執行特定DSS處理部分。
Dataiku DSS中的協作和版本控制概述
實施自動化場景、指標和檢查以測試DSS項目
使用DSS自動化節點和捆綁包部署和更新項目
在Dataiku DSS中使用即時API
- DSS中的附加API和Rest API。
分析和預測Dataiku DSS時間序列
在Dataiku DSS中保護項目
- 管理項目權限和儀表板授權。
- 實施高級安全選項。
將Dataiku DSS與雲集成
故障排除
總結與結論
最低要求
- 具備Python、SQL和R編程語言的經驗。
- 具備使用Apache Hadoop和Spark進行數據處理的基礎知識。
- 理解機器學習概念和數據模型。
- 具備統計分析和數據科學概念的背景。
- 具備數據可視化和溝通的經驗。
受衆
- 工程師。
- 數據科學家。
- 數據分析師。
