課程簡介
介紹
安裝和配置Dataiku Data Science Studio (DSS)
- Dataiku DSS的系統要求
- 設置Apache Hadoop和Apache Spark集成
- 配置Dataiku DSS與Web代理
- 從其他平臺遷移到Dataiku DSS
Dataiku DSS功能和架構概述
- Dataiku DSS的核心對象和圖表基礎
- Dataiku DSS中的“配方”是什麼?
- Dataiku DSS支持的數據集類型
創建Dataiku DSS項目
定義數據集以連接到Dataiku DSS中的數據資源
- 使用DSS連接器和文件格式
- 標準DSS格式與Hadoop特定格式對比
- 爲Dataiku DSS項目上傳文件
Dataiku DSS中的服務器文件系統概述
創建和使用託管文件夾
- Dataiku DSS的合併文件夾配方
- 本地與非本地託管文件夾
使用託管文件夾內容構建文件系統數據集
- 使用DSS代碼配方執行清理操作
使用指標數據集和內部統計數據集
實現DSS下載配方以獲取HTTP數據集
使用DSS重新定位SQL數據集和HDFS數據集
在Dataiku DSS中對數據集進行排序
- 寫入順序與讀取時間順序
探索和準備Dataiku DSS項目的數據可視化
Dataiku模式、存儲類型和含義概述
在Dataiku DSS中執行數據清洗、規範化和豐富腳本
使用Dataiku DSS圖表界面和可視化聚合類型
利用DSS的交互式統計功能
- 單變量分析與雙變量分析
- 使用主成分分析(PCA)DSS工具
Dataiku DSS中的機器學習概述
- 監督學習與非監督學習
- DSS機器學習算法和特徵處理參考
- 使用Dataiku DSS進行深度學習
Dataiku數據集和配方的流程概述
使用可視化配方轉換DSS中的現有數據集
使用基於用戶自定義代碼的DSS配方
使用DSS代碼筆記本優化代碼探索和實驗
使用Webapps編寫高級DSS可視化和自定義前端功能
使用Dataiku DSS代碼報告功能
共享數據項目元素並熟悉DSS儀表板
設計和打包Dataiku DSS項目爲可重用應用程序
Dataiku DSS中的高級方法概述
- 使用DSS實現優化的數據集分區
- 通過Kubernetes容器中的計算執行特定DSS處理部分
Dataiku DSS中的協作和版本控制概述
爲DSS項目測試實現自動化場景、指標和檢查
使用DSS自動化節點和捆綁包部署和更新項目
在Dataiku DSS中使用即時API
- DSS中的附加API和Rest API
分析和預測Dataiku DSS時間序列
在Dataiku DSS中保護項目
- 管理項目權限和儀表板授權
- 實施高級安全選項
將Dataiku DSS與雲集成
故障排除
總結與結論
最低要求
- 具備Python、SQL和R編程語言的使用經驗
- 掌握使用Apache Hadoop和Spark進行數據處理的基礎知識
- 理解機器學習概念和數據模型
- 具備統計分析和數據科學概念的背景
- 有數據可視化和溝通的經驗
受衆
- 工程師
- 數據科學家
- 數據分析師