聯繫我們

課程簡介

機器學習介紹

  • 機器學習的類型——監督式 vs 非監督式
  • 從統計學習到機器學習
  • 數據挖掘工作流程:業務理解、數據準備、建模、部署
  • 為任務選擇合適的演算法
  • 過擬合與偏差-方差權衡

Python和ML庫概覽

  • 為什麼使用程式語言進行機器學習
  • 在R和Python之間做選擇
  • Python速成課程和Jupyter筆記本
  • Python庫:pandas, NumPy, scikit-learn, matplotlib, seaborn

ML演算法測試與評估

  • 泛化能力、過擬合和模型驗證
  • 評估策略:保留集、交叉驗證、Bootstrap
  • 回歸指標:ME, MSE, RMSE, MAPE
  • 分類指標:準確率、混淆矩陣、不平衡類別
  • 模型性能視覺化:利潤曲線、ROC曲線、提升圖
  • 模型選擇和網格搜索以進行調參

數據準備

  • Python中的數據導入與存儲
  • 探索性分析和描述性統計
  • 處理缺失值和異常值
  • 標準化、正規化和轉換
  • 使用pandas進行定性數據重新編碼和數據整理

分類演算法

  • 二分類與多類分類
  • 邏輯回歸與判別函數
  • 樸素貝葉斯、k近鄰
  • 決策樹:CART, Random Forests, Bagging, Boosting, XGBoost
  • 支持向量和核函數
  • 集成學習技術

回歸與數值預測

  • 最小二乘法與變量選擇
  • 正則化方法:L1, L2
  • 多項式回歸和非線性模型
  • 回歸樹和樣條函數

神經網絡

  • 神經網絡與深度學習介紹
  • 激勵函數、層和反向傳播
  • 多層感知器 (MLP)
  • 使用TensorFlow或PyTorch進行基本神經網絡建模
  • 用於分類與回歸的神經網絡

銷售預測與預測分析

  • 時間序列與基於回歸的預測
  • 處理季節性和趨勢數據
  • 使用ML技術構建銷售預測模型
  • 評估預測準確性與不確定性
  • 業務解讀與結果溝通

非監督式學習

  • 聚類技術:k-means, k-medoids, 層次聚類、SOMs
  • 維度約簡:PCA、因子分析、SVD
  • 多維縮放

文本挖掘

  • 文本預處理與分詞
  • 詞袋模型、詞幹提取和詞形還原
  • 情感分析和單詞頻率
  • 使用詞雲視覺化文本數據

推薦系統

  • 基於用戶和基於物品的協同過濾
  • 設計與評估推薦引擎

關聯模式挖掘

  • 頻繁項集和Apriori演算法
  • 市場籃子分析和提升比率

離群檢測

  • 極端值分析
  • 基於距離和基於密度的方法
  • 高維數據中的離群點檢測

機器學習案例研究

  • 理解業務問題
  • 數據預處理與特徵工程
  • 模型選擇與參數調優
  • 發現的評估與展示
  • 部署

總結與後續步驟

最低要求

  • 具備機器學習概念的基本知識,例如監督式和非監督式學習
  • 熟悉Python程式設計(變數、迴圈、函式)
  • 若有使用pandas或NumPy等庫進行數據處理的經驗將有助益,但非強制要求
  • 預期無需具備高級建模或神經網絡的先前經驗

受眾對象

  • 數據科學家
  • 業務分析師
  • 與數據相關的軟體工程師及其他技術專業人員
 28 小時

客戶評論 (3)

課程分類