課程簡介

數據分析和Big Data簡介

  • 什麼使Big Data“大”?
    • 速度、體量、多樣性、真實性(VVVV)
  • 傳統數據處理的侷限性
  • 分佈式處理
  • 統計分析
  • 機器學習分析類型
  • 數據可視化

Big Data角色和職責

  • 管理員
  • 開發者
  • 數據分析師

用於數據分析的語言

  • R語言
    • 爲什麼選擇R進行數據分析?
    • 數據操作、計算和圖形展示
  • Python
    • 爲什麼選擇Python進行數據分析?
    • 數據操作、處理、清理和計算

數據分析方法

  • 統計分析
    • 時間序列分析
    • 使用相關性和迴歸模型進行預測
    • 推斷統計(估計)
    • 大數據集中的描述性統計(例如計算平均值)
  • 機器學習
    • 監督學習與非監督學習
    • 分類和聚類
    • 估算特定方法的成本
    • 過濾
  • 自然語言處理
    • 處理文本
    • 理解文本含義
    • 自動文本生成
    • 情感分析/主題分析
  • 計算機視覺
    • 獲取、處理、分析和理解圖像
    • 重建、解釋和理解3D場景
    • 使用圖像數據做出決策

Big Data基礎設施

  • 數據存儲
    • 關係型數據庫(SQL)
      • MySQL
      • Postgres
      • Oracle
    • 非關係型數據庫(NoSQL)
      • Cassandra
      • MongoDB
      • Neo4js
    • 理解各種數據庫的細微差別
      • 層次數據庫
      • 面向對象數據庫
      • 面向文檔數據庫
      • 圖數據庫
      • 其他
  • 分佈式處理
    • Hadoop
      • HDFS作爲分佈式文件系統
      • MapReduce用於分佈式處理
    • Spark
      • 用於大規模數據處理的一體化內存集羣計算框架
      • 結構化流處理
      • Spark SQL
      • 機器學習庫:MLlib
      • 使用GraphX進行圖處理
  • 可擴展性
    • 公有云
      • AWS、Google、阿里雲等
    • 私有云
      • OpenStack、Cloud Foundry等
    • 自動擴展

爲問題選擇正確的解決方案

Big Data的未來

總結與下一步

最低要求

  • 對數學有基本瞭解
  • 對編程有基本瞭解
  • 對數據庫有基本瞭解

受衆

  • 開發者/程序員
  • IT顧問
 35 時間:

客戶評論 (7)

課程分類