課程簡介

每節課2小時

第1天:第1節:大數據商業智能在政府中的業務概述

  • 來自NIH、能源部的案例研究
  • 大數據在政府機構中的適應率及他們如何圍繞大數據預測分析調整未來運營
  • 在國防部、國家安全局、國稅局、農業部等的廣泛應用領域
  • 大數據與遺留數據的接口
  • 預測分析中的使能技術的基本理解
  • 數據集成與儀表板可視化
  • 欺詐管理
  • 業務規則/欺詐檢測生成
  • 威脅檢測與畫像
  • 大數據實施的成本效益分析

第1天:第2節:大數據介紹-1

  • 大數據的主要特徵——數量、多樣性、速度和真實性。用於數量的MPP架構。
  • 數據倉庫——靜態模式,緩慢演變的數據集
  • MPP數據庫如Greenplum、Exadata、Teradata、Netezza、Vertica等
  • 基於Hadoop的解決方案——對數據集結構無要求
  • 典型模式:HDFS、MapReduce(處理)、從HDFS檢索
  • 批處理——適用於分析/非交互式
  • 數量:CEP流數據
  • 典型選擇——CEP產品(如Infostreams、Apama、MarkLogic等)
  • 不太成熟的——Storm/S4
  • NoSQL數據庫——(列式和鍵值):最適合作爲數據倉庫/數據庫的分析輔助工具

第1天:第3節:大數據介紹-2

NoSQL解決方案

  • KV存儲 - Keyspace、Flare、SchemaFree、RAMCloud、Oracle NoSQL數據庫(OnDB)
  • KV存儲 - Dynamo、Voldemort、Dynomite、SubRecord、Mo8onDb、DovetailDB
  • KV存儲(分層) - GT.m、Cache
  • KV存儲(有序) - TokyoTyrant、Lightcloud、NMDB、Luxio、MemcacheDB、Actord
  • KV緩存 - Memcached、Repcached、Coherence、Infinispan、EXtremeScale、JBossCache、Velocity、Terracoqua
  • 元組存儲 - Gigaspaces、Coord、Apache River
  • 對象數據庫 - ZopeDB、DB40、Shoal
  • 文檔存儲 - CouchDB、Cloudant、Couchbase、MongoDB、Jackrabbit、XML數據庫、ThruDB、CloudKit、Prsevere、Riak-Basho、Scalaris
  • 寬列存儲 - BigTable、HBase、Apache Cassandra、Hypertable、KAI、OpenNeptune、Qbase、KDI

數據多樣性:大數據中的數據清理問題介紹

  • RDBMS——靜態結構/模式,不支持敏捷、探索性環境。
  • NoSQL——半結構化,有足夠結構在存儲數據前無需確切模式
  • 數據清理問題

第1天:第4節:大數據介紹-3:Hadoop

  • 何時選擇Hadoop?
  • 結構化——企業數據倉庫/數據庫可以存儲大量數據(有成本),但強加結構(不利於主動探索)
  • 半結構化數據——傳統解決方案(數據倉庫/數據庫)難以處理
  • 數據倉庫=巨大的努力,即使實施後也是靜態的
  • 對於數據的多樣性和數量,在商品硬件上處理——Hadoop
  • 需要商品硬件來創建Hadoop集羣

MapReduce/HDFS介紹

  • MapReduce——在多個服務器上分佈式計算
  • HDFS——使數據在本地可用於計算過程(具有冗餘)
  • 數據——可以是非結構化/無模式的(與RDBMS不同)
  • 開發人員負責理解數據
  • 編程MapReduce=使用Java(優缺點),手動將數據加載到HDFS

第2天:第1節:大數據生態系統——構建大數據ETL:大數據工具的世界——何時使用哪種工具?

  • Hadoop與其他NoSQL解決方案
  • 對於交互式、隨機訪問數據
  • Hbase(列式數據庫)在Hadoop之上
  • 隨機訪問數據但有限制(最大1 PB)
  • 不適合臨時分析,適合日誌、計數、時間序列
  • Sqoop - 從數據庫導入到Hive或HDFS(JDBC/ODBC訪問)
  • Flume——將數據流(如日誌數據)導入HDFS

第2天:第2節:大數據管理系統

  • 移動部件,計算節點啓動/失敗:ZooKeeper——用於配置/協調/命名服務
  • 複雜管道/工作流:Oozie——管理工作流、依賴關係、鏈式調用
  • 部署、配置、集羣管理、升級等(系統管理員):Ambari
  • 在雲端:Whirr

第2天:第3節:商業智能中的預測分析-1:基本技術與基於機器學習的商業智能:

  • 機器學習介紹
  • 學習分類技術
  • 貝葉斯預測——準備訓練文件
  • 支持向量機
  • KNN p-Tree代數與垂直挖掘
  • 神經網絡
  • 大數據大變量問題——隨機森林(RF)
  • 大數據自動化問題——多模型集成RF
  • 通過Soft10-M實現自動化
  • 文本分析工具——Treeminer
  • 敏捷學習
  • 基於代理的學習
  • 分佈式學習
  • 預測分析的開源工具介紹:R、Rapidminer、Mahut

第2天:第4節:預測分析生態系統-2:政府中的常見預測分析問題

  • 洞察分析
  • 可視化分析
  • 結構化預測分析
  • 非結構化預測分析
  • 威脅/欺詐/供應商畫像
  • 推薦引擎
  • 模式檢測
  • 規則/場景發現——失敗、欺詐、優化
  • 根本原因發現
  • 情感分析
  • CRM分析
  • 網絡分析
  • 文本分析
  • 技術輔助審查
  • 欺詐分析
  • 即時分析

第3天:第1節:在Hadoop上實現即時和可擴展分析

  • 爲什麼常見的分析算法在Hadoop/HDFS中失敗
  • Apache Hama——用於批量同步分佈式計算
  • Apache SPARK——用於即時分析的集羣計算
  • CMU Graphics Lab2——基於圖的異步分佈式計算方法
  • Treeminer的KNN p-代數方法,降低硬件運營成本

第3天:第2節電子發現和取證工具

  • 大數據與遺留數據的電子發現——成本與性能比較
  • 預測編碼和技術輔助審查(TAR)
  • TAR產品(vMiner)的現場演示,瞭解TAR如何加快發現速度
  • 通過HDFS加快索引——數據速度
  • NLP或自然語言處理——各種技術與開源產品
  • 外語電子發現——外語處理技術

第3天:第3節:大數據商業智能在網絡安全中的應用——從快速數據收集到威脅識別的全方位理解

  • 理解安全分析的基礎——攻擊面、安全配置錯誤、主機防禦
  • 網絡基礎設施/大數據管道/即時分析響應ETL
  • 規定性與預測性——基於固定規則與從元數據自動發現威脅規則

第3天:第4節:大數據在農業部的應用:農業中的應用

  • 物聯網(IoT)在農業中的介紹——基於傳感器的大數據和控制
  • 衛星成像及其在農業中的應用介紹
  • 集成傳感器和圖像數據,用於土壤肥力、種植建議和預測
  • 農業保險與大數據
  • 作物損失預測

第4天:第1節:大數據在政府中的欺詐預防商業智能——欺詐分析:

  • 欺詐分析的基本分類——基於規則與預測分析
  • 監督與無監督機器學習用於欺詐模式檢測
  • 供應商欺詐/項目超額收費
  • 醫療保險和醫療補助欺詐——索賠處理中的欺詐檢測技術
  • 差旅報銷欺詐
  • IRS退稅欺詐
  • 案例研究和現場演示將在數據可用時提供。

第4天:第2節:社交媒體分析——情報收集與分析

  • 用於提取社交媒體數據的大數據ETL API
  • 文本、圖像、元數據和視頻
  • 社交媒體源的情感分析
  • 社交媒體源的上下文和非上下文過濾
  • 社交媒體儀表板,集成多種社交媒體
  • 社交媒體檔案的自動畫像
  • 通過Treeminer工具進行每種分析的現場演示。

第4天:第3節:大數據分析在圖像處理和視頻流中的應用

  • 大數據中的圖像存儲技術——超過PB級數據的存儲解決方案
  • LTFS和LTO
  • GPFS-LTFS(大數據的分層存儲解決方案)
  • 圖像分析的基礎
  • 物體識別
  • 圖像分割
  • 運動跟蹤
  • 3D圖像重建

第4天:第4節:大數據在NIH中的應用:

  • 生物信息學的新興領域
  • 元基因組學與大數據挖掘問題
  • 藥物基因組學、代謝組學和蛋白質組學的大數據預測分析
  • 下游基因組學過程中的大數據
  • 大數據預測分析在公共衛生中的應用

大數據儀表板,用於快速訪問和顯示多樣數據:

  • 將現有應用平臺與大數據儀表板集成
  • 大數據管理
  • 大數據儀表板案例研究:Tableau和Pentaho
  • 使用大數據應用程序在政府中推送基於位置的服務
  • 跟蹤系統和管理

第5天:第1節:如何證明大數據商業智能在組織中的實施:

  • 定義大數據實施的ROI
  • 節省分析師數據收集和準備時間的案例研究——提高生產力收益
  • 節省許可數據庫成本的收益案例研究
  • 基於位置服務的收益
  • 欺詐預防的節省
  • 用於計算大數據實施的大致費用與收益/節省的綜合電子表格方法。

第5天:第2節:從遺留數據系統遷移到大數據系統的分步程序:

  • 理解實際的大數據遷移路線圖
  • 在架構大數據實施之前需要哪些重要信息
  • 計算數據量、速度、多樣性和真實性的不同方法
  • 如何估算數據增長
  • 案例研究

第5天:第4節:大數據供應商及其產品回顧。問答環節:

  • Accenture
  • APTEAN(前身爲CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB(前身爲10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware(EMC的一部分)

最低要求

  • 對政府領域中的業務操作和數據系統有基本瞭解
  • 對SQL/Oracle或關係數據庫有基本理解
  • 對統計學有基本理解(在電子表格水平)
 35 時間:

客戶評論 (1)

課程分類