課程簡介

詳細培訓大綱

  1. NLP簡介
    • 理解NLP
    • NLP框架
    • NLP的商業應用
    • 從網路上抓取數據
    • 使用各種API獲取文本數據
    • 處理和存儲文本語料庫,保存內容及相關元數據
    • 使用Python和NLTK速成課程的優勢
  2. 語料庫和數據集的實際理解
    • 為什麼需要語料庫?
    • 語料庫分析
    • 數據屬性的類型
    • 語料庫的不同文件格式
    • 為NLP應用準備數據集
  3. 理解句子的結構
    • NLP的組成部分
    • 自然語言理解
    • 形態分析 - 詞幹、詞、詞元、詞性標籤
    • 句法分析
    • 語義分析
    • 處理歧義
  4. 文本數據預處理
    • 語料庫 - 原始文本
      • 句子分詞
      • 原始文本的詞幹提取
      • 原始文本的詞元化
      • 停用詞移除
    • 語料庫 - 原始句子
      • Word分詞
      • Word詞元化
    • 處理術語-文件/文件-術語矩陣
    • 將文本分詞為n-grams和句子
    • 實際和自定義的預處理
  5. 分析文本數據
    • NLP的基本特徵
      • 解析器和解析
      • 詞性標註和標註器
      • 命名實體識別
      • N-grams
      • 詞袋模型
    • NLP的統計特徵
      • NLP的線性代數概念
      • NLP的概率理論
      • TF-IDF
      • 向量化
      • 編碼器和解碼器
      • 正規化
      • 概率模型
    • 高級特徵工程和NLP
      • word2vec基礎
      • word2vec模型的組成部分
      • word2vec模型的邏輯
      • word2vec概念的擴展
      • word2vec模型的應用
    • 案例研究:詞袋模型的應用:使用簡化和真實的Luhn算法進行自動文本摘要
  6. 文件聚類、分類和主題建模
    • 文件聚類和模式挖掘(層次聚類、k-means聚類等)
    • 使用TFIDF、Jaccard和餘弦距離度量比較和分類文件
    • 使用樸素貝葉斯和最大熵進行文件分類
  7. 識別重要文本Element
    • 降維:主成分分析、奇異值分解、非負矩陣分解
    • 使用潛在語義分析進行主題建模和信息檢索
  8. 實體提取、Sentiment Analysis和高級主題建模
    • 正面與負面:情感程度
    • 項目反應理論
    • 詞性標註及其應用:查找文本中提到的人、地點和組織
    • 高級主題建模:潛在狄利克雷分配
  9. 案例研究
    • 挖掘非結構化用戶評論
    • 產品評論數據的情感分類和可視化
    • 挖掘搜索日誌以獲取使用模式
    • 文本分類
    • 主題建模

最低要求

了解NLP原理,並認識AI在商業中的應用

 21 時間:

客戶評論 (1)

課程分類