聯繫我們

課程簡介

詳細培訓大綱

  1. 自然語言處理簡介
    • 理解自然語言處理
    • 自然語言處理框架
    • 自然語言處理的商業應用
    • 從網頁抓取數據
    • 使用各種API獲取文本數據
    • 處理並存儲文本語料庫,保存內容及相關元數據
    • 使用Python和NLTK的速成課程的優勢
  2. 語料庫和數據集的實踐理解
    • 爲什麼需要語料庫?
    • 語料庫分析
    • 數據屬性的類型
    • 語料庫的不同文件格式
    • 爲自然語言處理應用準備數據集
  3. 句子結構的理解
    • 自然語言處理的組成部分
    • 自然語言理解
    • 形態分析 - 詞幹、單詞、詞元、詞性標註
    • 句法分析
    • 語義分析
    • 處理歧義
  4. 文本數據預處理
    • 語料庫 - 原始文本
      • 句子分詞
      • 原始文本的詞幹提取
      • 原始文本的詞形還原
      • 停用詞去除
    • 語料庫 - 原始句子
      • 單詞分詞
      • 單詞詞形還原
    • 處理詞項-文檔/文檔-詞項矩陣
    • 將文本分詞爲n-gram和句子
    • 實踐與定製預處理
  5. 文本數據分析
    • 自然語言處理的基本特徵
      • 解析器與解析
      • 詞性標註與標註器
      • 命名實體識別
      • n-gram
      • 詞袋模型
    • 自然語言處理的統計特徵
      • 線性代數在自然語言處理中的應用
      • 概率論在自然語言處理中的應用
      • TF-IDF
      • 向量化
      • 編碼器與解碼器
      • 歸一化
      • 概率模型
    • 高級特徵工程與自然語言處理
      • word2vec基礎
      • word2vec模型的組成部分
      • word2vec模型的邏輯
      • word2vec概念的擴展
      • word2vec模型的應用
    • 案例研究:詞袋模型的應用:使用簡化和真實Luhn算法進行自動文本摘要
  6. 文檔聚類、分類與主題建模
    • 文檔聚類與模式挖掘(層次聚類、k-means聚類等)
    • 使用TFIDF、Jaccard和餘弦距離度量比較和分類文檔
    • 使用樸素貝葉斯和最大熵進行文檔分類
  7. 識別重要文本元素
    • 降維:主成分分析、奇異值分解、非負矩陣分解
    • 使用潛在語義分析進行主題建模與信息檢索
  8. 實體提取、情感分析與高級主題建模
    • 正面與負面:情感程度
    • 項目反應理論
    • 詞性標註及其應用:識別文本中提及的人、地點和組織
    • 高級主題建模:潛在狄利克雷分配
  9. 案例研究
    • 挖掘非結構化用戶評論
    • 產品評論數據的情感分類與可視化
    • 挖掘搜索日誌以獲取使用模式
    • 文本分類
    • 主題建模

最低要求

瞭解自然語言處理的基本原理,並理解AI在業務中的應用。

 21 小時

客戶評論 (1)

課程分類