聯繫我們

課程簡介

語音辨識技術概覽

  • 語音辨識的歷史與演進
  • 音訊模型、語言模型及解碼機制
  • 現代架構:循環神經網路(RNN)、轉換器(Transformers)及 Whisper 模型

音訊預處理與轉錄基礎

  • 處理音訊格式與取樣率
  • 清理、剪輯及分割音訊
  • 從音訊生成文字:即時轉換 vs. 批次處理

Whisper 與其他 API 實作

  • 安裝與使用 OpenAI Whisper
  • 呼叫雲端 API(如 Google、Azure)進行轉錄
  • 比較效能、延遲時間及成本

語言、口音與領域適應

  • 處理多語言與不同口音
  • 自訂詞彙與抗噪能力
  • 處理法律、醫療或技術領域用語

輸出格式設定與整合

  • 加入時間戳記、標點符號及說話人標籤
  • 匯出為文字、SRT 或 JSON 格式
  • 將轉錄內容整合至應用程式或資料庫中

使用案例實作實驗室

  • 轉錄會議、訪談或播客
  • 語音轉文字命令系統
  • 影片/串流的即時字幕

評估、限制與倫理

  • 準確率指標與模型基準測試
  • 語音模型中的偏差與公平性
  • 隱私與合規考量

總結與後續步驟

最低要求

  • 具備通用 AI 及機器學習概念的理解
  • 熟悉音訊或媒體檔案格式與工具

受眾

  • 處理語音資料的數據科學家及 AI 工程師
  • 開發基於轉錄功能的應用程式之軟體開發人員
  • 探索利用語音辨識進行自動化的組織
 14 小時

課程分類