聯繫我們

課程簡介

音訊分類基礎

  • 聲音事件類型:環境音、機械音、人類產生的聲音
  • 應用案例概覽:監控、監測、自動化
  • 音訊分類與偵測及分割的區別

音訊數據與特徵提取

  • 音訊檔案類型與格式
  • 取樣率、窗口處理、幀長考量
  • 提取MFCC、音高特徵、Mel語譜圖

資料準備與標註

  • UrbanSound8K、ESC-50及自訂數據集
  • 標註聲音事件與時間邊界
  • 平衡數據集與音訊增強

建立音訊分類模型

  • 使用卷積神經網路進行音訊處理
  • 模型輸入:原始波形或特徵
  • 損失函數、評估指標及過擬合問題

事件偵測與時間定位

  • 基於幀與基於區間的偵測策略
  • 使用閾值與平滑技術進行後處理
  • 在音訊時間軸上視覺化預測結果

進階主題與即時處理

  • 針對少數據場景的遷移學習
  • 透過TensorFlow Lite或ONNX部署模型
  • 串流音訊處理與延遲考量

專案開發與應用情境

  • 設計完整流程:從資料攝取到分類
  • 開發針對監控、品質控制或監測的概念驗證
  • 記錄日誌、發送警報並整合至儀表板或API

總結與後續步驟

最低要求

  • 具備機器學習概念與模型訓練的理解
  • 擁有Python程式設計與資料預處理的經驗
  • 熟悉數位音訊基礎知識

對象

  • 資料科學家
  • 機器學習工程師
  • 從事音訊信號研究的研發人員
 21 小時

課程分類