課程簡介

Speech Recognition 技术概览

  • 语音识别的历史与演变
  • 声学模型、语言模型与解码
  • 现代架构:RNNs、transformers 和 Whisper

音频预处理与转录基础

  • 处理音频格式与采样率
  • 音频的清理、修剪与分段
  • 从音频生成文本:实时与批量

Whisper 与其他 API 的实践

  • 安装与使用 OpenAI Whisper
  • 调用云 API(Google、Azure)进行转录
  • 比较性能、延迟与成本

语言、口音与领域适应

  • 处理多语言与口音
  • 自定义词汇与噪音容忍
  • 法律、医疗或技术语言处理

输出格式化与集成

  • 添加时间戳、标点符号与说话者标签
  • 导出为文本、SRT 或 JSON 格式
  • 将转录集成到 apps 或数据库中

Use Case 实现实验

  • 转录会议、采访或播客
  • 语音到文本命令系统
  • 视频/音频流的实时字幕

评估、限制与伦理

  • 准确性指标与模型基准测试
  • 语音模型中的偏见与公平性
  • 隐私与合规性考虑

总结与下一步

最低要求

  • 了解通用人工智能和機器學習概念
  • 熟悉音頻或媒體文件格式及工具

目標受眾

  • 處理語音數據的數據科學家和AI工程師
  • 開發基於轉錄應用的軟件開發人員
  • 探索語音識別以實現自動化的組織
 14 時間:

課程分類