課程簡介

多模態AI與Ollama簡介

  • 多模態學習概述
  • 視覺-語言集成中的關鍵挑戰
  • Ollama的功能與架構

Ollama環境設置

  • 安裝與配置Ollama
  • 本地模型部署
  • 將Ollama與Python和Jupyter集成

多模態輸入處理

  • 文本與圖像集成
  • 音頻與結構化數據融合
  • 設計預處理流水線

文檔理解應用

  • 從PDF和圖像中提取結構化信息
  • 將OCR與語言模型結合
  • 構建智能文檔分析工作流

視覺問答(VQA)

  • 設置VQA數據集與基準
  • 訓練與評估多模態模型
  • 構建交互式VQA應用

設計多模態代理

  • 多模態推理的代理設計原則
  • 結合感知、語言與行動
  • 爲實際用例部署代理

高級集成與優化

  • 使用Ollama微調多模態模型
  • 優化推理性能
  • 可擴展性與部署考慮

總結與下一步

最低要求

  • 深入理解機器學習概念
  • 具備使用深度學習框架(如PyTorch或TensorFlow)的經驗
  • 熟悉自然語言處理和計算機視覺

受衆

  • 機器學習工程師
  • AI研究員
  • 集成視覺和文本工作流的產品開發者
 21 時間:

課程分類