課程簡介

Kafka管理基礎

  • Kafka在現代數據平臺中的定位及典型生產職責。
  • 操作員的核心概念:broker、主題、分區、偏移量、消費者組。
  • 複製基礎:leader和follower、同步副本、可用性權衡。
  • Kafka操作亮點及運行手冊中的常見術語。

KRaft模式與集羣設計

  • KRaft基礎:控制器、元數據仲裁、選舉及其操作意義。
  • 部署規劃:吞吐量、分區、保留和增長的容量規劃。
  • 節點角色和佈局:組合控制器與專用控制器,故障域考慮。
  • 實驗:檢查KRaft元數據,驗證仲裁健康,並解讀控制器日誌。

安裝、配置與日常操作

  • 安裝方法(包、壓縮包、容器)及企業環境中的標準化。
  • 影響可靠性的核心broker配置:監聽器、複製、日誌目錄、保留。
  • 安全服務操作:啓動順序、優雅關閉和驗證檢查。
  • 實驗:部署多節點集羣,驗證broker註冊,確認基礎生產和消費。

管理主題、分區與數據放置

  • 使用Kafka CLI管理主題生命週期:創建、描述、更新配置、刪除。
  • 爲實際工作負載選擇分區和複製因子,包括常見反模式。
  • 重新分配與平衡:何時移動分區及如何安全驗證進度。
  • 實驗:創建主題,觸發分區重新分配,模擬broker故障,並確認恢復。

爲生產環境保護Kafka

  • TLS用於客戶端和broker間流量:證書、信任鏈和驗證步驟。
  • 使用SASL進行身份驗證:選擇常見機制並避免配置錯誤。
  • 使用ACL進行授權:管理員、生產者和消費者的最小權限模式。
  • 實驗:啓用TLS和SASL,驗證客戶端連接,併爲應用角色應用ACL。

可觀測性、可靠性與故障排除

  • 監控要點:控制器健康、未同步分區、請求延遲、磁盤和網絡飽和。
  • 日誌與指標:讀取broker日誌,並通過JMX導出器將指標暴露給常見的可觀測性堆棧。
  • 操作手冊:滾動重啓、安全配置更改、處理磁盤滿和ISR問題。
  • 實驗:構建最小警報集,診斷降級集羣,並恢復健康的複製。

升級與災難恢復準備

  • Kafka升級規劃:兼容性檢查、分階段和回滾方法。
  • 備份與恢復期望:可備份的內容、不可備份的內容及配置恢復基礎。
  • 跨集羣複製概述及何時使用MirrorMaker 2進行災難恢復和遷移。
  • 總結:操作清單、交接文檔及生產部署的下一步。

最低要求

  • 瞭解基本的Linux管理(用戶、服務、文件、權限)。
  • 具備TCP/IP網絡概念的經驗(DNS、端口、防火牆、負載均衡器)。
  • 具備基本的腳本編寫經驗(Bash、PowerShell或類似工具)以處理日常操作任務。

受衆

  • 負責操作Kafka集羣的Kafka管理員和平臺工程師。
  • 支持流媒體平臺的站點可靠性工程師和DevOps工程師。
  • 部署新的基於KRaft的Kafka集羣或從ZooKeeper遷移的基礎設施和運維團隊。
 21 小時

客戶評論 (5)

課程分類