KnowAgent 是滴滴開源的一站式日誌採集平台,基於日誌模板構建,採集任務動態管控、數據質量精確度量。
KnowAgent 源於滴滴多年來在各核心場景沉澱的超大規模採集引擎集群運維實踐經驗。經歷過多方考驗,對於大規模Agent 日誌採集的治理管控,採集任務與Agent 的可觀測性、健康度巡檢、故障診斷已經沉澱出一套完善的解決方案。
1.1 前置申明
1.1.1 Agent 與採集任務管控規模
KnowAgent
基於最小依賴、便於體驗,採用MySQL 存儲Agent 的Metrics 與Error Logs 數據。受制於MySQL 性能瓶頸,在單個採集任務對應一個採集路徑、Metrics 與Error Logs 數據保存週期為一周的情況下,支持50 個Agent 與50 個採集任務的管控。如需要管控更多的Agent 與採集任務,參見《如何替換Agent的Metrics與Error Logs數據存儲引擎以納管更大的Agent集群》。
1.1.2 容器採集
KnowAgent
目前對容器日誌採集未實現平台化支持,未來將提供全面的容器日誌採集平台化支持,參見《KnowAgent一站式日誌採集平台介紹》展望部分。
1.2 快速體驗地址
1.3 用戶體驗地圖
- 我的工作台
- 運營大盤:展示運營相關的核心指標數據。
- 運維大盤:展示運維相關的核心指標數據。
- 元數據中心
- 應用管理:維護應用相關信息、與
应用-主机
關聯關係。 - 接收端管理:維護Agent 數據流、指標流、錯誤日誌流的數據需要寫入的下游接收端相關信息。
- 元數據管理:維護用戶上傳的元數據Excel 档案(元數據Excel 文件內容含主機與應用信息),並提供元數據文件內容預覽、元數據導入功能。
- 應用管理:維護應用相關信息、與
- Agent 中心
- Agent 版本管理:維護各個版本的Agent 安裝包信息。
- Agent 管理:維護主機相關信息與Agent 配置、查看Agent 健康度與故障原因(健康度為黃或紅時顯示故障原因)。 Agent 啟動後,將攜帶宿主機信息自動向管理平台進行註冊,註冊成功後,即可對其進行管理。
- 採集任務管理:維護採集任務相關信息,查看採集任務健康度與故障原因(健康度為黃或紅時顯示故障原因)。
- 監控中心:
- Agent 指標看板:查看Agent 運行時全景指標(含:系統、進程、與Agent 自身業務指標)。
- 採集任務指標看板:用於查看採集任務在各個主機上的運行時全景指標。
- 運維中心
- 指標探查:查看Agent 與採集任務的運行時全景指標,支持多Agent、多采集任務進行對比分析、一體化觀測。
1.4 核心優勢
一站式日誌採集方案
高可靠、高性能、具備全方位可觀測性的採集引擎,與面向應用的易管控、易觀測、易治理的管理平台,大幅降低日誌數據採集接入成本,大幅提升日誌數據採集接入效率。
易融入流式計算
面向應用的採集任務、高可靠的採集引擎可確保在任意情況下的數據完整性、完善的監控指標,支撐可靠的採集任務的數據完整性校驗,這使得採集任務可作為流式計算的一種可靠的數據源,形成整個流式計算鏈路的數據完整性閉環。
生產級特性
經過長時間在各場景下大規模採集引擎集群運維沉澱的專家經驗,形成了全方位的可觀測性與完善的故障、風險感知與診斷能力,使較少的無需採集引擎先驗知識的普通運維人員亦能輕鬆運維龐大的採集引擎集群。
高性能
優異的持續採集性能,基於jdk11+,處理單行、單文件、無解析場景下發送日誌數據至kafka,持續吞吐量可達100MB/s以上,極限吞吐量可達150MB/s以上,CPU限制單核情況下,持續吞吐量可達40MB/s以上。
同類對比
維度 | Flume | FileBeat | Logi-Agent |
---|---|---|---|
可靠性 | 一般 | 一般 | 高可靠 |
採集性能 | Mb級 | 十Mb級 | 百Mb級 |
數據完整性 | 無法確保數據完整性 | 無法確保數據完整性 | 可確保數據完整性 |
採集任務級的租戶隔離 | 無法做到採集任務級的租戶隔離 | 無法做到採集任務級的租戶隔離 | 可做到採集任務級的租戶隔離 |
可擴展性 | 良好 | 一般 | 一般 |
資源消耗 | 高 | 低 | CPU消耗與FileBeat趨近(大採集量場景下CPU消耗較FileBeat更小),內存消耗較FileBeat略大(但在一個數量級上) |
監控指標的完善程度 | 較少指標 | 較少指標 | 完善的指標體系 |
可觀測性 | 無 | 無 | 具備全方位的可觀測性 |
是否容易配置 | 否 | 否 | 是 |
大規模運維複雜度 | 極高 | 極高 | 低 |
1.5 KnowAgent 架構
KnowAgent
是一站式的日誌採集平台,包括兩個組件:
- Agent:是基於Java 的高性能、支持多租戶隔離的採集引擎,它能在任意情況下(除:待採集數據在被採集前被移除,例如:日誌文件被歸檔或日誌文件滾動速度太快導致)保證採集數據的完整性,持續採集速度可達150MB+/秒。
- Agent Manager:是針對Agent 的管理平台。用於管理相關元數據、Agent與採集任務,自動巡檢Agent 與採集任務的健康度、故障診斷,指標展示。
2.1 產品文檔
#KnowAgent首頁文檔和下載 #一站式日誌採集平台 #科技資訊