Perseus熔断机制|应对海量指标带来的采集风暴与告警轰炸

服务器突发海量日志、业务瞬间峰值时,海量指标会造成采集过载,从而引发平台告警频繁刷屏,产生误报或漏报,掩盖真实故障,也就是运维头疼的“采集风暴”和“告警轰炸”。Perseus内置独有的Agent熔断管控体系,通过熔断下发、熔断回收功能,灵活限制异常主机采集频次,从源头规避采集过载与无效告警,接下来详解熔断全配置实操。。一、什么是Agent熔断?。熔断即对指定主机Agent做采集限流,当主机指标突增、资源占用过高时,临时关闭部分监控项采集,避免海量数据打垮采集端与监控平台。故障修复后一键回收熔断,恢复正常采

服务器突发海量日志、业务瞬间峰值时,海量指标会造成采集过载,从而引发平台告警频繁刷屏,产生误报或漏报,掩盖真实故障,也就是运维头疼的 “采集风暴”和“告警轰炸”。Perseus内置独有的Agent熔断管控体系,通过熔断下发、熔断回收功能,灵活限制异常主机采集频次,从源头规避采集过载与无效告警,接下来详解熔断全配置实操。

一、什么是Agent熔断?

熔断即对指定主机Agent做采集限流,当主机指标突增、资源占用过高时,临时关闭部分监控项采集,避免海量数据打垮采集端与监控平台。故障修复后一键回收熔断,恢复正常采集。

二、两种熔断配置方式

方式 1:批量熔断下发(多台主机统一限流)

1.Agent主机列表勾选多台目标设备; 2.右上角【管理 - 熔断设置】,填写熔断规则:限制采集频率、停用部分指标组; image.png 3.点击【熔断下发】,规则批量同步至所有选中主机的Agent。 image.png

方式 2:单点快速熔断(单台故障服务器)

1.目标主机操作栏点开【更多】; 2.选择【熔断下发】,单独配置该主机限流策略并生效。 image.png

三、故障恢复:熔断回收操作

问题处理完毕后,两种回收路径: 1.批量回收:勾选主机→【管理 - 熔断回收】,批量清除限流规则; image.png 2.单点回收:操作栏→更多→熔断回收,单台恢复采集。 image.png

四、配套:异常Agent启停管理

Agent异常暂停采集后,可在更多菜单点击【启动】,一键重启采集进程,无需登录服务器操作。 image.png

0 条评论

请先 登录 后评论
小龙
小龙

2 篇文章

作家榜 »

  1. 乐维君 517 文章
  2. YOHOHO 14 文章
  3. 细雨闲花 13 文章
  4. 机灵小和尚 13 文章
  5. 我是一只小菜鸡 12 文章
  6. 。。。 9 文章
  7. 御前侍卫张五哥 9 文章
  8. 小黄人 8 文章