服务器突发海量日志、业务瞬间峰值时,海量指标会造成采集过载,从而引发平台告警频繁刷屏,产生误报或漏报,掩盖真实故障,也就是运维头疼的 “采集风暴”和“告警轰炸”。Perseus内置独有的Agent熔断管控体系,通过熔断下发、熔断回收功能,灵活限制异常主机采集频次,从源头规避采集过载与无效告警,接下来详解熔断全配置实操。
熔断即对指定主机Agent做采集限流,当主机指标突增、资源占用过高时,临时关闭部分监控项采集,避免海量数据打垮采集端与监控平台。故障修复后一键回收熔断,恢复正常采集。
1.Agent主机列表勾选多台目标设备;
2.右上角【管理 - 熔断设置】,填写熔断规则:限制采集频率、停用部分指标组;
3.点击【熔断下发】,规则批量同步至所有选中主机的Agent。

1.目标主机操作栏点开【更多】;
2.选择【熔断下发】,单独配置该主机限流策略并生效。

问题处理完毕后,两种回收路径:
1.批量回收:勾选主机→【管理 - 熔断回收】,批量清除限流规则;
2.单点回收:操作栏→更多→熔断回收,单台恢复采集。

Agent异常暂停采集后,可在更多菜单点击【启动】,一键重启采集进程,无需登录服务器操作。

错误信息