Q:问一下大哥们 怎么设置流量每个月下载大于40G报警? A:通常的做法流量是snmp监控,首先你要确定你的历史保留时间长达1个月才能对流量计数器进行采集后判断 Q:触发器应该怎么设置,达到40G直接告警? A:如果是做流量分析的话,snmp是做不到单独对下载量的告警的,因为无法判断其中还夹杂着其他的流量,要用更专业的netflow Q:zabbix监控流量好像可以报警 A:是可以,但是要保证历史数据要1个月,而且snmp取值的是统计值,不区分具体流量 Q:表达式该怎么构建呢? A:你可以单独对监控项进行调度采集,比如每个月的第一天采集一次,或者一个月的周期采集一次,然后进行前后值的判断 Q:好的 A:果你不想单独测试的话也可以用last的方式做比较,last()} - last(0,30d)}> 40G ,>号后面自己换算40G的实际值 Q:好的 A:last(0,30d) 表示返回30天前的最近的值,如果你历史没有保留那么久这触发器就不会生效 Q:我一般都是365 A:你说的是趋势数据吧 Q:不是 数据保存时间都是365,不过每隔三个月都会手动清理 A:可以做定时调度,手动清理太麻烦 Q:都是之前运维留下的烂摊子 还在慢慢弄 Q:麻烦问下有没有办法把限制触发器的触发频率?比如一小时内允许触发10次,10次以上关闭或忽略该触发器? A:目前对触发器是没有这种自动化动作的,如果触发器出现这种现场说明你设置的表达式有问题或者是采集端的问题导致(比如Agent hostanem重复)如果不想产生反复告警那可以尝试,.触发器表达式判断时间周期延长或阈值增加,比较常用的函数是 ”count“,如果不满足那么就得2开了 count(600)最近10分钟得到值的个数 count(600,12)最近10分钟得到值的个数等于12 count(600,12,"gt")最近10分钟得到值的个数大于12 count(#10,12,"gt")最近10个值中,值大于12的个数 count(600,12,"gt",86400)24小时之前的10分钟内值大于12的个数 #支持的操作类型 eq: 相等 ne: 不相等 gt: 大于 ge: 大于等于 lt: 小于 le: 小于等于 like: 内容匹配 diff Q:嗯,明白,那如果我把个别触发器独立出来关联到单独的动作里,应该怎么限制动作的执行时间到1小时 A:没有这样的动作,动作的触发都是基于1个告警周期的,你反复告警属于多个周期 Q:明白了,谢谢 |
错误信息