问题一
Q:老师,请教个问题,zabbix通过自动发现扫描网段,然后添加主机,有没有什么办法区分路由器或者交换机类型的方法,这样才能把交换机模板或者路由器模板挂给对应的主机
A:不多的话, 批量加2次模板就行了
Q:后续上线网络设备后,如果我们组之间沟通不协调,监控会有一些误差或者遗漏,想减少人工去介入
A:可以找一下类型的oid。然后匹配交换机和路由器的字段套上对应的模板
Q:老师,没有网络设备类型通用的oid吧
A:主机名oid应该是通用的,华为和华三、cisco的mib比较通用
A:cisco进入特权模式有条命令show snmp-server oidlist。可以看到设备的oid的列表。前面是描述,后面是对应的oid,华三和华为应该也是有对应的命令,具体可能需要问下客服
Q:好的,我去试试cisco
Q:那要想做全自动呢?
A:全自动的话,一般这边是通过型号的oid,提取到型号的关键字,cisco字眼的的就套cisco模板,华为就套华为的模板,华三的就套华三的模板
Q:嗯嗯,这种方法我们想过,只要拿到所有设备的型号,在自动发现的时候就可以通过型号区分是交换机还是路由器,感觉太复杂,想要更简单的做法。
问题二
Q:请华为以前看设备的oid可以通过什么命令查看吗?比较老的设备
A:你去华为设备执行show snmp-server oidlist看下有没有,没有的话,可以用snmpwalk -v snmp版本 -c团体名称 ip获取设备的oid
Q:我试过了,没有内存使用率和CPU的值,直接这么筛查的
A:这种筛选序列号,型号,版本可能基本固定的值可以,但是筛选动态值估计不行
Q:怎么查比较好呢
A:可以从这个华为官网知识库找对应的mib下载下来。
https://support.huawei.com/enterprise/zh/index.html
Q:有些型号貌似没有了
A:如果实在找不到mib的话,还可以用zabbix自带的ssh监控方式,就是提供ssh用户名和密码后,执行命令,获取了内存,cpu利用率后加预处理的javascript做过滤就行了,另外华为有个查设备oid的官网可以看看
问题三
想请教一下,就是这个代理机上面的agent时不时隔几十分钟就报这样的错误,但是只要重启了zabbix_server就变好了但是过了一会又会出现,这种情况该怎么搞请教一下
A:把数据库删了重新安装,数据库的问题
Q:这种情况只能重装数据库了吗?
A:重置数据库快,查来查去麻烦
问题四
Q:有大佬知道zabbix 初始化这个报错是啥意思吗?数据库可以链接
A:你数据库配置信息有误,不选TLS
Q:还真是,这是啥原理
A:tls是加密链接,你数据库没有配tls,zabbix开了就会失败,数据库和zabbix都配了tls才行
问题五
Q:这个卡爆了,怎么办啊
A:你的服务器性能多少?监控数量多少?
Q:32核32g,2万多监控数量
A:能发一下zabbix_server的配置参数截图吗
A:你有套官网自带那个zabbix的自监控模板吗?
A:这个图,可以看下是那些进程利用率高,有助于排查是snmp监控,java监控,icmp监控,ipmi监控导致的问题
Q:
A:
Q:这4项全部加大?
A:调整一下zabbix的参数,然后重启一下,再观察一下,数据库有做过表分区优化吗?是的,全部加大,另外同步进程数量那个你是调整过吧?dbsyner那个
Q:没做过表分区优化,同步进程数量调大了,感觉也没用,就如最上面那个图,卡到爆
A:看一下zabbix_server的日志。
Q:日志跳的很快,看不到个啥,另外,那个history sync每个整点都会同步,能不能改一下同步的周期和时间?
A:这个应该不是整点同步的,这是zabbix的进程是用来负责将数据写入数据库、计算监控数据并生成事件的进程。应该是实时的,就是监控项到了一定的时间采集数据后写入到数据库,如果他进程大量延迟,有可能是服务器io有问题,也有可能是数据库服务器写入延迟。
错误信息